KR102364935B1 - A method and apparatus for data transmission for improving 5G-based speech recognition response speed - Google Patents

A method and apparatus for data transmission for improving 5G-based speech recognition response speed Download PDF

Info

Publication number
KR102364935B1
KR102364935B1 KR1020190176417A KR20190176417A KR102364935B1 KR 102364935 B1 KR102364935 B1 KR 102364935B1 KR 1020190176417 A KR1020190176417 A KR 1020190176417A KR 20190176417 A KR20190176417 A KR 20190176417A KR 102364935 B1 KR102364935 B1 KR 102364935B1
Authority
KR
South Korea
Prior art keywords
voice signal
text information
user
voice
data transmission
Prior art date
Application number
KR1020190176417A
Other languages
Korean (ko)
Other versions
KR20210083782A (en
Inventor
조용석
Original Assignee
주식회사 포켓메모리
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 포켓메모리 filed Critical 주식회사 포켓메모리
Priority to KR1020190176417A priority Critical patent/KR102364935B1/en
Publication of KR20210083782A publication Critical patent/KR20210083782A/en
Application granted granted Critical
Publication of KR102364935B1 publication Critical patent/KR102364935B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명은 5G 기반의 음성인식 반응속도 개선을 위한 데이터 전송 방법 및 장치에 관한 것이다. 본 발명의 일 실시예에 따른 5G 기반의 음성인식 반응속도 개선을 위한 데이터 전송 방법은 (a) 사용자 단말로부터 사용자의 제1 음성 신호를 수신하는 단계; (b) 음성인식을 통해 상기 제1 음성 신호를 제1 텍스트 정보로 변환하는 단계; (c) 상기 제1 텍스트 정보를 이용하여 상기 사용자의 제2 음성 신호에 대응하는 제2 텍스트 정보를 추정하는 단계; 및 (d) 상기 사용자 단말에게 상기 제1 텍스트 정보 및 제2 텍스트 정보 중 적어도 하나를 송신하는 단계;를 포함할 수 있다. The present invention relates to a data transmission method and apparatus for improving 5G-based voice recognition response speed. A data transmission method for improving response speed of 5G-based voice recognition according to an embodiment of the present invention includes the steps of: (a) receiving a user's first voice signal from a user terminal; (b) converting the first voice signal into first text information through voice recognition; (c) estimating second text information corresponding to the user's second voice signal using the first text information; and (d) transmitting at least one of the first text information and the second text information to the user terminal.

Description

5G 기반의 음성인식 반응속도 개선을 위한 데이터 전송 방법 및 장치{A method and apparatus for data transmission for improving 5G-based speech recognition response speed}A method and apparatus for data transmission for improving 5G-based speech recognition response speed

본 발명은 5G 기반의 음성인식 반응속도 개선을 위한 데이터 전송 방법 및 장치에 관한 것으로, 더욱 상세하게는 실시간 단어 분석을 통한 5G 기반의 음성인식 반응속도 개선을 위한 데이터 전송 방법 및 장치에 관한 것이다.The present invention relates to a data transmission method and apparatus for improving 5G-based voice recognition reaction speed, and more particularly, to a data transmission method and apparatus for improving 5G-based speech recognition reaction speed through real-time word analysis.

음성 인식 기술은 미리 수집된 음성데이터로부터 각 음소별 확률 모델을 미리 학습하고, 이후 입력된 음성데이터가 어느 음소에 가장 가까운지를 판단하여 이로부터 음소열을 추정하는 방식을 사용한다. 이때 사용하는 각 음소별 확률 모델을 음향모델이라고 부르며, 음향모델은 음성 인식 기술의 성능을 좌우하는 중요한 요소 중에 하나이다.Speech recognition technology uses a method of pre-learning a probabilistic model for each phoneme from previously collected voice data, determining which phoneme the input voice data is closest to, and estimating a phoneme sequence from this. The probabilistic model for each phoneme used at this time is called an acoustic model, and the acoustic model is one of the important factors influencing the performance of speech recognition technology.

최근 음성 인식 기술의 관심이 집중되면서, 음성 인식을 용이하게 하기 위한 다양한 알고리즘이 제안되었다. 다만, 기존의 음성 인식 기술은 음성 인식을 어떠한 방식으로 수행할 것인지에 대한 연구만이 진행되고 있을 뿐, 음성인식 반응속도를 향상시키기 위한 방식을 제시하지 못하는 문제점이 있다.As interest in speech recognition technology has recently been focused, various algorithms for facilitating speech recognition have been proposed. However, the existing voice recognition technology has a problem in that only research on how to perform voice recognition is being conducted, and a method for improving the voice recognition reaction speed cannot be presented.

[특허문헌 1] 한국공개특허 제10-2019-0035454호[Patent Document 1] Korean Patent Publication No. 10-2019-0035454

본 발명은 전술한 문제점을 해결하기 위하여 창출된 것으로, 5G 기반의 음성인식 반응속도 개선을 위한 데이터 전송 방법 및 장치를 제공하는 것을 그 목적으로 한다.The present invention was created to solve the above problems, and an object of the present invention is to provide a data transmission method and apparatus for improving 5G-based voice recognition response speed.

본 발명은 사용자의 제1 음성 신호로부터 변환된 제1 텍스트 정보를 이용하여 사용자의 제2 음성 신호에 대응하는 제2 텍스트 정보를 추정하기 위한 방법 및 장치를 제공하는 것을 그 목적으로 한다. An object of the present invention is to provide a method and apparatus for estimating second text information corresponding to a user's second voice signal by using the first text information converted from the user's first voice signal.

본 발명의 목적들은 이상에서 언급한 목적들로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 명확하게 이해될 수 있을 것이다.Objects of the present invention are not limited to the objects mentioned above, and other objects not mentioned will be clearly understood from the description below.

상기한 목적들을 달성하기 위하여, 본 발명의 일 실시예에 따른 5G 기반의 음성인식 반응속도 개선을 위한 데이터 전송 방법은 (a) 사용자 단말로부터 사용자의 제1 음성 신호를 수신하는 단계; (b) 음성인식을 통해 상기 제1 음성 신호를 제1 텍스트 정보로 변환하는 단계; (c) 상기 제1 텍스트 정보를 이용하여 상기 사용자의 제2 음성 신호에 대응하는 제2 텍스트 정보를 추정하는 단계; 및 (d) 상기 사용자 단말에게 상기 제1 텍스트 정보 및 제2 텍스트 정보 중 적어도 하나를 송신하는 단계;를 포함할 수 있다.In order to achieve the above objects, according to an embodiment of the present invention, there is provided a data transmission method for improving a 5G-based voice recognition response speed, comprising the steps of: (a) receiving a user's first voice signal from a user terminal; (b) converting the first voice signal into first text information through voice recognition; (c) estimating second text information corresponding to the user's second voice signal using the first text information; and (d) transmitting at least one of the first text information and the second text information to the user terminal.

실시예에서, 상기 (a) 단계는, 상기 제1 음성 신호의 데시벨(decibel, dB)이 임계값 이상인 경우, 상기 사용자의 제1 음성 신호를 획득하는 단계;를 포함할 수 있다. In an embodiment, the step (a) may include obtaining the first voice signal of the user when the decibel (dB) of the first voice signal is equal to or greater than a threshold value.

실시예에서, 상기 5G 기반의 음성인식 반응속도 개선을 위한 데이터 전송 방법은 상기 (c) 단계와 (d) 단계 사이에, 상기 사용자 단말로부터 상기 사용자의 제2 음성 신호를 수신하는 단계;를 더 포함할 수 있다. In an embodiment, the data transmission method for improving the 5G-based voice recognition response speed includes, between steps (c) and (d), receiving the user's second voice signal from the user terminal; may include

실시예에서, 상기 (d) 단계는, 상기 추정된 제2 텍스트 정보를 상기 제2 음성 신호로 역변환하는 단계; 상기 역변환된 제2 음성 신호와 상기 수신된 제2 음성 신호가 일치하는지 여부를 판단하는 단계; 상기 역변환된 제2 음성 신호와 상기 수신된 제2 음성 신호가 일치하는 경우, 상기 사용자 단말에게 상기 제1 텍스트 정보 및 제2 텍스트 정보 중 적어도 하나를 송신하는 단계;를 포함할 수 있다. In an embodiment, the step (d) includes: inversely transforming the estimated second text information into the second voice signal; determining whether the inversely transformed second voice signal matches the received second voice signal; and transmitting at least one of the first text information and the second text information to the user terminal when the inversely transformed second voice signal matches the received second voice signal.

실시예에서, 상기 (d) 단계는, 상기 역변환된 제2 음성 신호와 상기 수신된 제2 음성 신호가 일치하지 않는 경우, 상기 음성인식을 통해 상기 수신된 제2 음성 신호를 제2 텍스트 정보로 변환하는 단계; 및 상기 사용자 단말에게 상기 제1 텍스트 정보 및 제2 텍스트 정보 중 적어도 하나를 송신하는 단계;를 포함할 수 있다. In an embodiment, in the step (d), when the inversely transformed second voice signal and the received second voice signal do not match, the second voice signal received through the voice recognition is converted into second text information. converting; and transmitting at least one of the first text information and the second text information to the user terminal.

실시예에서, 상기 (c) 단계는, 상기 제1 텍스트 정보를 음성인식 인공지능 학습모델에 적용하여, 상기 사용자의 제2 음성 신호에 대응하는 제2 텍스트 정보를 추정하는 단계;를 포함할 수 있다. In an embodiment, the step (c) may include estimating second text information corresponding to the user's second voice signal by applying the first text information to a voice recognition artificial intelligence learning model. there is.

실시예에서, 5G 기반의 음성인식 반응속도 개선을 위한 데이터 전송 장치는 사용자 단말로부터 사용자의 제1 음성 신호를 수신하는 통신부; 및 음성인식을 통해 상기 제1 음성 신호를 제1 텍스트 정보로 변환하고, 상기 제1 텍스트 정보를 이용하여 상기 사용자의 제2 음성 신호에 대응하는 제2 텍스트 정보를 추정하는 제어부;를 포함하고, 상기 통신부는, 상기 사용자 단말에게 상기 제1 텍스트 정보 및 제2 텍스트 정보 중 적어도 하나를 송신할 수 있다. In an embodiment, a data transmission apparatus for improving 5G-based voice recognition response speed includes: a communication unit configured to receive a user's first voice signal from a user terminal; and a controller for converting the first voice signal into first text information through voice recognition and estimating second text information corresponding to the user's second voice signal using the first text information; The communication unit may transmit at least one of the first text information and the second text information to the user terminal.

실시예에서, 상기 통신부는, 상기 제1 음성 신호의 데시벨(decibel, dB)이 임계값 이상인 경우, 상기 사용자의 제1 음성 신호를 획득할 수 있다. In an embodiment, the communication unit may acquire the user's first voice signal when a decibel (dB) of the first voice signal is equal to or greater than a threshold value.

실시예에서, 상기 통신부는, 상기 사용자 단말로부터 상기 사용자의 제2 음성 신호를 수신할 수 있다. In an embodiment, the communication unit may receive the user's second voice signal from the user terminal.

실시예에서, 상기 제어부는, 상기 추정된 제2 텍스트 정보를 상기 제2 음성 신호로 역변환하고, 상기 역변환된 제2 음성 신호와 상기 수신된 제2 음성 신호가 일치하는지 여부를 판단하고, 상기 통신부는, 상기 역변환된 제2 음성 신호와 상기 수신된 제2 음성 신호가 일치하는 경우, 상기 사용자 단말에게 상기 제1 텍스트 정보 및 제2 텍스트 정보 중 적어도 하나를 송신할 수 있다. In an embodiment, the control unit inversely transforms the estimated second text information into the second voice signal, determines whether the inversely transformed second voice signal matches the received second voice signal, and the communication unit may transmit at least one of the first text information and the second text information to the user terminal when the inversely transformed second voice signal matches the received second voice signal.

실시예에서, 상기 제어부는, 상기 역변환된 제2 음성 신호와 상기 수신된 제2 음성 신호가 일치하지 않는 경우, 상기 음성인식을 통해 상기 수신된 제2 음성 신호를 제2 텍스트 정보로 변환하고, 상기 통신부는, 상기 사용자 단말에게 상기 제1 텍스트 정보 및 제2 텍스트 정보 중 적어도 하나를 송신할 수 있다. In an embodiment, when the inversely transformed second voice signal and the received second voice signal do not match, the control unit converts the received second voice signal into second text information through the voice recognition, The communication unit may transmit at least one of the first text information and the second text information to the user terminal.

실시예에서, 상기 제어부는, 상기 제1 텍스트 정보를 음성인식 인공지능 학습모델에 적용하여, 상기 사용자의 제2 음성 신호에 대응하는 제2 텍스트 정보를 추정할 수 있다. In an embodiment, the controller may apply the first text information to a speech recognition artificial intelligence learning model to estimate second text information corresponding to the user's second voice signal.

상기한 목적들을 달성하기 위한 구체적인 사항들은 첨부된 도면과 함께 상세하게 후술될 실시예들을 참조하면 명확해질 것이다.Specific details for achieving the above objects will become clear with reference to the embodiments to be described in detail below in conjunction with the accompanying drawings.

그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라, 서로 다른 다양한 형태로 구성될 수 있으며, 본 발명의 개시가 완전하도록 하고 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자(이하, "통상의 기술자")에게 발명의 범주를 완전하게 알려주기 위해서 제공되는 것이다.However, the present invention is not limited to the embodiments disclosed below, it may be configured in various different forms, and those of ordinary skill in the art to which the present invention belongs ( Hereinafter, "a person skilled in the art") is provided to fully inform the scope of the invention.

본 발명의 일 실시예에 의하면, 사용자의 제1 음성 신호로부터 변환된 제1 텍스트 정보를 이용하여 사용자의 제2 음성 신호에 대응하는 제2 텍스트 정보를 추정함으로써, 음성인식 반응속도를 향상시킬 수 있다. According to an embodiment of the present invention, by estimating the second text information corresponding to the user's second voice signal using the first text information converted from the user's first voice signal, it is possible to improve the speech recognition reaction speed. there is.

본 발명의 효과들은 상술된 효과들로 제한되지 않으며, 본 발명의 기술적 특징들에 의하여 기대되는 잠정적인 효과들은 아래의 기재로부터 명확하게 이해될 수 있을 것이다.Effects of the present invention are not limited to the above-described effects, and potential effects expected by the technical features of the present invention will be clearly understood from the following description.

도 1은 본 발명의 일 실시예에 따른 음성인식 시스템을 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 사용자의 음성 신호를 도시한 도면이다.
도 3은 본 발명의 일 실시예에 따른 5G 기반의 음성인식 반응속도 개선을 위한 데이터 전송 방법을 도시한 도면이다.
도 4는 본 발명의 일 실시예에 따른 5G 기반의 음성인식 반응속도 개선을 위한 데이터 전송 장치를 도시한 도면이다.
1 is a diagram illustrating a voice recognition system according to an embodiment of the present invention.
2 is a diagram illustrating a user's voice signal according to an embodiment of the present invention.
3 is a diagram illustrating a data transmission method for improving 5G-based voice recognition response speed according to an embodiment of the present invention.
4 is a diagram illustrating a data transmission apparatus for improving 5G-based voice recognition response speed according to an embodiment of the present invention.

본 발명은 다양한 변경을 가할 수 있고, 여러 가지 실시예들을 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 이를 상세히 설명하고자 한다. Since the present invention can have various changes and can have various embodiments, specific embodiments are illustrated in the drawings and described in detail.

청구범위에 개시된 발명의 다양한 특징들은 도면 및 상세한 설명을 고려하여 더 잘 이해될 수 있을 것이다. 명세서에 개시된 장치, 방법, 제법 및 다양한 실시예들은 예시를 위해서 제공되는 것이다. 개시된 구조 및 기능상의 특징들은 통상의 기술자로 하여금 다양한 실시예들을 구체적으로 실시할 수 있도록 하기 위한 것이고, 발명의 범위를 제한하기 위한 것이 아니다. 개시된 용어 및 문장들은 개시된 발명의 다양한 특징들을 이해하기 쉽게 설명하기 위한 것이고, 발명의 범위를 제한하기 위한 것이 아니다.Various features of the invention disclosed in the claims may be better understood upon consideration of the drawings and detailed description. The apparatus, methods, preparations, and various embodiments disclosed herein are provided for purposes of illustration. The disclosed structural and functional features are intended to enable those skilled in the art to specifically practice the various embodiments, and are not intended to limit the scope of the invention. The disclosed terms and sentences are for the purpose of easy-to-understand descriptions of various features of the disclosed invention, and are not intended to limit the scope of the invention.

본 발명을 설명함에 있어서, 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우, 그 상세한 설명을 생략한다.In describing the present invention, if it is determined that a detailed description of a related known technology may unnecessarily obscure the gist of the present invention, the detailed description thereof will be omitted.

이하, 본 발명의 일 실시예에 따른 5G 기반의 음성인식 반응속도 개선을 위한 데이터 전송 방법 및 장치를 설명한다.Hereinafter, a data transmission method and apparatus for improving 5G-based voice recognition response speed according to an embodiment of the present invention will be described.

도 1은 본 발명의 일 실시예에 따른 음성인식 시스템(100)을 도시한 도면이다. 도 2는 본 발명의 일 실시예에 따른 사용자의 음성 신호를 도시한 도면이다.1 is a diagram illustrating a voice recognition system 100 according to an embodiment of the present invention. 2 is a diagram illustrating a user's voice signal according to an embodiment of the present invention.

도 1을 참고하면, 음성인식 시스템(100)은 사용자 단말(110)과 클라우드 서버(120)를 포함할 수 있다. Referring to FIG. 1 , the voice recognition system 100 may include a user terminal 110 and a cloud server 120 .

사용자에 의해 일정 데시벨(decibel, dB) 이상의 음성 신호가 발생되는 경우, 사용자 단말(110)은 해당 음성 신호를 일정 데시벨 이하로 측정될 때까지 획득할 수 있다. When a voice signal higher than a certain decibel (dB) is generated by the user, the user terminal 110 may acquire the corresponding voice signal until it is measured to be less than or equal to a certain decibel (decibel).

이후, 사용자 단말(110)은 획득되는 음성 신호를 실시간으로 클라우드 서버(120)에게 송신할 수 있다. Thereafter, the user terminal 110 may transmit the obtained voice signal to the cloud server 120 in real time.

클라우드 서버(120)는 실시간으로 수신된 음성 신호를 음성인식 분석하여, 음성 신호를 텍스트 정보로 변환하여 텍스트 정보를 사용자 단말(110)에게 송신할 수 있다. The cloud server 120 may perform voice recognition analysis on the received voice signal in real time, convert the voice signal into text information, and transmit the text information to the user terminal 110 .

예를 들어, 도 2를 참고하면, 클라우드 서버(120)는 사용자 단말(110)로부터 시간 구간 T1에서 획득된 음성 신호 A를 수신할 수 있다. 이후, 클라우드 서버(120)는 실시간으로 음성 신호 A를 텍스트 정보 A로 변환하여 사용자 단말(110)에게 송신할 수 있다.For example, referring to FIG. 2 , the cloud server 120 may receive the voice signal A obtained in the time period T1 from the user terminal 110 . Thereafter, the cloud server 120 may convert the voice signal A into text information A in real time and transmit it to the user terminal 110 .

또한, 클라우드 서버(120)는 사용자 단말(110)로부터 시간 구간 T2에서 획득된 음성 신호 B를 수신할 수 있다. 이후, 클라우드 서버(120)는 실시간으로 음성 신호 B를 텍스트 정보 B로 변환하여 사용자 단말(110)에게 송신할 수 있다. Also, the cloud server 120 may receive the voice signal B obtained in the time period T2 from the user terminal 110 . Thereafter, the cloud server 120 may convert the voice signal B into text information B in real time and transmit it to the user terminal 110 .

즉, 본 발명에 따르면, 사용자의 음성 신호 전체를 수신한 후, 이를 음성 인식하는 것이 아니라, 실시간으로 획득된 음성 신호를 바로 음성 인식하여 분석 후, 해당 문장의 의미를 빠르게 파악할 수 있으며, 이로 인해, 음성 인식의 반응속도를 향상시킬 수 있다. That is, according to the present invention, instead of recognizing the user's entire voice signal after receiving it, the voice signal acquired in real time is immediately recognized and analyzed, and the meaning of the sentence can be quickly grasped. , it is possible to improve the reaction speed of speech recognition.

또한, 클라우드 서버(120)는 획득된 음성 신호 A와 음성 신호 B를 이용하여, 다음 시간 구간 T3에 수신될 것으로 예측되는 음성 신호 C를 추정할 수 있다. 즉, 기존 대화 내용(예: 음성 신호 A)와 현재 단어(예: 음성 신호 B)를 통해 미래 변환할 내용(예: 음성 신호 C)를 빠르게 예측하여 반응속도를 개선할 수 있다. In addition, the cloud server 120 may estimate the voice signal C predicted to be received in the next time period T3 by using the acquired voice signal A and the voice signal B. That is, the reaction speed can be improved by quickly predicting the content to be converted in the future (eg, voice signal C) through the existing conversation content (eg, voice signal A) and the current word (eg, voice signal B).

일 실시예에서, 사용자 단말(110)은 키오스크(kiosk), 스마트폰, 태블릿 PC, 노트북 등 다양한 형태로 구현될 수 있으나, 이에 제한되지 않는다. In an embodiment, the user terminal 110 may be implemented in various forms, such as a kiosk, a smart phone, a tablet PC, and a notebook computer, but is not limited thereto.

도 3은 본 발명의 일 실시예에 따른 5G 기반의 음성인식 반응속도 개선을 위한 데이터 전송 방법을 도시한 도면이다. 일 실시예에서, 도 3의 각 단계는 클라우드 서버(120)에 의해 수행될 수 있다. 3 is a diagram illustrating a data transmission method for improving 5G-based voice recognition response speed according to an embodiment of the present invention. In an embodiment, each step of FIG. 3 may be performed by the cloud server 120 .

도 3을 참고하면, S301 단계는, 사용자 단말(110)로부터 사용자의 제1 음성 신호를 수신하는 단계이다. 일 실시예에서, 제1 음성 신호의 데시벨(decibel, dB)이 임계값 이상인 경우, 사용자의 제1 음성 신호를 획득할 수 있다. Referring to FIG. 3 , step S301 is a step of receiving a user's first voice signal from the user terminal 110 . In an embodiment, when the decibel (dB) of the first voice signal is equal to or greater than a threshold value, the user's first voice signal may be acquired.

S303 단계는, 음성인식을 통해 제1 음성 신호를 제1 텍스트 정보로 변환하는 단계이다. Step S303 is a step of converting the first voice signal into the first text information through voice recognition.

S305 단계는, 제1 텍스트 정보를 이용하여 사용자의 제2 음성 신호에 대응하는 제2 텍스트 정보를 추정하는 단계이다. 일 실시예에서, 제1 텍스트 정보를 음성인식 인공지능 학습모델에 적용하여, 사용자의 제2 음성 신호에 대응하는 제2 텍스트 정보를 추정할 수 있다. Step S305 is a step of estimating second text information corresponding to the user's second voice signal by using the first text information. In an embodiment, the second text information corresponding to the user's second voice signal may be estimated by applying the first text information to the voice recognition artificial intelligence learning model.

일 실시예에서, S305 단계와 S307 단계 사이에, 사용자 단말(110)로부터 사용자의 제2 음성 신호를 수신할 수 있다. 이후, 상기 추정된 제2 텍스트 정보를 제2 음성 신호로 역변환할 수 있다. 상기 역변환된 제2 음성 신호와 상기 수신된 제2 음성 신호가 일치하는지 여부를 판단할 수 있다. In an embodiment, between steps S305 and S307 , the user's second voice signal may be received from the user terminal 110 . Thereafter, the estimated second text information may be inversely transformed into a second voice signal. It may be determined whether the inversely transformed second voice signal matches the received second voice signal.

일 실시예에서, 상기 역변환된 제2 음성 신호와 상기 수신된 제2 음성 신호가 일치하는 경우, 수신된 제2 음성 신호를 별도로 제2 텍스트 정보로 변환하는 음성인식 과정을 거치지 않고, 바로 사용자 단말(110)에게 상기 제1 텍스트 정보 및 상기 추정된 제2 텍스트 정보 중 적어도 하나를 송신할 수 있다. In an embodiment, when the inversely-converted second voice signal and the received second voice signal match, the user terminal does not go through a voice recognition process of separately converting the received second voice signal into second text information. At least one of the first text information and the estimated second text information may be transmitted to 110 .

일 실시예에서, 상기 역변환된 제2 음성 신호와 상기 수신된 제2 음성 신호가 일치하지 않는 경우, 음성인식을 통해 상기 수신된 제2 음성 신호를 제2 텍스트 정보로 변환할 수 있다. 이후, 사용자 단말(110)에게 상기 제1 텍스트 정보 및 상기 변환된 제2 텍스트 정보 중 적어도 하나를 송신할 수 있다. In an embodiment, when the inversely transformed second voice signal and the received second voice signal do not match, the received second voice signal may be converted into second text information through voice recognition. Thereafter, at least one of the first text information and the converted second text information may be transmitted to the user terminal 110 .

S307 단계는, 사용자 단말(110)에게 제1 텍스트 정보 및 제2 텍스트 정보 중 적어도 하나를 송신하는 단계이다. Step S307 is a step of transmitting at least one of the first text information and the second text information to the user terminal 110 .

일 실시예에서, 제1 텍스트 정보 및 제2 텍스트 정보를 이용하여, 사용자의 제1 음성 신호 및 제2 음성 신호에 대응하는 답변 메시지를 생성하고, 생성된 답변 메시지를 사용자 단말(110)에게 송신할 수 있다. In an embodiment, by using the first text information and the second text information, a response message corresponding to the user's first voice signal and the second voice signal is generated, and the generated response message is transmitted to the user terminal 110 . can do.

일 실시예에서, 종래와 같이, 사용자 단말(110)이 음성 분석(STT(Speech to Text) 이후 분석)을 기존에 다 끝나고, 클라우드 서버(120)로 보내서 한번에 분석하고, 다시 받아오는 형태(TTS(Text-to-Speech))가 아니라, 본 발명에 따르면, 핵심 단어부터 순차적으로 보내서, 실시간으로 바로 단어 분석 후, 해당 문장의 의미를 빠르게 파악해서, 답변하여 반응속도를 향상시킬 수 있다. In one embodiment, as in the prior art, the user terminal 110 completes the voice analysis (analysis after speech to text (STT)), sends it to the cloud server 120, analyzes it at once, and receives it again (TTS) (Text-to-Speech)), instead, according to the present invention, it is possible to improve the reaction speed by sending a key word sequentially, analyzing the word in real time, quickly grasping the meaning of the sentence, and answering it.

도 4는 본 발명의 일 실시예에 따른 5G 기반의 음성인식 반응속도 개선을 위한 데이터 전송 장치(400)를 도시한 도면이다. 4 is a diagram illustrating a data transmission apparatus 400 for improving 5G-based voice recognition response speed according to an embodiment of the present invention.

도 4를 참고하면, 데이터 전송 장치(400)는 통신부(410), 제어부(420), 및 저장부(430)를 포함할 수 있다. 일 실시예에서, 데이터 전송 장치(400)는 클라우드 서버(120)를 포함할 수 있다. Referring to FIG. 4 , the data transmission apparatus 400 may include a communication unit 410 , a control unit 420 , and a storage unit 430 . In an embodiment, the data transmission device 400 may include a cloud server 120 .

통신부(410)는 사용자 단말(110)로부터 사용자의 제1 음성 신호를 수신할 수 있다. 일 실시예에서, 통신부(410)는 사용자 단말(110)에게 제1 음성 신호로부터 변환된 제1 텍스트 정보 및 제2 음성 신호에 대응하여 추정된 제2 텍스트 정보 중 적어도 하나를 송신할 수 있다. The communication unit 410 may receive the user's first voice signal from the user terminal 110 . In an embodiment, the communication unit 410 may transmit at least one of first text information converted from the first voice signal and second text information estimated in response to the second voice signal to the user terminal 110 .

일 실시예에서, 통신부(410)는 유선 통신 모듈 및 무선 통신 모듈 중 적어도 하나를 포함할 수 있다. 통신부(410)의 전부 또는 일부는 '송신부', '수신부' 또는 '송수신부(transceiver)'로 지칭될 수 있다.In an embodiment, the communication unit 410 may include at least one of a wired communication module and a wireless communication module. All or part of the communication unit 410 may be referred to as a 'transmitter', 'receiver', or 'transceiver'.

제어부(420)는 음성인식을 통해 제1 음성 신호를 제1 텍스트 정보로 변환하고, 제1 텍스트 정보를 이용하여 사용자의 제2 음성 신호에 대응하는 제2 텍스트 정보를 추정할 수 있다. The controller 420 may convert the first voice signal into first text information through voice recognition, and estimate the second text information corresponding to the user's second voice signal using the first text information.

일 실시예에서, 제어부(420)는 적어도 하나의 프로세서 또는 마이크로(micro) 프로세서를 포함하거나, 또는, 프로세서의 일부일 수 있다. 또한, 제어부(420)는 CP(communication processor)라 지칭될 수 있다. 제어부(420)는 본 발명의 다양한 실시예에 따른 데이터 전송 장치(400)의 동작을 제어할 수 있다. In one embodiment, the controller 420 may include at least one processor or microprocessor, or may be a part of the processor. Also, the controller 420 may be referred to as a communication processor (CP). The controller 420 may control the operation of the data transmission apparatus 400 according to various embodiments of the present disclosure.

저장부(430)는 사용자 단말(110)로부터 수신된 음성 신호들과 각 음성 신호에 대응하는 텍스트 정보를 저장할 수 있다. 일 실시예에서, 저장부(430)는 음성인식 인공지능 학습모델을 저장할 수 있다. The storage unit 430 may store voice signals received from the user terminal 110 and text information corresponding to each voice signal. In one embodiment, the storage unit 430 may store the voice recognition artificial intelligence learning model.

일 실시예에서, 저장부(430)는 휘발성 메모리, 비휘발성 메모리 또는 휘발성 메모리와 비휘발성 메모리의 조합으로 구성될 수 있다. 그리고, 저장부(430)는 제어부(420)의 요청에 따라 저장된 데이터를 제공할 수 있다.In an embodiment, the storage unit 430 may be configured as a volatile memory, a non-volatile memory, or a combination of a volatile memory and a non-volatile memory. In addition, the storage unit 430 may provide stored data according to the request of the control unit 420 .

도 4를 참고하면, 데이터 전송 장치(400)는 통신부(410), 제어부(420), 및 저장부(430)를 포함할 수 있다. 본 발명의 다양한 실시 예들에서 데이터 전송 장치(400)는 도 4에 설명된 구성들이 필수적인 것은 아니어서, 도 4에 설명된 구성들보다 많은 구성들을 가지거나, 또는 그보다 적은 구성들을 가지는 것으로 구현될 수 있다.Referring to FIG. 4 , the data transmission apparatus 400 may include a communication unit 410 , a control unit 420 , and a storage unit 430 . In various embodiments of the present invention, the data transmission apparatus 400 is not essential to the components illustrated in FIG. 4 , so it may be implemented to have more or fewer components than those illustrated in FIG. 4 . there is.

이상의 설명은 본 발명의 기술적 사상을 예시적으로 설명한 것에 불과한 것으로, 통상의 기술자라면 본 발명의 본질적인 특성이 벗어나지 않는 범위에서 다양한 변경 및 수정이 가능할 것이다.The above description is merely illustrative of the technical spirit of the present invention, and various changes and modifications may be made by those skilled in the art without departing from the essential characteristics of the present invention.

따라서, 본 명세서에 개시된 실시예들은 본 발명의 기술적 사상을 한정하기 위한 것이 아니라, 설명하기 위한 것이고, 이러한 실시예들에 의하여 본 발명의 범위가 한정되는 것은 아니다.Accordingly, the embodiments disclosed in the present specification are not intended to limit the technical spirit of the present invention, but to illustrate, and the scope of the present invention is not limited by these embodiments.

본 발명의 보호범위는 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 이해되어야 한다.The protection scope of the present invention should be construed by the claims, and all technical ideas within the scope equivalent thereto should be understood to be included in the scope of the present invention.

100: 음성인식 시스템
110: 사용자 단말
120: 클라우드 서버
400: 데이터 전송 장치
410: 통신부
420: 제어부
430: 저장부
100: voice recognition system
110: user terminal
120: cloud server
400: data transmission device
410: communication department
420: control unit
430: storage

Claims (12)

사용자 단말로부터 사용자의 제1 음성 신호를 수신하는 단계;
음성인식을 통해 상기 제1 음성 신호를 제1 텍스트 정보로 변환하는 단계;
상기 제1 텍스트 정보를 이용하여 상기 사용자의 제2 음성 신호에 대응하는 제2 텍스트 정보를 추정하는 단계;
상기 사용자 단말로부터 상기 사용자의 제2 음성 신호를 수신하는 단계;
상기 추정된 제2 텍스트 정보를 상기 제2 음성 신호로 역변환하는 단계;
상기 역변환된 제2 음성 신호와 상기 수신된 제2 음성 신호가 일치하는지 여부를 판단하는 단계; 및
상기 역변환된 제2 음성 신호와 상기 수신된 제2 음성 신호가 일치하는 경우, 상기 사용자 단말에게 상기 제1 텍스트 정보 및 제2 텍스트 정보 중 적어도 하나를 송신하는 단계;
를 포함하는,
5G 기반의 음성인식 반응속도 개선을 위한 데이터 전송 방법.
Receiving a user's first voice signal from the user terminal;
converting the first voice signal into first text information through voice recognition;
estimating second text information corresponding to the user's second voice signal by using the first text information;
receiving a second voice signal of the user from the user terminal;
inversely transforming the estimated second text information into the second speech signal;
determining whether the inversely transformed second voice signal matches the received second voice signal; and
transmitting at least one of the first text information and the second text information to the user terminal when the inversely transformed second voice signal matches the received second voice signal;
containing,
5G-based data transmission method for improving response speed of voice recognition.
제1항에 있어서,
상기 제1 음성 신호를 수신하는 단계는,
상기 제1 음성 신호의 데시벨(decibel, dB)이 임계값 이상인 경우, 상기 사용자의 제1 음성 신호를 획득하는 단계;
를 포함하는,
5G 기반의 음성인식 반응속도 개선을 위한 데이터 전송 방법.
According to claim 1,
Receiving the first voice signal comprises:
obtaining a first voice signal of the user when the decibel (dB) of the first voice signal is equal to or greater than a threshold value;
containing,
5G-based data transmission method for improving response speed of voice recognition.
삭제delete 삭제delete 제1항에 있어서,
상기 송신하는 단계는,
상기 역변환된 제2 음성 신호와 상기 수신된 제2 음성 신호가 일치하지 않는 경우, 상기 음성인식을 통해 상기 수신된 제2 음성 신호를 제2 텍스트 정보로 변환하는 단계; 및
상기 사용자 단말에게 상기 제1 텍스트 정보 및 제2 텍스트 정보 중 적어도 하나를 송신하는 단계;
를 포함하는,
5G 기반의 음성인식 반응속도 개선을 위한 데이터 전송 방법.
According to claim 1,
The sending step is
converting the received second voice signal into second text information through the voice recognition when the inversely transformed second voice signal and the received second voice signal do not match; and
transmitting at least one of the first text information and the second text information to the user terminal;
containing,
5G-based data transmission method for improving response speed of voice recognition.
제1항에 있어서,
상기 추정하는 단계는,
상기 제1 텍스트 정보를 음성인식 인공지능 학습모델에 적용하여, 상기 사용자의 제2 음성 신호에 대응하는 제2 텍스트 정보를 추정하는 단계;
를 포함하는,
5G 기반의 음성인식 반응속도 개선을 위한 데이터 전송 방법.
According to claim 1,
The estimating step is
estimating second text information corresponding to the user's second voice signal by applying the first text information to a voice recognition artificial intelligence learning model;
containing,
5G-based data transmission method for improving response speed of voice recognition.
사용자 단말로부터 사용자의 제1 음성 신호를 수신하는 통신부; 및
음성인식을 통해 상기 제1 음성 신호를 제1 텍스트 정보로 변환하고,
상기 제1 텍스트 정보를 이용하여 상기 사용자의 제2 음성 신호에 대응하는 제2 텍스트 정보를 추정하는 제어부;
를 포함하고,
상기 통신부는, 상기 사용자 단말로부터 상기 사용자의 제2 음성 신호를 수신하고,
상기 제어부는, 상기 추정된 제2 텍스트 정보를 상기 제2 음성 신호로 역변환하고, 상기 역변환된 제2 음성 신호와 상기 수신된 제2 음성 신호가 일치하는지 여부를 판단하고,
상기 통신부는, 상기 역변환된 제2 음성 신호와 상기 수신된 제2 음성 신호가 일치하는 경우, 상기 사용자 단말에게 상기 제1 텍스트 정보 및 제2 텍스트 정보 중 적어도 하나를 송신하는,
5G 기반의 음성인식 반응속도 개선을 위한 데이터 전송 장치.
a communication unit configured to receive a user's first voice signal from the user terminal; and
converting the first voice signal into first text information through voice recognition,
a controller for estimating second text information corresponding to the user's second voice signal by using the first text information;
including,
The communication unit receives the user's second voice signal from the user terminal,
The control unit inversely transforms the estimated second text information into the second voice signal, and determines whether the inversely transformed second voice signal matches the received second voice signal;
The communication unit transmits at least one of the first text information and the second text information to the user terminal when the inversely transformed second voice signal matches the received second voice signal;
5G-based data transmission device to improve response speed of voice recognition.
제7항에 있어서,
상기 통신부는,
상기 제1 음성 신호의 데시벨(decibel, dB)이 임계값 이상인 경우, 상기 사용자의 제1 음성 신호를 획득하는,
5G 기반의 음성인식 반응속도 개선을 위한 데이터 전송 장치.
8. The method of claim 7,
The communication unit,
When the decibel (dB) of the first voice signal is greater than or equal to a threshold, obtaining the first voice signal of the user,
5G-based data transmission device to improve response speed of voice recognition.
삭제delete 삭제delete 제7항에 있어서,
상기 제어부는,
상기 역변환된 제2 음성 신호와 상기 수신된 제2 음성 신호가 일치하지 않는 경우, 상기 음성인식을 통해 상기 수신된 제2 음성 신호를 제2 텍스트 정보로 변환하고,
상기 통신부는,
상기 사용자 단말에게 상기 제1 텍스트 정보 및 제2 텍스트 정보 중 적어도 하나를 송신하는,
5G 기반의 음성인식 반응속도 개선을 위한 데이터 전송 장치.
8. The method of claim 7,
The control unit is
When the inversely transformed second voice signal and the received second voice signal do not match, the received second voice signal is converted into second text information through the voice recognition;
The communication unit,
transmitting at least one of the first text information and the second text information to the user terminal;
5G-based data transmission device to improve response speed of voice recognition.
제7항에 있어서,
상기 제어부는,
상기 제1 텍스트 정보를 음성인식 인공지능 학습모델에 적용하여, 상기 사용자의 제2 음성 신호에 대응하는 제2 텍스트 정보를 추정하는,
5G 기반의 음성인식 반응속도 개선을 위한 데이터 전송 장치.

8. The method of claim 7,
The control unit is
applying the first text information to a voice recognition artificial intelligence learning model to estimate second text information corresponding to the user's second voice signal,
5G-based data transmission device to improve response speed of voice recognition.

KR1020190176417A 2019-12-27 2019-12-27 A method and apparatus for data transmission for improving 5G-based speech recognition response speed KR102364935B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190176417A KR102364935B1 (en) 2019-12-27 2019-12-27 A method and apparatus for data transmission for improving 5G-based speech recognition response speed

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190176417A KR102364935B1 (en) 2019-12-27 2019-12-27 A method and apparatus for data transmission for improving 5G-based speech recognition response speed

Publications (2)

Publication Number Publication Date
KR20210083782A KR20210083782A (en) 2021-07-07
KR102364935B1 true KR102364935B1 (en) 2022-02-18

Family

ID=76862083

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190176417A KR102364935B1 (en) 2019-12-27 2019-12-27 A method and apparatus for data transmission for improving 5G-based speech recognition response speed

Country Status (1)

Country Link
KR (1) KR102364935B1 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008268340A (en) * 2007-04-17 2008-11-06 Honda Motor Co Ltd Voice recognition device, voice recognition method, and program for voice recognition

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102549204B1 (en) 2017-09-26 2023-06-30 주식회사 케이티 Device, server and method for providing speech recognition service
KR20190092168A (en) * 2018-01-30 2019-08-07 주식회사 엘지유플러스 Apparatus for providing voice response and method thereof

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008268340A (en) * 2007-04-17 2008-11-06 Honda Motor Co Ltd Voice recognition device, voice recognition method, and program for voice recognition

Also Published As

Publication number Publication date
KR20210083782A (en) 2021-07-07

Similar Documents

Publication Publication Date Title
JP6828001B2 (en) Voice wakeup method and equipment
JP6613347B2 (en) Method and apparatus for pushing information
US11869487B1 (en) Allocation of local and remote resources for speech processing
CN110049270B (en) Multi-person conference voice transcription method, device, system, equipment and storage medium
US11227129B2 (en) Language translation device and language translation method
KR102611751B1 (en) Augmentation of key phrase user recognition
KR20190075800A (en) Intelligent personal assistant interface system
CN110047481B (en) Method and apparatus for speech recognition
JP2015135494A (en) Voice recognition method and device
KR20150063423A (en) Improved hybrid controller for asr
CN109712610A (en) The method and apparatus of voice for identification
WO2015103836A1 (en) Voice control method and device
CN105206272A (en) Voice transmission control method and system
US11790893B2 (en) Voice processing method based on artificial intelligence
CN110992955A (en) Voice operation method, device, equipment and storage medium of intelligent equipment
KR20150145024A (en) Terminal and server of speaker-adaptation speech-recognition system and method for operating the system
KR20200074690A (en) Electonic device and Method for controlling the electronic device thereof
KR20210153165A (en) An artificial intelligence device that provides a voice recognition function, an operation method of the artificial intelligence device
CN113674742A (en) Man-machine interaction method, device, equipment and storage medium
CN116075888A (en) System and method for reducing latency in cloud services
KR102364935B1 (en) A method and apparatus for data transmission for improving 5G-based speech recognition response speed
KR20200109841A (en) A speech recognition apparatus
WO2021253779A1 (en) Speech recognition method and system
CN114999496A (en) Audio transmission method, control equipment and terminal equipment
US11587554B2 (en) Control apparatus, voice interaction apparatus, voice recognition server, and program

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant