KR102296503B1 - System for collecting learning data - Google Patents

System for collecting learning data Download PDF

Info

Publication number
KR102296503B1
KR102296503B1 KR1020190018665A KR20190018665A KR102296503B1 KR 102296503 B1 KR102296503 B1 KR 102296503B1 KR 1020190018665 A KR1020190018665 A KR 1020190018665A KR 20190018665 A KR20190018665 A KR 20190018665A KR 102296503 B1 KR102296503 B1 KR 102296503B1
Authority
KR
South Korea
Prior art keywords
voice
text
learning data
information
unit
Prior art date
Application number
KR1020190018665A
Other languages
Korean (ko)
Other versions
KR20200100410A (en
Inventor
박도현
Original Assignee
주식회사 딕토
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 딕토 filed Critical 주식회사 딕토
Priority to KR1020190018665A priority Critical patent/KR102296503B1/en
Publication of KR20200100410A publication Critical patent/KR20200100410A/en
Application granted granted Critical
Publication of KR102296503B1 publication Critical patent/KR102296503B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명은 복수 개의 스마트폰을 통해 학습데이터를 수집하는 수집서버 및
텍스트와 녹음버튼을 함께 표시하고, 녹음버튼의 입력을 받으면 음성을 녹음하며, 표시된 텍스트와 녹음된 음성을 포함하는 학습데이터를 생성하는 스마트폰을 포함하고, 상기 학습데이터가 음성인식모듈의 학습에 이용되는 것을 특징으로 하는 학습데이터 수집시스템을 개시한다.
The present invention is a collection server for collecting learning data through a plurality of smart phones and
A smartphone that displays text and a record button together, records a voice when receiving an input of the record button, and generates learning data including the displayed text and recorded voice, wherein the learning data is applied to the learning of the voice recognition module Disclosed is a learning data collection system, characterized in that used.

Description

학습데이터 수집시스템{SYSTEM FOR COLLECTING LEARNING DATA}Learning data collection system {SYSTEM FOR COLLECTING LEARNING DATA}

본 발명은 학습데이터 수집시스템에 관한 것으로서, 더욱 상세하게는 음성인식모듈의 학습에 이용되는 학습데이터를 수집하는 기술에 관한 것이다.The present invention relates to a learning data collection system, and more particularly, to a technology for collecting learning data used for learning of a voice recognition module.

종래에는 음성 명령을 인식하여 음성 명령에 대응하는 다양한 서비스를 제공하는 음성인식모듈의 성능을 향상시키기 위해 음성인식모듈의 학습에 이용되는 다양한 음성을 수집한다.Conventionally, in order to improve the performance of a voice recognition module that recognizes a voice command and provides various services corresponding to the voice command, various voices used for learning the voice recognition module are collected.

그러나 종래에는 사용자의 프라이버시에 침해가 될 수 있기 때문에 음성통화 기반의 음성데이터를 일괄적으로 수집하기 어려울 수 있고, 수집된 음성을 일관성이 있는 형태로 가공 또는 정제하기 때문에 수집된 음성을 일관성이 있는 형태로 수집하고 가공 또는 정제하는 과정에서 많은 시간과 노력 또는 재원이 필요할 수 있고, 수집된 음성을 오인식할 수 있는 위험이 있으며, 음성인식모듈을 개발하는 회사가 원하는 음성을 타겟팅하여 수집하기 어려운 문제점이 있다.However, conventionally, it may be difficult to collectively collect voice data based on voice calls because it may infringe on the privacy of users. In the process of collecting, processing, or refining the form, a lot of time, effort, or financial resources may be required, there is a risk of misrecognizing the collected voice, and it is difficult for a company developing a voice recognition module to target and collect the desired voice. There is this.

수집된 음성을 가공 또는 정제하는 과정은 수집된 음성의 텍스트가 없기 때문에 음성을 인식하여 목적에 맞는 텍스트로 분류하는 과정, 음성 인식된 텍스트를 검사하는 과정, 검사된 텍스트를 일관성이 있게 교정하는 과정 또는 음성에 포함된 잡음을 제거하는 과정일 수 있다.The process of processing or refining the collected voice is the process of recognizing the voice and classifying it into text suitable for the purpose because there is no text of the collected voice, the process of examining the recognized text, and the process of consistently correcting the checked text Alternatively, it may be a process of removing noise included in the voice.

1. 한국등록특허 제10-1179915호1. Korean Patent No. 10-1179915 2. 한국공개특허 제10-2011-0117449호2. Korea Patent Publication No. 10-2011-0117449

상기 문제점을 해결하기 위하여 본 발명은 스마트폰에서 텍스트와 녹음버튼을 함께 표시하고, 녹음버튼의 입력을 받으면 음성을 녹음하며, 표시된 텍스트와 녹음된 음성을 포함하는 학습데이터를 생성하는 학습데이터 수집시스템을 제공한다.In order to solve the above problems, the present invention is a learning data collection system that displays text and a record button together on a smartphone, records a voice when the record button is input, and generates learning data including the displayed text and recorded voice. provides

본 발명은 수집서버에서 음성 녹음에 따른 보상정보를 생성하여 스마트폰으로 전송하고, 학습데이터 이용에 따른 비용정보를 제휴서버로 전송하는 학습데이터 수집시스템을 제공한다.The present invention provides a learning data collection system that generates compensation information according to voice recording in a collection server and transmits it to a smart phone, and transmits cost information according to the use of learning data to an affiliate server.

상기의 해결하고자 하는 과제를 위한 본 발명의 학습데이터 수집시스템은, 복수 개의 스마트폰을 통해 학습데이터를 수집하는 수집서버 및 텍스트와 녹음버튼을 함께 표시하고, 녹음버튼의 입력을 받으면 음성을 녹음하며, 표시된 텍스트와 녹음된 음성을 포함하는 학습데이터를 생성하는 스마트폰을 포함하고, 상기 학습데이터는 음성인식모듈의 학습에 이용되는 것을 특징으로 한다.The learning data collection system of the present invention for the above problem to be solved, displays a collection server that collects learning data through a plurality of smart phones, text and a recording button together, and records a voice when receiving the input of the recording button, , a smartphone for generating learning data including the displayed text and recorded voice, wherein the learning data is used for learning of the voice recognition module.

상기 수집서버는, 상기 스마트폰에서 텍스트를 출력하기 위한 텍스트정보를 생성하는 텍스트정보 생성부; 음성 녹음에 따른 보상정보를 생성하는 보상정보 생성부; 학습데이터 이용에 따른 비용정보를 생성하는 비용정보 생성부 및 상기 보상정보를 스마트폰으로 전송하고, 비용정보를 제휴서버로 전송하는 통신수단을 포함하는 것을 특징으로 할 수 있다.The collection server may include: a text information generator for generating text information for outputting text from the smartphone; a compensation information generating unit generating compensation information according to voice recording; It may be characterized in that it comprises a cost information generating unit for generating cost information according to the use of learning data, and a communication means for transmitting the compensation information to a smart phone and transmitting the cost information to an affiliate server.

상기 통신수단은 스마트폰으로부터 사용자의 연령, 지역 및 직업에 관련된 사용자정보를 수신하고, 제휴서버로부터 음성인식모듈의 학습에 필요한 요구정보를 수신하며, 상기 텍스트정보 생성부는 사용자정보와 요구정보에 매칭되는 요소들을 분석하여 텍스트정보를 생성하는 것을 특징으로 할 수 있다.The communication means receives user information related to the age, region and occupation of the user from the smartphone, receives request information necessary for learning the voice recognition module from the affiliate server, and the text information generator matches the user information and the requested information It may be characterized in that the elements are analyzed to generate text information.

상기 스마트폰은, 복수 개의 텍스트를 포함하는 텍스트정보를 저장하는 저장부; 상기 텍스트정보에서 음성인식모듈의 학습을 위한 텍스트를 선택하는 텍스트 선택부; 선택된 텍스트와 녹음버튼을 함께 표시하는 표시부; 녹음버튼의 입력을 받으면 음성을 녹음하는 음성 녹음부; 선택된 텍스트와 녹음된 음성을 포함하는 학습데이터를 생성하는 데이터 생성부 및 상기 학습데이터를 수집서버로 전송하는 통신부를 포함하는 것을 특징으로 할 수 있다.The smartphone may include: a storage unit for storing text information including a plurality of texts; a text selection unit for selecting text for learning of the voice recognition module from the text information; a display unit for displaying the selected text and the record button together; a voice recorder for recording a voice upon receiving an input from the record button; It may be characterized in that it comprises a data generating unit for generating learning data including the selected text and recorded voice and a communication unit for transmitting the learning data to a collection server.

상기 데이터 생성부는 음성 명령 또는 통화 내용을 녹음하여 학습데이터를 생성하고, 음성 명령을 녹음하여 학습데이터를 생성하는 경우 음성 명령에 따른 처리 결과 및 음성 명령의 오인식에 따른 설명을 포함하여 학습데이터를 생성하며, 통화 내용을 녹음하여 학습데이터를 생성하는 경우 통화 내용에서 통화 상대의 음성을 필터링하는 것을 특징으로 할 수 있다.The data generating unit generates learning data by recording a voice command or a call, and when generating learning data by recording a voice command, generates learning data including a processing result according to the voice command and explanation according to the misrecognition of the voice command And, when the learning data is generated by recording the call content, it may be characterized in that the voice of the call party is filtered from the call content.

상기 스마트폰은 단어, 구, 절, 문장 및 문단 중 하나 이상의 단위로 텍스트가 출력되도록 텍스트 출력단위의 설정을 제공할 수 있다.The smartphone may provide the setting of the text output unit so that the text is output in one or more units of a word, a phrase, a clause, a sentence, and a paragraph.

상기 스마트폰은 잠금화면 상태에서 텍스트 출력과 녹음 기능이 함께 표시되도록 하는 설정을 제공하는 것을 특징으로 할 수 있다.The smart phone may be characterized in that it provides a setting to display the text output and the recording function together in the lock screen state.

본 발명은 텍스트에 대응하는 음성을 포함하는 학습데이터를 수집함으로써, 수집된 음성을 가공 또는 정제하는 과정이 제거될 수 있고, 음성인식모듈을 개발하는 회사가 원하는 음성을 타겟팅하여 수집할 수 있다.In the present invention, by collecting learning data including voice corresponding to text, the process of processing or refining the collected voice can be eliminated, and the company developing the voice recognition module can target and collect the desired voice.

본 발명은 음성 녹음에 따른 보상비용을 스마트폰 사용자에게 제공하여 학습데이터를 수집하기 위한 사용자의 자발적 참여를 유도할 수 있고, 학습데이터 이용에 따른 이용료를 제휴회사에게 청구하여 청구된 이용료로 보상비용을 채울 수 있다.The present invention can induce a user's voluntary participation in collecting learning data by providing a compensation cost according to voice recording to a smartphone user, and charge a fee for using the learning data to an affiliate company to compensate the usage fee with the charged usage fee can be filled

도 1은 본 발명의 실시예에 따른 학습데이터 수집시스템을 도시한 블록도이다.
도 2는 도 1의 스마트폰을 상세하게 도시한 블록도이다.
도 3은 스마트폰의 화면을 도시한 예이다.
도 4는 도 1의 수집서버를 상세하게 도시한 블록도이다.
도 5는 도 4의 텍스트 및 음성 DB를 상세하게 도시한 예
도 6은 도 1의 스마트폰 동작방법을 도시한 흐름도이다.
1 is a block diagram illustrating a learning data collection system according to an embodiment of the present invention.
FIG. 2 is a block diagram illustrating the smartphone of FIG. 1 in detail.
3 is an example illustrating a screen of a smartphone.
4 is a block diagram illustrating the collection server of FIG. 1 in detail.
5 is an example showing the text and voice DB of FIG. 4 in detail
6 is a flowchart illustrating the method of operating the smartphone of FIG. 1 .

이하 첨부 도면들 및 첨부 도면들에 기재된 내용들을 참조하여 본 발명의 실시예를 상세하게 설명하지만, 본 발명이 실시예에 의해 제한되거나 한정되는 것은 아니다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings and the contents described in the accompanying drawings, but the present invention is not limited or limited by the embodiments.

도 1은 본 발명의 실시예에 따른 학습데이터 수집시스템을 도시한 블록도로서, 학습데이터 수집시스템(10)은 복수 개의 스마트폰(100) 및 수집서버(200)를 포함한다. 스마트폰(100)은 텍스트에 대응하는 음성을 포함하여 학습데이터를 생성하고, 수집서버(200)는 복수 개의 스마트폰(100)으로부터 학습데이터를 수집한다. 학습데이터는 음성인식모듈의 학습에 이용된다.1 is a block diagram illustrating a learning data collection system according to an embodiment of the present invention. The learning data collection system 10 includes a plurality of smart phones 100 and a collection server 200 . The smart phone 100 generates learning data including voice corresponding to the text, and the collection server 200 collects learning data from a plurality of smart phones 100 . The learning data is used for learning the voice recognition module.

학습데이터 수집시스템(10)은 적어도 하나의 제휴서버(300)를 더 포함할 수 있다. 제휴서버(300)는 음성인식모듈을 개발하는 회사에서 운영되는 서버이고, 음성인식모듈의 학습에 필요한 학습데이터를 수집서버(200)로부터 제공받는다. 음성인식모듈은 가전제품에 설치되는 것으로서, 예를 들어 애플의 시리(siri), 구글의 어시스턴트(assistant), 아마존의 알렉사(alexa), 마이크로소프트의 코타나(cortana), 삼성의 빅스비(bixby) 또는 네이버의 클로바(clova)일 수 있다.The learning data collection system 10 may further include at least one affiliate server 300 . The affiliate server 300 is a server operated by a company that develops a voice recognition module, and receives learning data necessary for learning the voice recognition module from the collection server 200 . The voice recognition module is installed in home appliances, for example, Apple's Siri, Google's assistant, Amazon's Alexa, Microsoft's cortana, Samsung's bixby Or it may be Naver's clover.

수집서버(200)는 사용자의 자발적 음성녹음을 유도하기 위해 음성 녹음에 따른 보상정보를 스마트폰(100)으로 전송하고, 학습데이터 이용에 따른 비용정보를 제휴서버(300)로 전송한다.The collection server 200 transmits compensation information according to voice recording to the smart phone 100 in order to induce a user's voluntary voice recording, and transmits cost information according to the use of learning data to the affiliate server 300 .

도 2는 도 1의 스마트폰을 상세하게 도시한 블록도로서, 스마트폰(100)은 텍스트와 녹음버튼을 함께 표시하고, 녹음버튼의 입력을 받으면 음성을 녹음하며, 표시된 텍스트와 녹음된 음성을 포함하는 학습데이터를 생성한다.FIG. 2 is a block diagram showing the smartphone of FIG. 1 in detail. The smartphone 100 displays text and a record button together, records a voice when the record button is input, and displays the displayed text and the recorded voice. Create learning data that includes

스마트폰(100)은 저장부(110), 텍스트 선택부(120), 표시부(130), 음성 녹음부(140), 테이터 생성부(150), 통신부(160) 및 설정부(170) 중 적어도 하나를 포함한다.The smartphone 100 includes at least one of the storage unit 110 , the text selection unit 120 , the display unit 130 , the voice recording unit 140 , the data generation unit 150 , the communication unit 160 , and the setting unit 170 . includes one

통신부(160)는 수집서버(200)로부터 복수 개의 텍스트를 포함하는 텍스트정보를 수신하고, 저장부(110)는 텍스트정보를 저장한다.The communication unit 160 receives text information including a plurality of texts from the collection server 200 , and the storage unit 110 stores the text information.

텍스트 선택부(120)는 텍스트정보에서 음성인식모듈의 학습을 위한 텍스트를 선택하며, 표시부(130)는 선택된 텍스트와 녹음버튼을 함께 표시한다. 텍스트 선택부(120)는 설정부(170)에서 설정된 조건에 대응하여 텍스트정보에서 텍스트를 선택할 수 있다. 표시부(130)는 터치 입력 또는 키패드 입력 등 입출력 기능을 구비할 수 있다.The text selection unit 120 selects text for learning of the voice recognition module from the text information, and the display unit 130 displays the selected text and the record button together. The text selection unit 120 may select a text from the text information in response to the condition set by the setting unit 170 . The display unit 130 may have an input/output function such as a touch input or a keypad input.

도 3은 스마트폰의 화면을 도시한 예로서, 설정부(170)는 사용자의 입력을 수신하여 단어, 구, 절, 문장 및 문단 중 하나 이상의 단위로 텍스트가 출력되도록 텍스트 출력단위를 설정할 수 있다. 텍스트 출력단위가 커질수록 음성 녹음에 따른 보상이 증가될 수 있다. 보상은 현금, 상품권, 할인권, 마일리지, 제휴사의 상품 또는 가상화폐로 제공할 수 있고, 다양한 리워드 형태로 제공할 수 있으며, 이에 한정하지 않는다.3 is an example of a screen of a smartphone, and the setting unit 170 receives a user's input and sets the text output unit so that the text is output in one or more units of words, phrases, clauses, sentences and paragraphs. . As the text output unit becomes larger, compensation according to voice recording may be increased. Compensation may be provided in cash, gift certificate, discount certificate, mileage, affiliate products or virtual currency, and may be provided in various reward forms, but is not limited thereto.

본 발명은 사용자의 선택에 따라 텍스트 출력단위를 설정할 수 있고, 텍스트 출력단위와 음성녹음 횟수에 기반하여 음성 녹음에 따른 보상을 차등적으로 사용자에게 제공하여 자발적 음성 녹음을 유도할 수 있다.According to the present invention, a text output unit can be set according to a user's selection, and a voluntary voice recording can be induced by differentially providing a user with a compensation according to the voice recording based on the text output unit and the number of voice recordings.

음성 녹음부(140)는 녹음버튼의 입력을 받으면 음성을 녹음하고, 데이터 생성부(150)는 선택된 텍스트와 녹음된 음성을 포함하는 학습데이터를 생성하며, 통신부(160)는 학습데이터를 수집서버(200)로 전송한다. 데이터 생성부(150)는 텍스트 출력단위로 음성 녹음 횟수를 카운트하여 보상산정데이터를 생성할 수 있고, 통신부(160)는 보상산정데이터를 수집서버(200)로 전송할 수 있다. 수집서버(200)는 보상산정데이터를 참조하여 보상정보를 생성할 수 있다.The voice recorder 140 records a voice upon receiving the input of the record button, the data generator 150 generates learning data including the selected text and the recorded voice, and the communication unit 160 collects the learning data from the server (200). The data generation unit 150 may generate compensation calculation data by counting the number of voice recordings in units of text output, and the communication unit 160 may transmit the compensation calculation data to the collection server 200 . The collection server 200 may generate compensation information with reference to compensation calculation data.

데이터 생성부(150)는 녹음된 음성을 무손실 음원으로 생성할 수 있다. 예를 들어 음성을 mp3 파일형태로 음원을 생성하면 음원의 고주파수와 저주파수가 잘려나가기 때문에 음성인식모듈을 모델링함에 있어서 부적합할 수 있으므로, 데이터 생성부(150)는 WAV 또는 FLAC 파일형태로 무손실 음원을 생성할 수 있다.The data generator 150 may generate the recorded voice as a lossless sound source. For example, when a sound source is generated in the form of an mp3 file, the high and low frequencies of the sound source are cut off, so it may be inappropriate for modeling the voice recognition module. can create

설정부(170)는 사용자의 입력을 수신하여 학습데이터를 생성 즉시 전송하는 제1 전송모드, 학습데이터를 누적하고 설정된 용량에 만족할 때 전송하는 제2 전송모드 및 와이파이에 접속된 경우에 학습데이터를 전송하는 제3 전송모드 중 하나 이상의 모드를 설정할 수 있다. 본 발명은 사용자의 선택에 따라 데이터 전송시기를 설정할 수 있으므로, 통신사의 데이터 사용료를 절감할 수 있다.The setting unit 170 receives the user's input and transmits the training data immediately after generation, the second transmission mode for accumulating the learning data and transmitting when the set capacity is satisfied, and the learning data when connected to Wi-Fi One or more modes among the third transmission modes for transmission may be set. According to the present invention, the data transmission time can be set according to the user's selection, so that the data usage fee of the telecommunication company can be reduced.

설정부(170)는 앱이 실행된 상태 또는 잠금화면 상태에서 텍스트 출력과 녹음 기능이 함께 표시되도록 설정할 수 있다. 본 발명은 음성 녹음의 횟수를 높이기 위해 잠금 화면에서 텍스트 출력과 녹음 기능을 함께 제공할 수 있다. 또한 설정부(170)는 설정된 시기마다 텍스트 출력과 녹음 기능이 함께 표시되도록 팝업을 설정할 수 있다.The setting unit 170 may set to display both the text output and the recording function in the state in which the app is executed or in the state of the lock screen. The present invention may provide both a text output and a recording function on the lock screen in order to increase the number of voice recordings. In addition, the setting unit 170 may set a pop-up so that the text output and the recording function are displayed together at each set time.

데이터 생성부(150)는 음성 명령 또는 통화 내용을 녹음하여 학습데이터를 생성할 수 있다. 데이터 생성부(150)는 음성 명령을 녹음하여 학습데이터를 생성할 때 음성 명령에 따른 처리 결과 및 음성 명령의 오인식에 따른 설명을 포함하여 학습데이터를 생성할 수 있다. 음성 명령은 스마트폰(100)에서 조작 가능한 명령이고, 예를 들어 길찾기, 인터넷 검색, 메시지 확인 또는 전화 걸기이며, 다양한 명령일 수 있다.The data generating unit 150 may generate learning data by recording a voice command or the contents of a call. When generating training data by recording a voice command, the data generating unit 150 may generate training data including a processing result according to the voice command and explanation according to misrecognition of the voice command. The voice command is a command that can be manipulated by the smart phone 100 , for example, finding directions, searching the Internet, checking a message or making a phone call, and may be various commands.

본 발명은 음성 명령에 따른 처리 결과와 음성 명령의 오인식에 따른 설명을 함께 포함하여 학습데이터를 생성함으로써, 데이터의 품질을 더욱 향상시킬 수 있다. 음성 명령의 오인식에 따른 설명은 사용자가 의도하여 말했던 텍스트일 수 있고, 사용자의 입력에 의해 생성될 수 있다. 데이터 생성부(150)는 오인식에 따른 설명 횟수를 카운트하여 보상산정데이터를 생성할 수 있다.According to the present invention, the quality of data can be further improved by generating learning data including a processing result according to a voice command and a description according to misrecognition of a voice command. The description according to the misrecognition of the voice command may be text intended by the user, or may be generated by the user's input. The data generator 150 may generate compensation calculation data by counting the number of explanations according to misrecognition.

데이터 생성부(150)는 통화 내용을 녹음하여 학습데이터를 생성할 수 있고, 통화 내용을 녹음하여 학습데이터를 생성할 때 통화 내용에서 통화 상대의 음성을 필터링할 수 있다. 본 발명은 통화 상대의 음성을 필터링하여 통화 상대의 프라이버시를 보호할 수 있다.The data generating unit 150 may generate learning data by recording the content of the call, and when generating the learning data by recording the content of the call, the voice of the call party may be filtered from the call content. The present invention can protect the privacy of the call party by filtering the call party's voice.

데이터 생성부(150)는 통화 상대의 음성을 필터링하기 위해 사전에 사용자의 음성을 등록할 수 있다. 또한 데이터 생성부(150)는 사용자 음성과 통화 상대의 음성 간의 주파수 특성을 분석하여 통화 상대의 음성을 묵음으로 처리하여 필터링할 수 있다. 또한 데이터 생성부(150)는 사용자와 통화 상대가 동시에 말할 경우도 발생할 수 있고, 통화 상대의 음성이 사용자 음성과 유사할 경우도 발생할 수 있으며, 잡음에 의해 불분명한 음성이 발생할 수 있으므로, 사용자 음성의 주파수 범위에 벗어나면 전술한 경우로 인식하여 필터링 처리할 수 있다.The data generator 150 may register the user's voice in advance in order to filter the voice of the call partner. In addition, the data generator 150 may analyze a frequency characteristic between the user's voice and the voice of the calling party, and may filter the voice of the called party by processing it as silence. In addition, the data generating unit 150 may occur when the user and the call party speak at the same time, the call party's voice may be similar to the user's voice, and may generate an ambiguous voice due to noise, so the user's voice If it is out of the frequency range of , it can be recognized as the above-mentioned case and filtered.

본 발명은 텍스트 표시에 따른 음성, 음성 명령에 따른 음성 및 통화에 따른 음성을 제공하고, 사용자는 각각의 음성에 따른 설명을 입력할 수 있다. 데이터 생성부(150)는 각각의 음성에 따른 사용자 설명을 포함하여 학습데이터를 생성할 수 있고, 사용자 설명에 따른 설명 횟수를 카운트하여 보상산정데이터를 생성할 수 있다. 예를 들어 사용자는 외부 잡음이 존재하는 다양한 환경에서 녹음을 시도할 수 있으므로, '버스를 타고 가는 중에 녹음'이라는 설명을 입력할 수 있다. 또한 사용자는 '주행중' 또는 '조용한 방' 등 주변 환경에 대응하여 설명을 입력할 수 있다.The present invention provides a voice according to a text display, a voice according to a voice command, and a voice according to a call, and the user can input a description according to each voice. The data generating unit 150 may generate learning data including a user explanation according to each voice, and may generate compensation calculation data by counting the number of explanations according to the user explanation. For example, since the user may try to record in various environments where external noise exists, the description may be entered as 'recording while riding the bus'. In addition, the user may input a description in response to the surrounding environment, such as 'driving' or 'quiet room'.

도 4는 도 1의 수집서버를 상세하게 도시한 블록도로서, 수집서버(200)는 복수 개의 스마트폰(100)을 통해 학습데이터를 수집하고, 학습데이터를 제휴서버(300)에 제공한다. 수집서버(200)는 통신수단(210), 정보 생성수단(220), 데이터베이스(230) 및 제어수단(240)을 포함한다. 정보 생성수단(220)은 텍스트정보 생성부(221), 보상정보 생성부(222) 및 비용정보 생성부(223)를 포함할 수 있다. 데이터베이스(230)는 사용자 DB(231), 제휴사 DB(232) 및 텍스트 및 음성 DB(233)을 포함할 수 있다.4 is a block diagram illustrating the collection server of FIG. 1 in detail. The collection server 200 collects learning data through a plurality of smart phones 100 and provides the learning data to the affiliate server 300 . The collection server 200 includes a communication means 210 , an information generating means 220 , a database 230 , and a control means 240 . The information generation unit 220 may include a text information generation unit 221 , a compensation information generation unit 222 , and a cost information generation unit 223 . The database 230 may include a user DB 231 , an affiliate DB 232 , and a text and voice DB 233 .

텍스트정보 생성부(221)는 스마트폰(100)에서 텍스트를 출력하기 위한 텍스트정보를 생성한다. 통신수단(210)은 스마트폰(100)으로부터 사용자의 연령, 지역 및 직업에 관련된 사용자정보를 수신하고, 제휴서버(300)로부터 음성인식모듈의 학습에 필요한 요구정보를 수신한다. 요구정보는 기존의 음성인식모듈이 잘 인식되지 않는 음성이거나, 실제 표본화된 방송이나 강좌에서 추출하기 어려운 음성일 수 있다.The text information generating unit 221 generates text information for outputting text in the smartphone 100 . The communication means 210 receives user information related to the age, region, and occupation of the user from the smartphone 100 , and receives request information necessary for learning the voice recognition module from the affiliate server 300 . The requested information may be a voice that is not well recognized by the existing voice recognition module, or a voice that is difficult to extract from an actual sampled broadcast or lecture.

텍스트정보 생성부(221)는 사용자정보와 요구정보에 매칭되는 요소들을 분석하여 텍스트정보를 생성할 수 있다. 요구정보는 전문분야별 어휘, 외래어, 신조어, 방언, 줄임말 및 약어 중 하나 이상을 포함하고, 텍스트정보 생성부(221)는 텍스트정보를 요구정보의 요소별로 카테고리화할 수 있다.The text information generation unit 221 may generate text information by analyzing elements matching the user information and the request information. The request information includes one or more of vocabulary, foreign words, neologisms, dialects, abbreviations, and abbreviations for each specialized field, and the text information generating unit 221 may categorize the text information for each element of the request information.

예를 들어 사용자의 연령에 따라 매칭되는 요소는 외래어, 신조어 또는 줄임말일 수 있고, 지역에 따라 매칭되는 요소는 방언일 수 있으며, 직업에 따라 매칭되는 요소는 전문분야별 어휘 또는 약어일 수 있다.For example, an element matched according to a user's age may be a foreign word, a neologism, or an abbreviation, an element matched according to a region may be a dialect, and an element matched according to a profession may be a vocabulary or abbreviation for a specialized field.

본 발명은 사용자정보와 요구정보에 매칭되는 요소들을 분석하여 텍스트정보를 생성함으로써, 사용자가 자주 사용하는 어휘로 사용자의 취향을 만족시킬 수 있고, 사용자의 자발적 음성 녹음을 유도할 수 있으며, 음성인식모듈의 학습효율을 향상시킬 수 있다.According to the present invention, by generating text information by analyzing elements matching user information and request information, it is possible to satisfy the user's taste with the vocabulary frequently used by the user, induce the user's voluntary voice recording, and voice recognition. It can improve the learning efficiency of the module.

도 5는 도 4의 텍스트 및 음성 DB를 상세하게 도시한 예로서, 사용자정보는 사용자 DB(231)에 저장되고, 제휴자정보와 요구정보는 제휴사 DB(232)에 저장되며, 텍스트정보를 요구정보의 요소별로 카테고리화된 텍스트정보는 텍스트 및 음성 DB(233)에 저장된다. 텍스트 및 음성 DB(233)는 학습데이터를 저장한다. 각 텍스트 DB에서 복수 개의 음성 DB로 구분하는 것은, 사용자별 음성으로 구분하기 위한 것일 수 있고, 사용자별 음성이 녹음되는 주변 환경으로 구분하기 위한 것일 수 있다.FIG. 5 is an example illustrating the text and voice DB of FIG. 4 in detail. User information is stored in the user DB 231, and affiliate information and requested information are stored in the affiliate DB 232, and text information is requested. Text information categorized by elements of information is stored in the text and voice DB 233 . The text and voice DB 233 stores learning data. Separating each text DB into a plurality of voice DBs may be for classifying each user's voice, or may be for classifying each user's voice by a surrounding environment in which the voice is recorded.

보상정보 생성부(222)는 음성 녹음에 따른 보상정보를 생성하고, 사용자 DB(231)는 텍스트 출력단위와 음성녹음 횟수에 따른 보상 규정이 저장되어 있다. 비용정보 생성부(223)는 학습데이터 이용에 따른 비용정보를 생성하고, 제휴사 DB(232)는 학습데이터의 종류와 양에 따른 비용 규정이 저장되어 있다.The compensation information generating unit 222 generates compensation information according to voice recording, and the user DB 231 stores compensation rules according to the text output unit and the number of voice recordings. The cost information generating unit 223 generates cost information according to the use of the learning data, and the affiliate DB 232 stores cost regulations according to the type and amount of the learning data.

도 6은 도 1의 스마트폰 동작방법을 도시한 흐름도로서, 스마트폰(100)은 화면이 꺼진 상태에서 잠금화면 활성화 입력을 감지하면, 잠금화면으로 활성화하고, 잠금화면에 텍스트와 녹음버튼을 함께 표시한다. 잠금화면 활성화 입력은 디스플레이 터치 또는 키패드를 통해 이루어질 수 있다.6 is a flowchart illustrating the method of operating the smartphone of FIG. 1 . When the smartphone 100 detects a lock screen activation input in a state in which the screen is off, it is activated as a lock screen, and a text and a record button are included on the lock screen together. indicate The lock screen activation input may be made through a touch display or a keypad.

스마트폰(100)은 녹음버튼 누름입력을 감지하면 음성녹음을 수행하여 학습데이터를 생성하고, 잠금화면 해제입력을 감지하면 잠금화면을 해제하며, 어떠한 입력을 감지하지 못하면 잠금화면을 비활성화하여 화면이 꺼진 상태로 되돌아간다.When the smartphone 100 detects an input of pressing the record button, it performs voice recording to generate learning data, releases the lock screen when it detects a lock screen release input, and deactivates the lock screen when it does not detect any input, so that the screen back to off state.

10: 학습데이터 수집시스템 100: 스마트폰
110: 저장부 120: 텍스트 선택부
130: 표시부 140: 음성 녹음부
150: 데이터 생성부 160: 통신부
170: 설정부 200: 수집서버
210: 통신수단 220: 정보 생성수단
230: 데이터베이스 240: 제어수단
300: 제휴서버
10: learning data collection system 100: smartphone
110: storage unit 120: text selection unit
130: display unit 140: voice recording unit
150: data generation unit 160: communication unit
170: setting unit 200: collection server
210: communication means 220: information generating means
230: database 240: control means
300: affiliate server

Claims (7)

복수 개의 스마트폰을 통해 학습데이터를 수집하는 수집서버 및
텍스트와 녹음버튼을 함께 표시하고, 녹음버튼의 입력을 받으면 음성을 녹음하며, 표시된 텍스트와 녹음된 음성을 포함하는 학습데이터를 생성하는 스마트폰을 포함하고,
상기 수집서버는,
상기 스마트폰에서 텍스트를 출력하기 위한 텍스트정보를 생성하는 텍스트정보 생성부;
음성 녹음에 따른 보상정보를 생성하는 보상정보 생성부;
학습데이터 이용에 따른 비용정보를 생성하는 비용정보 생성부 및
상기 보상정보를 스마트폰으로 전송하고, 비용정보를 제휴서버로 전송하는 통신수단을 포함하고,
상기 통신수단은 스마트폰으로부터 사용자의 연령, 지역 및 직업에 관련된 사용자정보를 수신하고, 제휴서버로부터 음성인식모듈의 학습에 필요한 요구정보를 수신하며,
상기 텍스트정보 생성부는 사용자정보와 전문분야별 어휘, 외래어, 신조어, 방언, 줄임말 및 약어 중 하나 이상의 요구정보에 매칭되는 요소들을 분석하여 텍스트정보를 생성하고,
상기 학습데이터는 음성인식모듈의 학습에 이용되는 것을 특징으로 하는 학습데이터 수집시스템.
A collection server that collects learning data through a plurality of smartphones and
Including a smartphone that displays the text and the record button together, records the voice when receiving the input of the record button, and generates learning data including the displayed text and the recorded voice,
The collection server,
a text information generation unit for generating text information for outputting text from the smartphone;
a compensation information generating unit generating compensation information according to voice recording;
a cost information generating unit that generates cost information according to the use of learning data; and
and a communication means for transmitting the compensation information to a smartphone and transmitting the cost information to an affiliate server,
The communication means receives user information related to the age, region and occupation of the user from the smartphone, and receives the required information required for learning the voice recognition module from the affiliate server,
The text information generation unit generates text information by analyzing elements matching user information and at least one of the required information among vocabulary, foreign words, new words, dialects, abbreviations and abbreviations for each specialized field,
The learning data is a learning data collection system, characterized in that used for learning of the voice recognition module.
삭제delete 삭제delete 제1항에 있어서,
상기 스마트폰은,
복수 개의 텍스트를 포함하는 텍스트정보를 저장하는 저장부;
상기 텍스트정보에서 음성인식모듈의 학습을 위한 텍스트를 선택하는 텍스트 선택부;
선택된 텍스트와 녹음버튼을 함께 표시하는 표시부;
녹음버튼의 입력을 받으면 음성을 녹음하는 음성 녹음부;
선택된 텍스트와 녹음된 음성을 포함하는 학습데이터를 생성하는 데이터 생성부 및
상기 학습데이터를 수집서버로 전송하는 통신부를 포함하는 것을 특징으로 하는 학습데이터 수집시스템.
According to claim 1,
The smartphone is
a storage unit for storing text information including a plurality of texts;
a text selection unit for selecting text for learning of the voice recognition module from the text information;
a display unit for displaying the selected text and the record button together;
a voice recorder for recording a voice upon receiving an input from the record button;
A data generator for generating learning data including the selected text and recorded voice; and
Learning data collection system, characterized in that it comprises a communication unit for transmitting the learning data to the collection server.
제4항에 있어서,
상기 데이터 생성부는 음성 명령 또는 통화 내용을 녹음하여 학습데이터를 생성하고, 음성 명령을 녹음하여 학습데이터를 생성하는 경우 음성 명령에 따른 처리 결과 및 음성 명령의 오인식에 따른 설명을 포함하여 학습데이터를 생성하며, 통화 내용을 녹음하여 학습데이터를 생성하는 경우 통화 내용에서 통화 상대의 음성을 필터링하는 것을 특징으로 하는 학습데이터 수집시스템.
5. The method of claim 4,
The data generating unit generates learning data by recording a voice command or a call, and when generating learning data by recording a voice command, generates learning data including a processing result according to the voice command and a description according to the misrecognition of the voice command and, when generating learning data by recording the content of the call, the learning data collection system, characterized in that the voice of the callee is filtered from the content of the call.
제1항에 있어서,
상기 스마트폰은 단어, 구, 절, 문장 및 문단 중 하나 이상의 단위로 텍스트가 출력되도록 텍스트 출력단위의 설정을 제공하는 것을 특징으로 하는 학습데이터 수집시스템.
According to claim 1,
The smart phone is a learning data collection system, characterized in that it provides a setting of the text output unit so that the text is output in one or more units of a word, a phrase, a clause, a sentence, and a paragraph.
제1항에 있어서,
상기 스마트폰은 잠금화면 상태에서 텍스트 출력과 녹음 기능이 함께 표시되도록 하는 설정을 제공하는 것을 특징으로 하는 학습데이터 수집시스템.
According to claim 1,
The smart phone learning data collection system, characterized in that it provides a setting to display the text output and the recording function together in the lock screen state.
KR1020190018665A 2019-02-18 2019-02-18 System for collecting learning data KR102296503B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190018665A KR102296503B1 (en) 2019-02-18 2019-02-18 System for collecting learning data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190018665A KR102296503B1 (en) 2019-02-18 2019-02-18 System for collecting learning data

Publications (2)

Publication Number Publication Date
KR20200100410A KR20200100410A (en) 2020-08-26
KR102296503B1 true KR102296503B1 (en) 2021-09-01

Family

ID=72242522

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190018665A KR102296503B1 (en) 2019-02-18 2019-02-18 System for collecting learning data

Country Status (1)

Country Link
KR (1) KR102296503B1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102421982B1 (en) * 2020-10-12 2022-07-18 심유종 System for speech synthesis based on artificial intelligence and method for providing crowding speech using the same

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006084965A (en) * 2004-09-17 2006-03-30 Advanced Telecommunication Research Institute International Voice data collecting device and program
JP2013200828A (en) * 2012-03-26 2013-10-03 Kyocera Corp Device, method and program

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110117449A (en) 2010-04-21 2011-10-27 이진욱 Voice recognition system using data collecting terminal
KR101179915B1 (en) 2011-12-29 2012-09-06 주식회사 예스피치 Apparatus and method for cleaning up vocalization data in Voice Recognition System provided Statistical Language Model
KR101671586B1 (en) * 2014-11-27 2016-11-01 김무현 Method of creating and spreading project audio text using smart phone
KR20160081032A (en) * 2014-12-30 2016-07-08 송광식 System for managing on-line translation service

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006084965A (en) * 2004-09-17 2006-03-30 Advanced Telecommunication Research Institute International Voice data collecting device and program
JP2013200828A (en) * 2012-03-26 2013-10-03 Kyocera Corp Device, method and program

Also Published As

Publication number Publication date
KR20200100410A (en) 2020-08-26

Similar Documents

Publication Publication Date Title
US11594221B2 (en) Transcription generation from multiple speech recognition systems
US11935540B2 (en) Switching between speech recognition systems
US20220122587A1 (en) Training of speech recognition systems
US10623573B2 (en) Personalized support routing based on paralinguistic information
US20200175962A1 (en) Training speech recognition systems using word sequences
US8005680B2 (en) Method for personalization of a service
US8010343B2 (en) Disambiguation systems and methods for use in generating grammars
KR101795593B1 (en) Device and method for protecting phone counselor
Gardner-Bonneau et al. Human factors and voice interactive systems
JP6327848B2 (en) Communication support apparatus, communication support method and program
KR20120038000A (en) Method and system for determining the topic of a conversation and obtaining and presenting related content
ES2751375T3 (en) Linguistic analysis based on a selection of words and linguistic analysis device
CN110460798B (en) Video interview service processing method, device, terminal and storage medium
KR102296503B1 (en) System for collecting learning data
JP2005275601A (en) Information retrieval system with voice
US10282417B2 (en) Conversational list management
JP4000828B2 (en) Information system, electronic equipment, program
KR102583434B1 (en) Method and system for evaluating quality of voice counseling
CN114462376A (en) RPA and AI-based court trial record generation method, device, equipment and medium
JP5627109B2 (en) Audio signal processing device
KR101475228B1 (en) Voice diagnostic system and its service method using dianostic device
US20240127804A1 (en) Transcript tagging and real-time whisper in interactive communications
CN112885371B (en) Method, apparatus, electronic device and readable storage medium for audio desensitization
Tijerina Talk Code-y To Me: An analysis of speech to text systems for consideration of use in writing software
JP2005062398A (en) Device and method for collecting utterance data for speech recognition, and computer program

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant