KR101960434B1 - Tagging method in audio file for machine learning - Google Patents

Tagging method in audio file for machine learning Download PDF

Info

Publication number
KR101960434B1
KR101960434B1 KR1020160179793A KR20160179793A KR101960434B1 KR 101960434 B1 KR101960434 B1 KR 101960434B1 KR 1020160179793 A KR1020160179793 A KR 1020160179793A KR 20160179793 A KR20160179793 A KR 20160179793A KR 101960434 B1 KR101960434 B1 KR 101960434B1
Authority
KR
South Korea
Prior art keywords
tagging
data
file
voice
present
Prior art date
Application number
KR1020160179793A
Other languages
Korean (ko)
Other versions
KR20180075884A (en
Inventor
김대희
권준성
이새벽
임병수
Original Assignee
주식회사 와이즈넛
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 와이즈넛 filed Critical 주식회사 와이즈넛
Priority to KR1020160179793A priority Critical patent/KR101960434B1/en
Publication of KR20180075884A publication Critical patent/KR20180075884A/en
Application granted granted Critical
Publication of KR101960434B1 publication Critical patent/KR101960434B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing

Abstract

본 발명은 음성 파일에 태깅을 실행하는 방법과 그 방법을 실행하는 소프트웨어가 설치된 태깅 장치에 관한 것이다.
본 발명의 방법은 음성 데이터를 정제하여 기계학습을 위한 프로세스 실행에 관하며, 태깅 플레이어를 실행하여 저장소에 저장되어 있거나 실시간으로 생성하는 음성 파일에 대한 오퍼레이팅 이벤트를 할 수 있는 태깅 플레이어 사용자 인터페이스에서 상기 음성 파일에 대해서 특정 구간을 선택해서 텍스트 태깅을 입력하는 단계를 포함한다.
The present invention relates to a method for executing tagging in a voice file and a tagging apparatus in which software for executing the method is installed.
The method of the present invention includes a tagging player user interface capable of executing a process for machine learning by refining voice data and executing a tagging player and performing an operating event on a voice file stored in a storage or generated in real time Selecting a specific section for the voice file and inputting the text tagging.

Description

음성 파일에 태깅을 실행하는 기계학습용 태깅 방법{TAGGING METHOD IN AUDIO FILE FOR MACHINE LEARNING}TECHNICAL FIELD The present invention relates to a tagging method for tagging a voice file,

본 발명은 기계학습을 위한 음성/음향 태깅 기술에 관한 것이다. 특히 음성/음향 분석 기반으로 상황 판단 솔루션 기술을 개발하려는 국가연구과제의 일환으로서 본 발명이 완성되었다.The present invention relates to a speech / sound tagging technique for machine learning. Particularly, the present invention has been completed as part of a national research project to develop situation judgment solution technology based on voice / sound analysis.

지능형 로봇이 상황을 효과적으로 판단하기 위해서는 수집된 데이터를 사전에 혹은 실시간으로 학습해야 한다. 오늘날 네트워크에서의 인간 활동은 그 규모를 가늠하기 어려운 수많은 정보와 데이터를 생성해낸다. 그것들은 다시 네트워크를 통해 수집되면서 빅데이터 환경을 조성한다. 빅데이터 환경에서는 정형화된 데이터만이 아니라 비정형 데이터를 포함해야 한다. 그런데 비정형 데이터에는 음성 파일도 포함되어 있어서 음성 파일로부터 의미 있는 데이터를 끌어내는 방법이 연구되고 있다. In order for the intelligent robot to effectively judge the situation, it must learn the collected data in advance or in real time. Today's human activities in the network generate a lot of information and data that are difficult to quantify. They are gathered back over the network to create a big data environment. In a big data environment, you must include unstructured data, not just structured data. However, since unstructured data also includes audio files, a method of extracting meaningful data from audio files has been studied.

예컨대 쇼핑몰의 고객 상담 음성 파일을 생각해 보자. 해당 음성 파일들에서 출현하는 단어를 미리 태깅하여 저장할 수 있다면, 저장된 데이터를 통해서 고객들이 가장 관심 있어하는 상품이나 혹은 고객들의 불편한 점 등을 손쉽게 파악할 수 있을 것이다. 또 다른 예로 공공기관의 신고전화 음성 파일을 생각해 볼 수 있다. 마찬가지로 음성 파일 속에서 출현하는 단어를 통해서 주민들의 불편한 점이나 혹은 사고 정보 등을 모아 다양한 정보를 얻을 수 있다. For example, consider a customer consultation voice file in a shopping mall. If the words appearing in the voice files can be tagged and stored in advance, the stored data can easily grasp the products that the customers are most interested in or the inconveniences of the customers. Another example is to think about the voice file of a report by a public agency. Similarly, various information can be obtained by gathering inconveniences or accident information of residents through words appearing in voice files.

그러나 그와 같은 과업을 달성하기 위해서는 수집되는 음성 데이터가 기계학습 대상으로 정제되어야 했다. 음성파일로부터 데이터를 추출해서 기계 학습용 데이터로 만들기 위한 종래기술은 이러했다. 시스템 관리자가 음성파일을 들은 다음에(제1 프로세스), 특정 정보와 그 정보가 출현한 시간정보를 별도로 기록해서 데이터를 수동으로 저장하는 방식이었다(제2 프로세스). 이렇게 이원화됨으로써 관리자의 실수가 발생하고 작업 시간도 느려진다는 단점이 있었다. However, in order to achieve such a task, the collected voice data had to be refined into machine learning objects. This is the prior art for extracting data from speech files into machine learning data. After the system administrator listens to the voice file (first process), the specific information and the time information in which the information appeared appear separately and the data is manually stored (second process). This is a disadvantage in that a mistake of the manager occurs and the working time is slowed down.

본 발명의 발명자들은 이러한 문제점을 해결하기 위해 오랫동안 연구하고 개발한 끝에 본 발명을 완성하기에 이르렀다. The inventors of the present invention have studied and developed for a long time in order to solve such a problem, and finally the present invention has been completed.

본 발명은 음성 데이터를 빅데이터 환경에 더욱 적응되도록 하는 기술을 제안한다. 특히 본 발명의 목적은 비정형 데이터인 음성 파일을 기계 학습에 용이한 데이터로 만들기 위해서, 음성 파일을 불러와서 재생하는 플레이어에서 직접 특정 구간별로 태깅을 할 수 있는 방법을 제안함에 있다. 그렇게 함으로써 신속하고 간편하면서도 태깅과 저장 과정에서 사용자의 실수가 발생할 가능성을 최소화한다.The present invention proposes a technique for making voice data more adaptable to a big data environment. In particular, an object of the present invention is to provide a method for directly tagging a specific section by a player who reads and plays an audio file, in order to make the audio file, which is atypical data, easy to machine learning. This minimizes the likelihood of user error during tagging and storage, quickly and easily.

한편, 본 발명의 명시되지 않은 또 다른 목적들은 하기의 상세한 설명 및 그 효과로부터 용이하게 추론할 수 있는 범위 내에서 추가적으로 고려될 것이다.On the other hand, other unspecified purposes of the present invention will be further considered within the scope of the following detailed description and easily deduced from the effects thereof.

본 발명은 음성 파일에 태깅을 실행하는 기계학습용 태깅 사용자 인터페이스 방법으로서:The present invention relates to a tagging user interface method for machine learning that performs tagging to a voice file,

음성 데이터를 정제하여 기계학습을 위한 프로세스 실행으로서 태깅 플레이어를 실행하여 저장소에 저장되어 있거나 실시간으로 생성하는 음성 파일에 대한 오퍼레이팅 이벤트를 할 수 있는 태깅 플레이어 사용자 인터페이스에서 상기 음성 파일에 대해서 특정 구간을 선택해서 텍스트 태깅을 입력하는 단계를 포함하는 것을 특징으로 한다.A tagging player user interface that can execute a tagging player as a process execution for machine learning by purifying voice data and can perform an operating event for a voice file stored in a storage or generated in real time, And inputting text tagging.

본 발명의 바람직한 일 실시예에 따른 음성 파일에 태깅을 실행하는 기계학습용 태깅 사용자 인터페이스 방법에 있어서, 상기 오퍼레이팅 이벤트는 음성파일의 불러오기, 재생, 되돌리기, 건너뛰기, 빠르게 재생 및 녹음 중 어느 하나의 버튼을 선택함으로써 실행되도록 하는 것이 좋다.The tagging user interface method for machine learning which performs tagging to a voice file according to a preferred embodiment of the present invention is characterized in that the operating event is one of a voice file retrieval, a reproduction, a reversion, a skip, Button is selected.

또한, 본 발명의 바람직한 일 실시예에 따른 음성 파일에 태깅을 실행하는 기계학습용 태깅 사용자 인터페이스 방법에 있어서, 상기 텍스트 태깅이 입력된 음성 파일을 기계학습용 Raw Data 파일로 생성해서 저장하는 단계를 더 포함할 수 있다.The tagging user interface method for tagging a voice file according to a preferred embodiment of the present invention further includes generating and storing a voice file into which the text tagging is inputted as a raw data file for machine learning can do.

또한, 본 발명의 바람직한 일 실시예에 따른 음성 파일에 태깅을 실행하는 기계학습용 태깅 사용자 인터페이스 방법에 있어서, 상기 텍스트 태깅은 제1입력UI에서 제1분류 데이터를, 제2입력UI에서 제2분류 데이터를 입력하는 것일 수 있다.In addition, in the tagging method for machine learning for performing tagging in a voice file according to a preferred embodiment of the present invention, the text tagging may include first classification data in a first input UI, second classification data in a second input UI, It may be to input data.

또한, 본 발명의 바람직한 일 실시예에 따른 음성 파일에 태깅을 실행하는 기계학습용 태깅 사용자 인터페이스 방법에 있어서, 학습 모듈이 상기 Raw Data 파일을 학습하는 단계를 더 포함할 수 있다. In addition, the tagging user interface method for machine learning that performs tagging on a voice file according to a preferred embodiment of the present invention may further include a step of learning module for learning the raw data file.

위와 같은 본 발명의 과제해결수단을 통해서 음성파일 실행과 태깅 작업이 이원화되어 불편했던 종래의 문제점을 훌륭하게 해결할 수 있다. 기존의 기계학습을 위한 음성 데이터를 정제하는 복잡한 방식을 하나의 음성파일 플레이어용 사용자 인터페이스를 통해서 간단하게 수행할 수 있기 때문이다. 또한 중간 과정이 생략됨으로써 사용자의 실수를 방지할 수 있고, 빠른 시간 내에 해당 작업을 수행할 수 있다는 효과를 거둔다.The above-described problem of the present invention can solve the conventional problem that voice file execution and tagging work are uncomfortable. This is because a complicated method of refining speech data for existing machine learning can be easily performed through a user interface for a voice file player. In addition, since the intermediate process is omitted, it is possible to prevent a user from making a mistake and to perform the task in a short period of time.

한편, 여기에서 명시적으로 언급되지 않은 효과라 하더라도, 본 발명의 기술적 특징에 의해 기대되는 이하의 명세서에서 기재된 효과 및 그 잠정적인 효과는 본 발명의 명세서에 기재된 것과 같이 취급됨을 첨언한다.On the other hand, even if the effects are not explicitly mentioned here, the effect described in the following specification, which is expected by the technical features of the present invention, and its potential effects are treated as described in the specification of the present invention.

도 1은 본 발명의 태깅 장치의 전자적 구성 예를 개략적으로 나타낸 도면이다.
도 2는 본 발명의 바람직한 일 실시예에 따른 태깅 플레이어(100)의 사용자 인터페이스 구성 예를 나타내는 도면이다.
도 3은 본 발명에 따라 태깅 프로세스를 실행한 후 저장되는 로우 데이터 Json Format의 예를 나타낸다.
도 4는 본 발명의 일 실시예에 따른 방법의 전체 프로세스를 개략적으로 나타내었다.
※ 첨부된 도면은 본 발명의 기술사상에 대한 이해를 위하여 참조로서 예시된 것임을 밝히며, 그것에 의해 본 발명의 권리범위가 제한되지는 아니한다.
1 is a diagram schematically showing an example of an electronic configuration of the tagging device of the present invention.
FIG. 2 is a diagram showing an example of a user interface configuration of the tagging player 100 according to a preferred embodiment of the present invention.
FIG. 3 shows an example of a raw data Json Format stored after executing the tagging process according to the present invention.
Figure 4 schematically illustrates the overall process of a method according to one embodiment of the present invention.
* The accompanying drawings illustrate examples of the present invention in order to facilitate understanding of the technical idea of the present invention, and thus the scope of the present invention is not limited thereto.

본 발명을 설명함에 있어서 관련된 공지기능에 대하여 이 분야의 기술자에게 자명한 사항으로서 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.In the following description of the present invention, a detailed description of known functions and configurations incorporated herein will be omitted when it may obscure the subject matter of the present invention.

도 1은 본 발명을 태깅 장치의 구성 예를 개략적으로 나타내었다. 1 schematically shows an example of the configuration of a tagging apparatus according to the present invention.

본 발명의 태깅 장치는 하드웨어 및 소프트웨어의 유기적인 결합으로 구성된다. 태깅 장치는 저장소(15)에 저장되어 있는 제 1 음성 파일(150)에 접근해서 태깅 작업을 한 다음에 다시 데이터 수집용으로 변환된 제 2 음성 파일(151)로 저장한다.The tagging device of the present invention consists of an organic combination of hardware and software. The tagging device accesses the first audio file 150 stored in the storage 15 and performs a tagging operation. Then, the tagging device stores the second audio file 151 converted for data collection.

본 발명의 일 실시예에서 상기 저장소(15)는 네트워크 상에 존재하는 저장소이다. 그것은 회사 인트라넷에 의해서 태깅 장치가 접근할 수 있는 저장소일 수 있으며, 또한 인터넷을 통해서 태깅 장치가 접근할 수 있는 저장소일 수 있다. 말하자면, 상기 음성 파일들(150, 151)은 네트워크를 통해 접근, 확산, 공유, 분석되는 데이터가 된다. 본 실시예에서 태깅 장치는 그러므로 네트워크 통신이 가능한 통신 모듈을 갖는다.In one embodiment of the present invention, the repository 15 is a repository that resides on a network. It can be a repository that can be accessed by a tagging device by a company intranet, or it can also be a repository that can be accessed by a tagging device via the Internet. In other words, the voice files 150 and 151 become data to be accessed, spread, shared, and analyzed through the network. In this embodiment, the tagging device therefore has a communication module capable of network communication.

또한 본 발명의 다른 실시예에서 상기 저장소(15)는 디바이스의 내부 혹은 외장 메모리를 포함한다. 디바이스 메모리에 저장되어 있는 음성 파일을 불러와서 태깅을 하거나 혹은 디바이스에서 음성 파일을 생성해서 태깅할 수도 있다.Also in another embodiment of the present invention, the storage 15 comprises internal or external memory of the device. It is also possible to tag an audio file stored in the device memory by tagging or generate a voice file on the device.

입력기(13)는 마우스, 터치입력기, 키보드 등의 입력수단을 포함할 수 있으며, 이들 입력기(13)는 태깅 플레이어(100)에서 오퍼레이팅 이벤트나 태깅 이벤트에 필요한 입력 작업을 실행한다. 디스플레이(14)는 태깅 장치의 태깅 플레이어(100)의 사용자 화면을 출력한다.The input device 13 may include input means such as a mouse, a touch input device, and a keyboard. The input device 13 executes an input operation required for an operating event or a tagging event in the tagging player 100. The display 14 outputs the user screen of the tagging player 100 of the tagging device.

제어부(10)는 하나 이상의 프로세서를 포함하며, 운영체제와 함께 컴퓨터 코드를 실행하고 데이터를 생성 및 사용하는 동작을 실행한다. 또한 제어부(10)는 일련의 명령어를 사용하여 태깅 장치의 컴포넌트들 간의 입력 및 출력 데이터의 수신 및 처리를 할 수 있다. 특히 태깅 플레이어(100)의 실행을 통해서 저장소(15)에 있는 제 1 음성 파일(150)을 불러와서 오퍼레이팅 이벤트 및/또는 태깅 이벤트를 실행하는 일련의 프로세스를 제어한다. The control unit 10 includes one or more processors and executes the computer code together with the operating system to perform operations to generate and use data. The control unit 10 can also receive and process input and output data between the components of the tagging device using a series of commands. Particularly the first audio file 150 in the repository 15 through the execution of the tagging player 100 to control a series of processes for executing an operating event and / or a tagging event.

도면에서는 설명의 편의를 위해서 태깅 플레이어(100)가 제어부(10)에 속한 것으로 나타나 있지만, 태깅 플레이어(100)는 태깅 장치의 메모리에 저장되어 있는 소프트웨어 모듈이다. 그런 메모리는 도 1에는 나타나 있지 않지만, 디바이스에서 사용되는 컴퓨터 코드 및 데이터를 저장하는 장소를 제공하는 것으로서 관용적인 수단이라 하겠다.Although the tagging player 100 is shown as belonging to the control unit 10 for convenience of explanation, the tagging player 100 is a software module stored in the memory of the tagging apparatus. Such a memory is not shown in FIG. 1 but is a conventional means of providing a place for storing computer codes and data used in the device.

사용자(음성파일을 기계학습용으로 정제하는 작업을 하는 사용자)는 태깅 플레이어(100)를 실행하여 음성 파일을 불러오거나 조작하거나 또는 태깅 작업을 실행한다. 이때 태깅 장치의 마이크(11)와 스피커(12)가 실행된다. A user (a user who performs an operation to refine an audio file for machine learning) executes the tagging player 100 to retrieve or manipulate an audio file or execute a tagging operation. At this time, the microphone 11 and the speaker 12 of the tagging apparatus are executed.

도 2는 본 발명의 바람직한 어느 실시예의 태깅 플레이어(100)의 사용자 인터페이스 구성 예를 나타낸다.2 shows an example of a user interface configuration of the tagging player 100 according to a preferred embodiment of the present invention.

태깅 플레이어(100)는 오퍼레이팅 이벤트 사용자 인터페이스(110)와 태깅 이벤트 사용자 인터페이스(130)를 포함한다.The tagging player 100 includes an operating event user interface 110 and a tagging event user interface 130.

오퍼레이팅 이벤트 사용자 인터페이스(110)는 태깅 플레이어에서 음성 파일에 대한 조작을 실행할 수 있는 수단을 제공한다. 예컨대 재생 버튼(112)은 음성 파일의 재생 기능을, 되돌리기 버튼(111)은 음성 파일을 뒤로 되돌리는 기능을, 빠르게 재생 버튼(116)은 음성 파일을 앞으로 빠르게 재생하는 기능을, 일시 정지 버튼(114)은 음성 파일의 재생을 일시적으로 정지하는 기능을, 중단 버튼(115)은 음성 파일의 재생을 중단하는 기능을, 녹음 버튼(113)은 사용자가 사운드를 녹음하는 기능을 지원한다. 그 밖에 건너뛰기, 뒤로 건너뛰기 등 다양한 음성 조작 기능을 포함할 수 있다. 본 명세서에서 이런 기능 버튼을 선택해서 음성 파일을 조작하는 것을 오퍼레이팅 이벤트로 표현하였다. The operating event user interface 110 provides a means for executing operations on voice files in the tagging player. For example, the playback button 112 has a function of playing back a voice file, the revert button 111 has a function of returning a voice file backward, the quick playback button 116 has a function of quickly playing back a voice file, 114 stops playback of the audio file temporarily, the stop button 115 stops playback of the audio file, and the record button 113 supports the function of the user to record the sound. It can also include various voice manipulation functions such as skip and skip back. In this specification, the operation of the voice file by selecting the function button is expressed as an operating event.

이처럼 태깅 플레이어(100)가 오퍼레이팅 이벤트 사용자 인터페이스(110)를 포함함으로써 음성 파일 플레이어로서의 기능을 겸용할 수 있는 장점을 발휘한다. As described above, the tagging player 100 includes the operating event user interface 110, which is advantageous in that it can also function as a voice file player.

태깅 이벤트 사용자 인터페이스(130)는 사용자가 입력수단을 이용해서 텍스트를 입력하여 태깅할 수 있는 기능을 제공한다. 바람직하게는 복수 분류의 태깅 작업을 실행할 수 있다. 예컨대 제 1 입력 UI(131)에서는 제 1 분류 데이터로서 <상황>에 관한 데이터를, 제 2 입력 UI(132)에서는 제 2 분류 데이터로서 <단어>에 관한 데이터를 입력하도록 할 수 있다. The tagging event user interface 130 provides a function for the user to input and tag text using the input means. Preferably, a plurality of classification tagging operations can be executed. For example, in the first input UI 131, data on <status> may be inputted as first classification data, and data on <word> may be inputted as second classification data in the second input UI 132.

상기 태깅 이벤트 사용자 인터페이스(130)는, 도시 예에서는 2개의 입력 UI가 구성되어 있지만, 입력 UI를 추가할 수 있으며, 입력 UI를 추가하기 위한 버튼이 제공될 수 있다. 이론적으로는 제 1 분류에서 제 M 분류(M은 1보다 큰 정수)까지 사용자가 정할 수 있고, 그것에 따라 제 M 입력 UI를 태깅 이벤트 사용자 인터페이스(130)가 제공할 수 있다. 각 입력 UI마다 사용자는 1개 이상의 라벨 텍스트를 입력하여 태깅 작업을 할 수 있다. The tagging event user interface 130 includes two input UIs in the illustrated example, but may add an input UI and may be provided with a button for adding an input UI. Theoretically, the user can define up to M classifications (M is an integer greater than 1) in the first classification, and the M input UI can be provided by the tagging event user interface 130 accordingly. For each input UI, the user can perform tagging tasks by entering one or more label texts.

도 2의 실시예에서는 제 1 분류 데이터로서 <화재>라는 라벨로 태깅 작업을 했고, 제 2 분류 데이터로서 <사고>라는 라벨로 태깅 입력을 수행하였다. 이때 사용자는 구간을 정할 수 있다. 입력수단을 이용해서 사용자가 선택한 구간의 시작 시간과 종료 시간을 입력 UI에서 선택하도록 할 수 있다. In the embodiment of FIG. 2, the tagging operation is performed with the label <fire> as the first classification data, and the tagging input is performed with the label <accident> as the second classification data. At this time, the user can set the interval. The user can select the start time and end time of the section selected by the user using the input means.

한편, 바람직하게는 음성 파일의 시간에 비례한 파형(Waveform)을 화면의 120 영역에 출력한다. 이렇게 해서 음성 파일에 대한 오퍼레이팅 이벤트와 태깅 구간을 설정해서 태깅 작업을 수행하는 태깅 이벤트의 효율을 향상시킬 수 있다.Preferably, a waveform proportional to the time of the audio file is output to the area 120 of the screen. In this way, it is possible to improve the efficiency of the tagging event that performs the tagging operation by setting the operating event and the tagging interval for the voice file.

도 2의 태깅 플레이어(100)에는 음성파일을 불러오는 버튼과 태깅한 파일을 저장하는 버튼이 표시되어 있지 않지만, 이는 본 발명에서 당연히 포함되는 수단으로 이해되어야 한다.In the tagging player 100 of FIG. 2, buttons for loading voice files and buttons for storing tagged files are not shown, but this should be understood as means of course included in the present invention.

본 발명은 위와 같은 태깅 플레이어(100)를 태깅 툴로써 사용해서 음성파일의 특정 구간을 선택한 뒤, 해당 구간에 사용자가 원하는 정보를 태깅할 수 있는 제공하겠다는 것이다. 그런 다음에 최종적으로 사용자가 태깅한 정보를 기계 학습에 용이한 Raw Data 파일로 만들어주는 기능을 제공한다.In the present invention, the tagging player 100 is used as a tagging tool to select a specific section of a voice file, and then the tagging information can be tagged by the user in the corresponding section. Then, finally, the information tagged by the user is converted into a raw data file which is easy to machine learning.

본 발명의 위와 같은 태깅 툴이 지원하는 태깅 기능으로 다는 다음과 같은 것이 포함될 수 있다:The tagging function supported by the above-described tagging tool of the present invention may include the following:

- 사용자가 원하는 명칭의 Label을 생성할 수 있다.- You can create a label with the name you want.

- 사용자가 생성한 Label에 원하는 음성 구간을 선택하여 데이터를 넣을 수 있다.- You can insert data by selecting the desired voice section on the label created by the user.

- 사용자가 입력한 데이터에 대해 수정/삭제 기능을 제공할 수 있다.- It can provide correction / deletion function for data entered by the user.

- 사용자가 입력한 데이터를 Raw Data 파일로 생성할 수 있다.- You can generate the raw data as user input data.

- 사용자가 기존에 생성한 Raw Data파일을 불러와 추가/수정/삭제 작업을 할 수 있다.- You can add / modify / delete Raw Data file created by user.

한편, 태깅 플레이어(100)를 이용해서 사용자가 입력한 정보를 익스포트Export했을 경우, Raw Data 파일을 생성하는 규칙을 간략하게 예시하면 이러하다: 생성되는 Raw Data 파일명은 음성 파일의 이름을 기반으로 하며 사용자가 정한 Label 명을 확장자로 한다. 예를 들어, 음성파일의 이름이 "MyLife.wav"이면서 태깅 툴에서 입력한 데이터의 Label명이 "keyword"일 경우 생성되는 Raw Data 파일 명은 "MyLife.keyword" 이다.On the other hand, if you export the information that you entered Export using the tagging player (100), Raw Data yireohada Examples simplify the rules for creating file: Create Raw Data file name that is based on the name of the sound file you The name of the Label specified by the extension is assumed. For example, if the name of the voice file is "MyLife.wav" and the label name of the data input by the tagging tool is "keyword", the name of the raw data file to be generated is "MyLife.keyword".

Raw Data 안의 데이터는 Json Format으로 생성되며 이는 도 3과 같이 작성될 수 있다. The data in the raw data is generated in the Json format, which can be created as shown in FIG.

도 3의 Json Format의 중괄호가 되어 있는 항목인 각 엘레먼트는 이러하다: FILE NAME은 제 1 음성 파일인 실제 음성 파일명, LABEL_NAME은 사용자가 추가한 라벨 명칭, DATA는 사용자가 선택한 구간에 입력한 데이터, START_TIME은 사용자가 선택한 구간의 시작 시간, END_TIME은 사용자가 선택한 구간의 종료 시간이다.LABEL_NAME is the label name added by the user, DATA is the data entered in the section selected by the user, START_TIME is the name of the first voice file, Is the start time of the section selected by the user, and END_TIME is the end time of the section selected by the user.

도 4는 본 발명의 바람직한 어느 실시예에 따른 음성 파일에 태깅을 실행하는 기계학습용 태깅 사용자 인터페이스 방법의 전체 프로세스를 나타내며, 이로써 본 발명의 요지가 다시금 요약된다.FIG. 4 shows a whole process of a tagging user interface method for machine learning in which tagging is performed on a voice file according to a preferred embodiment of the present invention, whereby the subject matter of the present invention is summarized again.

태깅 장치의 입력수단이 도 2에서 설명한 태깅 플레이어를 실행한다(S100). 그런 다음에 태깅 플레이어 오퍼레이팅 이벤트 UI에서 오퍼레이팅 이벤트를 실행할 수 있다(S110). The input means of the tagging device executes the tagging player described in Fig. 2 (S100). Then, the operating event can be executed in the tagging player operating event UI (S110).

도 4에서는 음성 파일을 불러오는 과정을 나타내지는 않았으나, 바람직하게는 오퍼레이팅 이벤트를 실행하기 전에 저장소에 있는 음성파일을 호출되었을 것이다. 또는 녹음 기능을 이용해서 실시간으로 음성 파일을 생성하는 중이어도 좋다.Although FIG. 4 does not show the process of loading the voice file, it is preferable that the voice file in the storage has been called before executing the operating event. Or you may be creating a voice file in real time using the recording function.

또한 사용자는 입력수단을 이용해서 태깅 플레이어에서 음성 파일에 대해서 데이터를 입력하여 태깅 작업을 실행한다(S120). 이때 전술한 바와 같이 태깅 작업 시에 입력수단으로 특정 구간을 선택해서 데이터를 입력한다.In addition, the user inputs the data of the voice file in the tagging player using the input means and executes the tagging operation (S120). At this time, as described above, the data is input by selecting a specific section as the input means during the tagging operation.

다음으로 태깅 장치는 텍스트 태깅이 입력된 음성 파일을 기계학습용 Raw Data 파일로 생성해서 저장한다(S130). Next, the tagging device generates and stores a voice file into which the text tagging is inputted as a machine learning Raw Data file (S130).

위와 같은 프로세스로 음성 파일에 태깅을 실행하는 까닭은 비정형 음성 파일로부터 빅데이터를 효과적으로 수집하기 위함이다. 그러므로 기계 학습을 실행하는 소프트웨어 알고리즘으로 구성되는 학습 모듈이 저장소에 저장된 로우 데이터 파일을 학습하는 단계가 후속 프로세스로 속행될 것이다. The reason for tagging voice files with the above process is to collect big data effectively from unstructured voice files. Therefore, the step of learning the raw data file stored in the repository, which consists of software algorithms that perform machine learning, will continue with the subsequent process.

참고로, 본 발명의 일 실시예에 따른 음성 파일에 태깅을 실행하는 기계학습용 태깅 사용자 인터페이스 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독가능매체에 기록될 수 있다. 상기 컴퓨터 판독가능매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용가능한 것일 수도 있다. 컴퓨터 판독가능매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체, 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함될 수 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급언어코드를 포함한다. 상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.For reference, the machine learning tagging user interface method for tagging a voice file according to an embodiment of the present invention may be implemented in a form of a program command that can be executed through various computer means and recorded in a computer readable medium. The computer-readable medium may include program instructions, data files, data structures, and the like, alone or in combination. The program instructions recorded on the medium may be those specially designed and constructed for the present invention or may be available to those skilled in the art of computer software. Examples of computer-readable media include magnetic media such as hard disks, floppy disks and magnetic tape, optical recording media such as CD-ROMs, DVDs, magneto-optical media such as floptical disks, A hard disk drive, a flash memory, and the like. Examples of program instructions include high-level language code that can be executed by a computer using an interpreter, as well as machine accords such as those produced by a compiler. The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.

본 발명의 보호범위가 이상에서 명시적으로 설명한 실시예의 기재와 표현에 제한되는 것은 아니다. 또한, 본 발명이 속하는 기술분야에서 자명한 변경이나 치환으로 말미암아 본 발명이 보호범위가 제한될 수도 없음을 다시 한 번 첨언한다.The scope of protection of the present invention is not limited to the description and the expression of the embodiments explicitly described in the foregoing. It is again to be understood that the present invention is not limited by the modifications or substitutions that are obvious to those skilled in the art.

Claims (5)

음성 데이터를 기계학습용으로 정제하기 위한 프로세스 실행인 태깅 플레이어를 실행하여 저장소에 저장되어 있거나 실시간으로 생성되는 음성 파일에 대한 오퍼레이팅 이벤트를 실행할 수 있는 태깅 플레이어 사용자 인터페이스에서 상기 음성 파일에 대해서 특정 구간을 선택해서 텍스트 태깅을 입력하고, 상기 텍스트 태깅이 입력된 음성 파일을 기계학습용 Raw Data 파일로 생성해서 저장하는 단계를 포함하되, 상기 텍스트 태깅은 제1입력UI에서 제1분류 데이터를, 제2입력UI에서 제2분류 데이터를 입력하는 것인, 음성 파일에 태깅을 실행하는 기계학습용 태깅 사용자 인터페이스 방법.A tagging player user interface capable of executing a tagging player, which is a process execution for refining voice data for machine learning, to execute an operating event for a voice file stored in a storage or generated in real time, selects a specific section for the voice file And generating and storing a text file into which the text tagging is inputted as a machine learning learning data file, wherein the text tagging is a processing of inputting first classification data in a first input UI, Wherein the second classification data is input to the voice file. 제1항에 있어서,
상기 오퍼레이팅 이벤트는 음성파일의 불러오기, 재생, 되돌리기, 건너뛰기, 빠르게 재생 및 녹음 중 어느 하나의 버튼을 선택함으로써 실행되는 것인 음성 파일에 태깅을 실행하는 기계학습용 태깅 사용자 인터페이스 방법.
The method according to claim 1,
Wherein the operating event is executed by selecting any one of a loading, a playback, a reverting, a skip, a quick playback, and a recording of a voice file.
삭제delete 삭제delete 제1항에 있어서,
학습 모듈이 상기 Raw Data 파일을 학습하는 단계를 더 포함하는, 음성 파일에 태깅을 실행하는 기계학습용 태깅 사용자 인터페이스 방법.
The method according to claim 1,
Further comprising the step of the learning module learning the raw data file.
KR1020160179793A 2016-12-27 2016-12-27 Tagging method in audio file for machine learning KR101960434B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160179793A KR101960434B1 (en) 2016-12-27 2016-12-27 Tagging method in audio file for machine learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160179793A KR101960434B1 (en) 2016-12-27 2016-12-27 Tagging method in audio file for machine learning

Publications (2)

Publication Number Publication Date
KR20180075884A KR20180075884A (en) 2018-07-05
KR101960434B1 true KR101960434B1 (en) 2019-03-20

Family

ID=62920219

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160179793A KR101960434B1 (en) 2016-12-27 2016-12-27 Tagging method in audio file for machine learning

Country Status (1)

Country Link
KR (1) KR101960434B1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10805029B2 (en) 2018-09-11 2020-10-13 Nbcuniversal Media, Llc Real-time automated classification system

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100530171C (en) * 2005-01-31 2009-08-19 日电(中国)有限公司 Dictionary learning method and devcie
WO2013152254A1 (en) * 2012-04-06 2013-10-10 Drexel University System and method for suggesting the viewing of cultural items based on social tagging and metadata applications

Also Published As

Publication number Publication date
KR20180075884A (en) 2018-07-05

Similar Documents

Publication Publication Date Title
US8903691B2 (en) Linking graphical user interface testing tools and human performance modeling to enable usability assessment
US20180173386A1 (en) Updating data records by adding editing functions to non-editable display elements
US10997222B2 (en) Conversational agent dialog flow user interface
US11164574B2 (en) Conversational agent generation
US6993487B2 (en) Software code comments management method and system supporting speech recognition technology
CN104809056B (en) A kind of generation method and device of interface testing code
US11841890B2 (en) Call summary
US20090044110A1 (en) Graphical User Interface (GUI) Script Generation and Documentation
JPH03282862A (en) Programming assisting device
CN109154935A (en) The intelligence for the information completed for task is captured, stored and fetched
US10108698B2 (en) Common data repository for improving transactional efficiencies of user interactions with a computing device
US20120110444A1 (en) Help Document Animated Visualization
CN105653121B (en) A method of it realizes to cancel in copy editor based on Android system and reform
US10078634B2 (en) Visualizing and exploring natural-language text
CN108369600A (en) Web browser extends
WO2019169794A1 (en) Method and device for displaying annotation content of teaching system
Le Franc et al. The ACLEW DiViMe: An Easy-to-use Diarization Tool.
JP2019091416A5 (en)
KR101960434B1 (en) Tagging method in audio file for machine learning
CN108459848A (en) A kind of script acquisition methods and system applied to Excel softwares
CN108351868A (en) The interactive content provided for document generates
KR102234332B1 (en) Method and Apparatus for Automating Business Process
CN108062213A (en) A kind of methods of exhibiting and device at quick search interface
CN104469013B (en) A kind of mobile terminal and its dialing edit methods
CN110007922A (en) Compilation Method, device and the equipment of graphical source code based on artificial intelligence

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant