KR100285502B1 - Method for building phonetic database - Google Patents

Method for building phonetic database

Info

Publication number
KR100285502B1
KR100285502B1 KR1019970047337A KR19970047337A KR100285502B1 KR 100285502 B1 KR100285502 B1 KR 100285502B1 KR 1019970047337 A KR1019970047337 A KR 1019970047337A KR 19970047337 A KR19970047337 A KR 19970047337A KR 100285502 B1 KR100285502 B1 KR 100285502B1
Authority
KR
South Korea
Prior art keywords
voice
file
phonetic
labeling
database
Prior art date
Application number
KR1019970047337A
Other languages
Korean (ko)
Other versions
KR19990025639A (en
Inventor
김재인
김우성
Original Assignee
이계철
한국전기통신공사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이계철, 한국전기통신공사 filed Critical 이계철
Priority to KR1019970047337A priority Critical patent/KR100285502B1/en
Publication of KR19990025639A publication Critical patent/KR19990025639A/en
Application granted granted Critical
Publication of KR100285502B1 publication Critical patent/KR100285502B1/en

Links

Images

Abstract

PURPOSE: A method for building a phonetic database is provided to promptly and accurately build a phonetic database by editing and labeling phonetic data simultaneous with the building of a phonetic file system proper to phonetic recognition training. CONSTITUTION: The method for building a phonetic database comprises steps of collecting phonetic database(500), designing a phonetic file system structure for database building(510), classifying the collected database with respect to the phonetic file system structure by converting the collected phonetic data to the phonetic data(520), labeling the respective classified files(530), confirming the appropriateness of labeling(540), and confirming if all phonetic files are appropriate to the phonetic file system structure(550). By building a phonetic database employing a labeling method, the accurate and prompt building is possible. Further, a cost for adding a phonetic database is reduced.

Description

음성 데이터베이스 구축방법How to build a voice database

본 발명은 음성 데이터베이스 구축방법에 관한 것으로, 보다 상세하게는 음성인식기를 훈련시키기 위해 요구되는 음성 데이터베이스를 효율적으로 구축하도록된 음성 데이터베이스 구축방법에 관한 것이다.The present invention relates to a speech database construction method, and more particularly, to a speech database construction method configured to efficiently construct a speech database required for training a speech recognizer.

음성인식시스템을 제작하기 위해서는 수집된 음성데이터로부터 음성인식시스템에서 학습에 사용하기에 용이한 형태로 데이터를 변환시켜 주어야 한다. 애초에음성데이터를 수집할 때 어떤 전략을 짜서 그대로 수집할 수도 있지만, 이 방법은자연스런 음성수집에 치명적인 영향을 끼치며, 그렇게 될 경우 전체 음성인식시스템의 성능을 저하시키게 된다. 따라서 실제 환경하에서의 자연스런 음성데이터를 수집함이 바람직하다.In order to manufacture a speech recognition system, data must be converted from the collected speech data into a form that is easy to use for learning in the speech recognition system. In the beginning, when collecting voice data, a strategy can be collected and collected as it is, but this method has a detrimental effect on the natural voice collection, which degrades the performance of the entire voice recognition system. Therefore, it is desirable to collect natural voice data under real environment.

제1도는 일반적인 음성인식시스템을 개념적으로 나타낸 도면으로서, 특징추출부(10)로 화자의 음성이 입력되면 그 특징추출부(10)에서는 입력된 음성에 대한 특징을 추출하고, 그 특징추출을 거친 음성데이터는 훈련과정부(12)로 입력되어 훈련 과정을 통해 기준패턴화된 후 기준패턴부(14)로 입력된다. 인식과정부(16)에서는 그 훈련과정부(12)에서 생성한 기준패턴과 비교를 통해 인식결과를 보여준다.FIG. 1 is a diagram conceptually showing a general speech recognition system. When a speaker's voice is input to the feature extractor 10, the feature extractor 10 extracts a feature of the input voice and undergoes the feature extraction. The voice data is inputted to the training department 12, and then standardized through the training process, and then inputted to the reference pattern unit 14. The recognition department 16 shows the recognition result through comparison with the reference pattern generated by the training department 12.

따라서, 음성인식시스템에서는 훈련과정에서 얼마나 좋은 기준패턴을 만들어 내는가 하는 것이 관건이 되며, 이를 위해서는 훈련과정에서 각 음성화일들이 어떤단어 또는 문장을 발성한 것인지를 정확하게 알고 있어야 한다.Therefore, in the speech recognition system, it is important to know how to create a good reference pattern in the training process, and to do this, it is necessary to know exactly which words or sentences each voice file produces during the training process.

통상적으로, 수집된 음성데이터가 어떤 단어 또는 문장을 발성한 것인지를 알기 위해서는 다음의 두가지 방법이 채용된다.In general, the following two methods are employed to know what words or sentences the collected voice data are uttered.

우선 첫번째 방법은 음성데이터를 수집하기 전에 미리 어떤 순서를 정해놓고그 순서대로 데이터를 수집하는 것이다. 이 방법은 미리 순서를 정해 놓기 때문에나중에 음성데이터의 관리가 용이하다는 장점이 있으나, 이 순서대로만 녹음을 해야 하기 때문에 많은 제약이 따른다.First, the first method is to set a certain order before collecting voice data and collect the data in that order. This method has the advantage that it is easy to manage the voice data later because the order is set in advance, but there are many restrictions because the recording must be performed only in this order.

예를 들어, 발싱하는 화자가 정해진 단어나 문장을 잘못 발실했을 경우에 문제가 되며, 또 혹시 한두개를 건너 띄거나 같은 단어를 두번 발성했을 경우에는 그이후의 모든 데이터가 잘못되어 제대로 훈련을 할 수 없게 된다. 발성하는 화자가정확히 발성하였다고 하더라도 그 음성은 화자가 매우 긴장된 상태에서 발성한 것이기 때문에 일반 사용자의 자연스런 발성과는 매우 다른 것이며 따라서 음성인식기의 성능을 저하시키는 요소로 작용하게 된다.For example, if the speaker speaking has missed a given word or sentence incorrectly, and if you skip one or two or speak the same word twice, all subsequent data will be wrong and you will not be able to train properly. do. Even if the speaker is speaking correctly, the voice is very different from the natural voice of the general user because the speaker is speaking in a very tense state and thus acts as a factor that degrades the performance of the voice recognizer.

두번째 방법은 발성하는 화자에게 자연스런 녹음을 하도록 하는 것으로서, 이 방법은 아무렇게나 화자에게 발성을 하도록 해주는 반면 그런 무질서한 데이터들을 정리하여 관리할 수 있는 부가적인 도구가 요구된다.The second method is to have the narrator make a natural recording. This method allows the narrator to speak freely, while requiring additional tools to organize and manage such disordered data.

이 두번째 방법은 화자가 자연스럽게 발성을 하였기 때문에 음성인식기를 이용한 상용 서비스에서 인식해야 할 음성과 매우 유사하며, 따라서 이 방법을 사용할 경우 음성인식 결과가 매우 좋게 나올 것이다. 또한 서비스 도중에도 수집된 데이터를 가지고 다시 훈련에 추가하여 사용할 수 있으므로 반복적인 음성인식기의 성능 향상을 가능하게 해주는 장점이 있게 된다.This second method is very similar to the voice to be recognized in commercial services using the voice recognition because the speaker speaks naturally. Therefore, the voice recognition results will be very good when using this method. In addition, the data collected during the service can be used in addition to training again, which has the advantage of enabling the performance of the repetitive speech recognizer.

그 두번째 방법에 따르면, 화자가 아무런 순서도 없이 발성한 음성데이터를사람이 듣고서 인덱스 화일에 정의된 인덱스대로 변환시켜 주는 작업을 거쳐야 한다. 여기서, 이렇게 해당 인덱스로 변환시키는 작업을 레이블링이라 하는데, 종래에는 음성화일을 레이블링하기 위해서는 사람이 일일이 들어보고 손으로 확인하는 방법뿐이었다.According to the second method, the speaker has to go through the task of converting the voice data spoken out of order into the index defined in the index file. In this case, the operation of converting the index into the corresponding index is called labeling. Conventionally, in order to label voice files, only a person listens and checks by hand.

따라서, 처리속도가 느릴 뿐만 아니라 레이블링 결과도 부정확하다는 문제가발생된다.Therefore, a problem arises that the processing speed is slow and the labeling result is inaccurate.

본 발명은 상술한 종래의 문제점을 해결하기 위해 이루어진 것으로, 음성인식을 위한 훈련과정에 적합한 음성화일 시스템을 구축함과 더불어 음성데이터를 듣고 편집 및 레이블링을 하도록 함으로써 음성 데이터베이스 구축작업을 신속, 정확하게 할 수 있도록 한 음성 데이터베이스 구축방법을 제공함에 그 목적이 있다.The present invention has been made to solve the above-described problems, and by building a voice file system suitable for a training process for voice recognition, by listening to, editing and labeling voice data, it is possible to quickly and accurately construct a voice database. The purpose is to provide a voice database construction method.

상기한 목적을 달성하기 위해 본 발명의 바람직한 실시예에 따르면, 화자에의해 입력되는 음성데이터를 수집하고 데이터베이스 구축을 위한 계층화된 음성 화일시스템 구조를 설계하는 과정과, 상기 수집되는 음성데이터를 음성화일화하여 상기 음성 화일시스템 구조에 맞게 분류하는 과정 및, 이 분류된 모든 음성화일에 대한 레이블링을 실시하는 과정을 구비한 음성 데이터베이스 구축방법이 제공된다.According to a preferred embodiment of the present invention to achieve the above object, a process of designing a hierarchical voice file system structure for collecting voice data input by a speaker and constructing a database, and voice file the collected voice data There is provided a voice database construction method comprising the step of classifying according to the structure of the voice file system and the step of labeling all the classified voice files.

제1도는 일반적인 음성인식 시스템의 개념도.1 is a conceptual diagram of a general speech recognition system.

제2도는 본 발명의 실시예에 따른 음성 데이터베이스 구축을 위한 음성 화일시스템의 구조도.2 is a structural diagram of a voice file system for constructing a voice database according to an embodiment of the present invention.

제3도는 본 발명의 실시예에 따른 음성 레이블링 시스템의 화면 구성도.3 is a screen configuration diagram of a voice labeling system according to an embodiment of the present invention.

제4도는 본 발명의 실시예에 따른 음성 레이블링 과정의 순서도.4 is a flowchart of a voice labeling process according to an embodiment of the present invention.

제5도는 본 발명의 음성 데이터베이스 구축방법을 설명하는 플로우차트이다.5 is a flowchart for explaining a voice database construction method of the present invention.

* 도면의 주요부분에 대한 부호의 설명* Explanation of symbols for main parts of the drawings

10 : 특징추출부 12 : 훈련과정부10: feature extraction unit 12: training department

14 : 기준패턴부 16 : 인식과정부14: reference pattern part 16: recognition and government

이하, 본 발명의 실시예에 대해 첨부된 도면을 참조하여 보다 상세히 설명한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

제2도는 본 발명의 실시예에 따른 음성 데이터베이스 구축을 위한 음성 화일시스템의 구조도로서, 화자에게 자연스럽게 발성을 하도록 하고 음성데이터를 수집하게 되면 음성데이터는 매 통화단위로 저장이 된다. 본 발명의 실시예에서 고려하고 있는 서비스는 전화를 이용한 음성인식 서비스이기 때문에 음성데이터가 전화선을 통해 녹음이 되고, 그로 인해 한 통화가 끝나게 되면 새로운 디렉토리를 만들어그 디렉토리에 음성을 저장하게 된다.2 is a structural diagram of a voice file system for constructing a voice database according to an embodiment of the present invention. When the speaker naturally speaks and collects voice data, the voice data is stored in each call unit. Since the service under consideration in the embodiment of the present invention is a voice recognition service using a telephone, voice data is recorded through a telephone line, and when a call is over, a new directory is created and the voice is stored in the directory.

즉, 데이터 0부터 데이터 1, ···, 데이터 N은 각 통화가 끝날때마다 하나씩 생성되며, 각 디렉토리마다 음성화일이 저장된다. 각 음성화일들은 fO부터 시작하여 f1, f2‥‥‥ fn 등처럼 순서대로 화자가 한 단어 또는 문장을 발성할 때마다끝점 추출기(End Point Detector)에 의해 자동적으로 단어 또는 문장 단위로 잘라져서 음성화일들이 만들어진다.That is, data 0, data 1, ..., and data N are generated one at the end of each call, and voice files are stored in each directory. Each voice file starts with fO and f1, f2 ‥‥‥ fn, etc., and the voice file is automatically cut into words or sentences by the end point detector whenever the speaker speaks a word or sentence. Are made.

동 도면에서, 리스트 화일(list file)이란 각 음성 디렉토리마다 어떤 음성화일들을 갖고 있는지에 대한 정보를 리스트화하여 저장해 놓은 화일이다.In the figure, a list file is a file that lists and stores information on which voice files are included in each voice directory.

각 디렉토리마다 어떤 화일들이 존재하는지에 대한 정보를 리스트 화일이 갖고 있어서, 이를 통해 자동적으로 어떤 음성화일의 다음 화일이나 이전 화일의 로드(load) 및 편집이 용이하다.The list file contains information on what files exist in each directory, which makes it easy to automatically load and edit the next or previous file of a voice file.

이 리스트 화일도 각 음성디렉토리마다 하나씩 생기므로 음성 디렉토리가 많아지면 일일이 입력하기가 번거롭다. 그래서, 또다시 이 리스트 화일의 리스트를 테이블 화일(table file)이라는 이름으로 저장하여 리스트 화일들 각각에 대해 버튼 하나로 자유롭게 로드가능하다.This list file is also created one for each voice directory, so it is cumbersome to input one by one when there are many voice directories. So, again, you can save this list of list files as table files so that you can freely load them with a single button for each of the list files.

이렇게 계층적으로 저장된 음성화일들은 그 내용에 따라 적절한 이름으로 레이블링(labeling)된다.These hierarchical stored voice files are labeled with appropriate names according to their contents.

제3도는 본 발명의 실시예에 따른 음성 레이블링 시스템의 화면 구성도로서,그 음성 레이블링 시스템의 화면에는 자동적으로 다음 음성화일을 로드하여 화면상에 보여주고 확인하기 위해 이전 화일을 로드할 수도 있도록 하는 기능과, 음성화일내에 존재하는 잡음성분을 필요에 따라 제거해 주기 위해 화면상에서 파형 윈도우를 만들어 파형을 보여주고 그중의 특정부분을 잘라내어 들어볼 수 있도록 하는 기능 및, 미세한 부분까지 편집이 가능하도록 파형의 확대/축소를 행하도록 하는 기능등을 수행하기 위한 다수의 버튼(즉, 확대(Zoom In), 축소(Zoom Out), 교정, 재생(Play), 이전 재생(Prev. play), 후속 재생(play next), 저장(store), 로드(load), 로드 리스트 화일(Boad list file), 끝(qult), 세이브(save), +/- 등을 지정하는 버튼)을 갖춘다.3 is a screen configuration diagram of a voice labeling system according to an embodiment of the present invention, in which a screen of the voice labeling system automatically loads the next voice file so that a previous file may be loaded for display and confirmation on the screen. Function, to create a waveform window on the screen to remove the noise components present in the voice file as needed, to show the waveform and to cut out and listen to a specific part of the waveform, and to edit the minute details. A number of buttons (ie Zoom In, Zoom Out, Correction, Play, Prev.Play, Subsequent Play) to perform functions that allow you to zoom in and out. button to specify next, store, load, load list file, qult, save, +/-, and so on.

상기한 제3도에 도시된 음성 레이블링 시스템의 화면 구성을 구현하기 위해서는 일단 음성화일을 듣고 사람이 화면상에서 해당 인덱스를 지정해 주어야 되는데, 본 발명의 실시예에서는 마우스 또는 키보드를 사용하여 인덱스를 지정하도록 하였다.In order to implement the screen configuration of the voice labeling system shown in FIG. 3, a user must listen to a voice file and designate a corresponding index on the screen. According to an embodiment of the present invention, an index is specified using a mouse or a keyboard. It was.

다시 말해서, 인식대상 단어, 즉 인덱스의 크기가 작은 경우에는 화면상에 스크롤되는 윈도우에 해당 인덱스를 보여주고, 마우스를 통해 클릭(click)함으로써 지정하게 되고, 해당 인덱스의 크기가 클 경우에는 인덱스에서 일일이 찾기가 번거롭기 때문에 키보드가 마우스에 비해 속도도 빠르고 효율적이므로 키보드로 직접 입력 하게 된다.In other words, if the size of the word to be recognized, that is, the index is small, the index is displayed in a window scrolling on the screen, and it is designated by clicking with a mouse. Since it is cumbersome to find, the keyboard is faster and more efficient than the mouse.

또, 키보드 입력시는 들리는 대로 입력하기 때문에 필요한 음성화일 이름과틀린 발음을 금방 찾아낼 수 있고, 마우스로 지정하는 것보다 정확도가 뛰어나다.In addition, when the keyboard is input as you hear it, you can quickly find the necessary voice file name and wrong pronunciation, and it is more accurate than using the mouse.

왜냐하면 마우스로 지정할 경우는 실수로 다른 인덱스를 지정할 수 있기 때문이다.This is because if you specify it with the mouse, you can specify a different index by mistake.

한편 동 도면에 따르면, 레이블링된 결과를 화면에 표시하여 사용자가 이를눈으로 확인할 수 있고, 레이블링된 결과를 검증하는 과정에서도 화면상에 나타난레이블과 소리를 들어본 결과와 일치하는지를 확인하여 일치하지 않은 경우에만 마우스 또는 키보드를 이용하여 수정할 수 있다.Meanwhile, according to the same drawing, the labeled results are displayed on the screen so that the user can check them visually, and even in the process of verifying the labeled results, the labels and the sound displayed on the screen are different from each other. You can only modify it using the mouse or keyboard.

상기 제3도에 도시된 음성 레이블링 시스템에 따르면, 인식 대상 단어에 따라 어떤 특정한 순서대로 번호를 부가하게 된다. 왜냐하면 인식해야 할 대상 단어(문장이라 하더라도 단어의 연속임)가 한정되어 있기 때문이다.According to the voice labeling system shown in FIG. 3, numbers are added in a certain order according to the words to be recognized. This is because the target word to recognize (a sentence is a sequence of words) is limited.

즉, 첫번째 인식 대상 단어가 ″아버지″라면 0번, ″어머니″라면 1번‥‥ 의 순으로 번호를 주게 되는데, 이를 인덱스 화일(index file)이라고 부른다. 그러면 음성 화일시스템 구조에서 자동적으로 생성된 f0, f1 등의 화일들은 그 음성화일의 내용이 어떤 것인가에 따라 다시 해당 인덱스를 부여하게 된다.Namely, if the first word to be recognized is "Father", the number is 0, and if "Mother", it is numbered in order, which is called an index file. Then, files such as f0 and f1, which are automatically generated in the voice file system structure, are given a corresponding index again according to the contents of the voice file.

예를 들어 사용자가 세번째로 발성한 f2가 ″아버지″를 발성한 것이었다면 마우스 또는 키보드를 이용하여 이 화일을 fO으로 변경시켜 주게 된다. 모든 화일을 그런 식으로 변경시켜 주면 나중에 화일명만을 보고도 그 화일이 어떤 음성을 발성한 것인지를 알 수 있다.For example, if the user's third voiced f2 was a "father," the file would be changed to fO using the mouse or keyboard. If you change all the files in that way, you can see only the file name later to see what the voice is.

그리고, 만약에 동일한 음성을 두번 발음한 경우에는 동일한 화일명을 갖게되므로, 이를 구분하기 위해 화일명 뒤에 .0, .1‥‥등의 번호를 추가시킨다. 따라서, (f0.0이면 첫번째 발성한 ″아버지″에 대한 음성을 나타내고, f0.1이면 두번째 발성한 ″아버지″에 대한 음성을 나타낸다.If the same voice is pronounced twice, the same file name is given. Therefore, numbers such as .0, .1 ... are added after the file name to distinguish them. Thus, (f0.0 indicates a voice for the first spoken ″ father ″ and f0.1 indicates a voice for the second spoken ″ father ″.

제4도는 본 발명의 실시예에 따른 음성 레이블링 과정의 순서도로서, 본 발명에서의 음성 레이블링 과정은 다음의 수순에 의해 행해진다.4 is a flowchart of a voice labeling process according to an embodiment of the present invention, and the voice labeling process in the present invention is performed by the following procedure.

음성 편집 룰이 시작되면 계층적으로 구축된 음성 화일 시스템 구조에서 먼저 테이블 화일을 로드하게 되고(단계 400), 이어 그 로드된 테이블 화일에서 리스트 화일을 로드하게 된다(단계 405).When the voice editing rule starts, the hierarchically constructed voice file system structure first loads the table file (step 400), and then loads the list file from the loaded table file (step 405).

그후 다수개의 음성 디렉토리 및 또한 각각의 디렉토리내에 존재하는 다수개의 음성화일을 순차적으로 선택한 후(단계 410), 그 선택된 음성화일을 로드한다(단계 415). 이어 그 로드된 음성화일을 버튼을 이용하여 재생시키게 되는데 (단계 420), 이때 그 재생되는 음성화일에 대한 음성 파형 및 레이블링 결과 등이 화면상에 표시된다.Thereafter, a plurality of voice directories and also a plurality of voice files existing in each directory are sequentially selected (step 410), and then the selected voice files are loaded (step 415). Then, the loaded voice file is reproduced by using a button (step 420). At this time, the voice waveform and the labeling result of the reproduced voice file are displayed on the screen.

현재 재생되고 있는 음성화일에 대한 레이블이 있으면(단계 425에서 ″예″) 그 레이블이 정확한지를 확인하게 되는데, 그 레이블이 정확하지 않으면(단계 430에서 ″아니오″) 마우스 또는 키보드를 사용하여 올바른 레이블을 지정해 주게 된다(단계 435). 여기서, 상기 현재 재생되고 있는 음성화일에 대한 레이블이 없을 경우는 상기 단계 435의 동작을 바로 수행하게 된다.If there is a label for the currently playing voice file (″ Yes ″ in step 425), then the label is checked for correctness. If the label is not correct (″ no ″ in step 430), use the mouse or keyboard to select the correct label. (Step 435). If there is no label for the currently played voice file, the operation of step 435 is immediately performed.

한편, 현재 재생되고 있는 음성화일에 대한 레이블이 있는 상태에서 레이블이 정확한 경우에는 해당 음성화일이 마지막인지를 판단하게 되는데, 그 판단결과마지막이 아닌 경우(단계 440에서 ″아니오″)에는 상기 단계 410으로 복귀하여 그 단계에서부터의 동작을 반복수행하게 되고, 해당 음성화일이 마지막인 경우(단계 440에서 ″예″)에는 리스트 화일의 끝인지를 판단하게 된다.On the other hand, if there is a label for the currently playing voice file and the label is correct, it is determined whether the voice file is the last one. If the result is not the last one (″ NO ″ in step 440), the step 410 is performed. In step 440, if the voice file is the last one (" Yes " in step 440), it is determined whether the list file is the end.

그 판단결과, 리스트 화일의 끝이 아니면(단계 445에서 ″아니오″) 상기 단계 405로 복귀하여 그 단계에서부터의 동작을 반복수행하게 되고, 리스트 화일의 끝이면(단계 445에서 ″예″) 테이블 화일의 끝인지를 판단하게 되는데, 테이블 화일의 끝이 아니면(단계 450에서 ″아니오″) 상기 단계 400으로 복귀하여 그 단계에서부터의 동작을 반복수행하게 되는 반면에, 테이블 화일의 끝이 아니면(단계 450에서 ″예″) 음성 편집 룰이 종료된다.As a result of the determination, if it is not the end of the list file (″ NO ″ in step 445), the process returns to step 405 and repeats the operation from that step. If it is the end of the list file (″ Yes ″ in step 445), the table file If it is not the end of the table file (″ NO ″ in step 450), the process returns to step 400 and repeats the operation from that step, whereas if it is not the end of the table file (step 450). ″ Yes ″) voice editing rule ends.

이상에서 설명한 음성 화일시스템 구조 및 음성 레이블링 방식이 채용된 본발명의 음성 데이터베이스 구축방법에 대해 제5도의 플로우차트를 참조하여 설명하면 다음과 같다.Referring to the flowchart of FIG. 5, the method for constructing the voice database of the present invention employing the voice file system structure and the voice labeling scheme described above is as follows.

음성데이터 수집절차가 결정되면 음성데이터를 수집하고(단계 500), 데이터베이스 구축을 위한 음성 화일시스템 구조를 설계하게 된다(단계510). 이어, 그 수집된 음성데이터를 음성화일화하여 음성 화일시스템 구조에 맞게 분류하게 된다(단계 520).When the voice data collection procedure is determined, the voice data is collected (step 500), and the voice file system structure for the database construction is designed (step 510). Subsequently, the collected voice data is voiced and classified according to the voice file system structure (step 520).

그리고 나서, 분류된 각 음성화일에 대하여 레이블링을 실시하게 되는데(단계530), 그 레이블링이 맞지 않으면(단계 540에서 ″아니오″) 상기 단계 530으로 복귀하여 해당 음성화일에 맞는 레이블링을 재실시하게 되는 반면에, 그 레이블링이 맞으면(단계 540에서 ″예″) 모든 음성화일들이 상기 음성 화일시스템 구조에 맞게 분류되었는지를 판단하게 된다.Then, labeling is performed for each classified voice file (step 530). If the labeling is not correct (NO in step 540), the process returns to step 530 to re-label the voice file. On the other hand, if the labeling is correct (" Yes " at step 540) then it is determined whether all voice files have been classified according to the voice file system structure.

그 판단결과, 모든 음성화일들이 상기 음성 화일시스템 구조에 맞게 분류되지 않았으면(단계 550에서 ″아니오″) 상기 단계 520으로 복귀하여 그 단계에서부터의 동작을 반복수행하게 되는 반면에, 모든 음성화일들이 상기 음성 화일시스템 구조에 맞게 분류되었으면(단계 550에서 ″예″) 음성 데이터베이스 구축동작을 종료하게 된다.As a result, if all voice files are not classified according to the voice file system structure ("NO" in step 550), the process returns to step 520 and repeats the operation from that step, while all voice files If it is classified according to the structure of the voice file system (YES in step 550), the voice database construction operation is terminated.

이상 설명한 바와 같은 본 발명에 의하면, 음성인식을 위한 훈련과정에 적합한 음성 화일시스템 구조 및 음성데이터를 듣고 편집/레이블링할 수 있는 레이블링방식을 채용하여 음성 데이터베이스를 구축함으로써, 종레의 방식에 비해 보다 신속, 정확한 구축작업이 가능할 뿐만 아니라 서비스 제공중에 수집된 데이터도 훈련에 활용할 수 있으며, 음성 데이터베이스를 추가하여 구축하는데 소요되는 비용을 절감할 수 있게 된다.According to the present invention as described above, by constructing a voice database by adopting a voice file system structure suitable for the training process for voice recognition and a labeling method that can listen to, edit / label the voice data, it is faster than the method of the Jongle In addition, accurate construction work is possible, as well as data collected during service provision can be used for training, and the cost of building by adding a voice database can be reduced.

본 발명은 상술한 실시예로만 한정되는 것이 아니라 본 발명의 요지를 벗어나지 않는 범위내에서 수정 및 변형하여 실시할 수 있다. 그러한 수정 및 변형에 의한 기술은 다음의 특허청구범위에 속한다고 보아야 한다.The present invention is not limited only to the above-described embodiments, but may be modified and modified without departing from the scope of the present invention. Techniques by such modifications and variations should be regarded as belonging to the following claims.

Claims (6)

매 통화단위마다 새로운 음성 디렉토리를 생성시킴과 더불어 상기 생성된 디렉토리명을 테이블 화일에 등록시키고, 상기 디렉토리 내에 리스트 화일을 생성시킴과 더불어 상기 리스트 화일의 경로를 상기 테이블 화일에 등록시키는 단계와; 상기 매 통화단위마다 음성데이터를 수집한 후 음성화일화하여 상기 생성된 디렉토리 내에 저장시킴과 더불어 상기 음성화일명을 리스트 화일에 등록시키는 단계와; 테이블 화일을 로드하여 테이블 화일에 저장된 리스트 화일명을 순차적으로 읽어들이고, 상기 리스트 화일에 등록된 음성화일을 선택적으로 재생시키면서 레이블링하는 단계로 구성된 것을 특징으로 하는 음성 데이터베이스 구축방법.Creating a new voice directory every call unit, registering the generated directory name in a table file, creating a list file in the directory, and registering a path of the list file in the table file; Collecting voice data in every call unit, storing the voice file in the generated directory, and registering the voice file name in a list file; And loading a table file to sequentially read the list file names stored in the table file, and labeling while selectively reproducing the voice file registered in the list file. 제1항에 있어서, 상기 음성화일을 선택적으로 재생시키면서 레이블링하는 단계는 해당 음성화일을 사용자가 직접 듣고 표시된 인덱스중에서 선택하는 단계를 포함하는 것을 특징으로 하는 음성 데이터베이스 구축방법.The method of claim 1, wherein the labeling of the voice file while selectively playing the voice file comprises the user directly listening to the voice file and selecting the voice file from the displayed index. 제2항에 있어서, 상기 인덱스중에서 선택하는 단계는 마우스를 사용하여 선택하는 단계를 포함하는 것을 특징으로 하는 음성 데이터베이스 구축방법.The method of claim 2, wherein the selecting from the index comprises selecting using a mouse. 제1항에 있어서, 상기 음성화일을 선택적으로 재생시키면서 레이블링하는 단계는 키보드를 통해 직접 입력하는 단계를 포함하는 것을 특징으로 하는 음성 데이터베이스 구축방법.The method of claim 1, wherein the labeling of the voice file while selectively playing the voice file comprises inputting directly through a keyboard. 제4항에 있어서, 상기 키보드를 통해 직접 입력하는 단계는 저장하려고 하는 음성화일 이름과 일치하지 않을 경우 이를 알려주어 틀린 발음을 찾아낼 수 있도록 하는 단계를 포함하는 것을 특징으로 하는 음성 데이터베이스 구축방법.The method of claim 4, wherein the step of directly inputting through the keyboard comprises notifying the voice file name to be stored if it does not match the name of the voice file to be stored, so as to detect a wrong pronunciation. 제1항에 있어서, 상기 음성화일을 선택적으로 재생시키면서 레이블링하는 단계는 음성화일에 잡음성분이 존재할 경우 그 잡음성분을 제거하고, 녹음이 잘못된 데이터는 삭제하는 단계를 포함하는 것을 특징으로 하는 음성 데이터베이스 구축방법.The voice database of claim 1, wherein the reproducing and labeling of the voice file comprises removing the noise component if a noise component is present in the voice file and deleting the wrong recording data. How to build.
KR1019970047337A 1997-09-13 1997-09-13 Method for building phonetic database KR100285502B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019970047337A KR100285502B1 (en) 1997-09-13 1997-09-13 Method for building phonetic database

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019970047337A KR100285502B1 (en) 1997-09-13 1997-09-13 Method for building phonetic database

Publications (2)

Publication Number Publication Date
KR19990025639A KR19990025639A (en) 1999-04-06
KR100285502B1 true KR100285502B1 (en) 2001-04-02

Family

ID=37514396

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019970047337A KR100285502B1 (en) 1997-09-13 1997-09-13 Method for building phonetic database

Country Status (1)

Country Link
KR (1) KR100285502B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9626962B2 (en) 2014-05-02 2017-04-18 Samsung Electronics Co., Ltd. Method and apparatus for recognizing speech, and method and apparatus for generating noise-speech recognition model

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
데이타구조론, 강맹규著, 홍릉과학출판사,p492 3줄 - p522 10줄 (1990.8.30) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9626962B2 (en) 2014-05-02 2017-04-18 Samsung Electronics Co., Ltd. Method and apparatus for recognizing speech, and method and apparatus for generating noise-speech recognition model

Also Published As

Publication number Publication date
KR19990025639A (en) 1999-04-06

Similar Documents

Publication Publication Date Title
JP3350293B2 (en) Dialogue processing device and dialogue processing method
US7693717B2 (en) Session file modification with annotation using speech recognition or text to speech
US9066049B2 (en) Method and apparatus for processing scripts
US8150687B2 (en) Recognizing speech, and processing data
US7054817B2 (en) User interface for speech model generation and testing
US20200126583A1 (en) Discovering highlights in transcribed source material for rapid multimedia production
US20140250355A1 (en) Time-synchronized, talking ebooks and readers
JP4634889B2 (en) Voice dialogue scenario creation method, apparatus, voice dialogue scenario creation program, recording medium
JP2014222290A (en) Minute recording device, minute recording method, and program
US20220093103A1 (en) Method, system, and computer-readable recording medium for managing text transcript and memo for audio file
Goedertier et al. Orthographic Transcription of the Spoken Dutch Corpus.
JP3437617B2 (en) Time-series data recording / reproducing device
Buist et al. Automatic Summarization of Meeting Data: A Feasibility Study.
Coleman et al. Mining a year of speech
JP5533865B2 (en) Editing support system, editing support method, and editing support program
KR100285502B1 (en) Method for building phonetic database
JPH0482357A (en) Method for recording and retrieval and automatic recorder
KR101783872B1 (en) Video Search System and Method thereof
JP2012226651A (en) Information processing apparatus, information processing method, and program
WO2022185363A1 (en) Label assignment assistance device, label assignment assistance method, and program
Škodová et al. Discretion of speech units for the text post-processing phase of automatic transcription (in the czech language)
US20050125236A1 (en) Automatic capture of intonation cues in audio segments for speech applications
JP7166370B2 (en) Methods, systems, and computer readable recording media for improving speech recognition rates for audio recordings
KR101030777B1 (en) Method and apparatus for producing script data
KR102274275B1 (en) Application and method for generating text link

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121228

Year of fee payment: 13

FPAY Annual fee payment

Payment date: 20140102

Year of fee payment: 14

FPAY Annual fee payment

Payment date: 20150105

Year of fee payment: 15

FPAY Annual fee payment

Payment date: 20160104

Year of fee payment: 16

FPAY Annual fee payment

Payment date: 20161227

Year of fee payment: 17

EXPY Expiration of term