KR100282048B1 - Wave file automatic classification method of car voice recognizer - Google Patents

Wave file automatic classification method of car voice recognizer Download PDF

Info

Publication number
KR100282048B1
KR100282048B1 KR1019980029588A KR19980029588A KR100282048B1 KR 100282048 B1 KR100282048 B1 KR 100282048B1 KR 1019980029588 A KR1019980029588 A KR 1019980029588A KR 19980029588 A KR19980029588 A KR 19980029588A KR 100282048 B1 KR100282048 B1 KR 100282048B1
Authority
KR
South Korea
Prior art keywords
condition
file
directory
spl
wave
Prior art date
Application number
KR1019980029588A
Other languages
Korean (ko)
Other versions
KR20000009294A (en
Inventor
류승표
권오일
이봉우
Original Assignee
윤장진
주식회사현대오토넷
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 윤장진, 주식회사현대오토넷 filed Critical 윤장진
Priority to KR1019980029588A priority Critical patent/KR100282048B1/en
Publication of KR20000009294A publication Critical patent/KR20000009294A/en
Application granted granted Critical
Publication of KR100282048B1 publication Critical patent/KR100282048B1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Navigation (AREA)

Abstract

본 발명은 차량용 음성인식을 위해 구축되어 있는 조건별 음성 데이터 베이스에서 원하는 조건과 음질에 맞는 웨이브파일의 분류를 자동으로 수행할 수 있도록 한 차량용 음성인식기의 웨이브파일 자동 분류 방법에 관한 것으로, 음성 파일의 음질에 따른 조건, 각 음성을 발성한 화자의 성별을 판단하는 조건, 각 음성을 발성한 화자의 연령을 의미하는 조건, 녹음 장소에 따른 조건, 운전상태에 따른 조건, 음성파형의 진폭에 따른 조건, 방언지역에 따른 조건을 결정하는 웨이브 조건 결정 과정과, SPL디렉터리와 웨이브 디렉터리에 대한 정보를 입력하는 디렉터리 초기화 과정과, SPL을 리스트하여 사용자에게 확인시키는 SPL 파일 체크 과정과, 사용자가 입력한 조건과 디렉터리 구조에 따라 조건에 맞는 웨이브 파일 리스트를 만드는 리스트 파일 작성 과정을 순차적으로 수행하여 이루어진다.The present invention relates to a method for automatically classifying a wave file of a vehicle voice recognizer to automatically classify a wave file according to a desired condition and sound quality in a conditional voice database constructed for a vehicle voice recognition. Condition of sound quality, condition of judging gender of speaker who spoke each voice, condition of age of speaker who spoke each voice, condition of recording place, condition of driving condition, amplitude of voice waveform Wave condition determination process to determine the condition according to the condition and dialect area, directory initialization process to input information about SPL directory and wave directory, SPL file checking process to list SPL and confirm it to the user, and Create a list file that creates a list of wave files that match the conditions based on the conditions and directory structure. It achieved by performing the information one by one.

Description

차량용 음성인식기의 웨이브파일 자동 분류 방법Wave file automatic classification method of car voice recognizer

본 발명은 자동차에 관한 것으로, 특히 차량용 음성인식을 위해 구축되어 있는 조건별 음성 데이터 베이스에서 원하는 조건과 음질에 맞는 웨이브파일(WAVEFILE)의 분류를 자동으로 수행할 수 있도록 한 차량용 음성인식기의 웨이브파일 자동 분류 방법에 관한 것이다.BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a vehicle, and in particular, a wave file of a vehicle speech recognizer that can automatically classify a wave file (WAVEFILE) according to a desired condition and sound quality in a conditional speech database constructed for vehicle speech recognition. Automatic classification method.

일반적으로 음성인식이란 사람의 음성에서 특징 패턴을 뽑아내고 이를 비교 인식하여 인간이 발성한 음성을 기계가 인지하도록 만드는 총체적인 작업을 의미한다.In general, speech recognition refers to a general operation of extracting a feature pattern from a human voice and comparing and recognizing it so that a machine recognizes a speech produced by a human being.

인식을 수행하기 위해서는 먼저 인식용 단어(또는 명령)를 선정하고, 이 단어들을 많은 사람들에게 발성시킨 다음 그 데이터를 종합,분석하여 각 단어에서 같은 발성음내에서는(모든 발성 화자)공통되고, 다른 단어와는 구별되는 어떤 패턴을 먼저 찾아야 한다.In order to perform recognition, first select a word (or command) for recognition, speak these words to many people, and then synthesize and analyze the data to make the words common in all words (all talkers), and other words. You must first find some pattern that is distinct from.

이 패턴이 찾아지면 이를 시스템 내에 저장하여 두고 사용자가 마이크로 어떤 특정단어를 입력시키면 이 음성에서 역시 동일한 방식으로 어떤 비교 패턴을 뽑아낸 다음 기존에 저장해 둔 각 단어들의 패턴과 비교하여 가장 근접되는 단어를 인식되었다고 본다.When this pattern is found, it is stored in the system, and when a user enters a certain word into the microphone, the voice is extracted in the same way, and then compared to the pattern of each word previously stored to find the closest word. I think it was recognized.

인식이 수행되면 각종 차량용 전장품이 인지할 수 있는 디지털 프로토콜을 출력시키고 차량용 전장품들(예컨대 에어컨, 차량용 오디오등)은 이 명령 프로토콜에 따라 자동으로 작동된다.When the recognition is performed, a variety of vehicle electronics outputs a digital protocol that can be recognized, and the vehicle electronics (eg, air conditioners, car audio, etc.) are automatically operated according to this command protocol.

마이크로 입력되는 음성, 제어 명령들의 예를 들어보면 "볼륨업"은 차량용 오디오 시스템의 전체 볼륨을 한 단계씩 올려주는 명령이고, "에프엠"은 차량용 오디오의 모드를 FM으로 맞춰주는 명령이다.As an example of the voice and control commands input to the microphone, "volume up" is a command to increase the overall volume of the car audio system by one step, and "FM" is a command to set the mode of the car audio to FM.

더욱 상세히, 이러한 음성인식 시스템의 내부 작동 순서를 살펴보면, 먼저 음성입력부에서는 외부 마이크를 이용해 외부에서 전해오는 공기의 진동을 전기적인 신호로 바꿔주며, LPF모듈에서 입력된 신호에서 잡음이나 기타 음성이외의 필요없는 신호들을 걸러내주며, 이렇게 걸러진 전기적인 아날로그신호를 A/D콘버터에서 디지털 신호로 변환시켜준다.In more detail, the internal operation sequence of the voice recognition system, first, the voice input unit uses an external microphone to convert the vibration of air from the outside into an electrical signal, and the noise input from the LPF module requires other than noise or other voices. It filters out missing signals and converts these filtered analog analog signals from A / D converters to digital signals.

그러면 프리 프로세싱부에서는 음성 인식을 수행하기전에,이 음성신호에서 기계가 판별하기 어려운 부분은 최소한으로 억제하고 기계가 판별하기 쉬운 부분만 남겨두는 적당한 신호처리를 수행하는 전처리를 하게 된다.Then, before performing the speech recognition, the preprocessing unit performs preprocessing to perform proper signal processing that minimizes the parts that are difficult to be machined in the voice signal and leaves only the parts that are easy to be identified by the machine.

또한, 특징 추출부를 통하여 음성에서 기계가 인지하기에 간편한 음성의 시간-주파수적 특징을 뽑아내며, 추출된 음성의 특징을 기존에 각 단어별로 작성해 둔 기준 패턴과 비교하여 패턴이 가장 유사한 단어모델이 결정되고, 음성인식 시스템에서는 입력된 음성이 단어모델이라고 판단하게 된다.In addition, the feature extractor extracts the time-frequency features of the voice that are easy for the machine to recognize from the speech, and compares the extracted speech features with the reference patterns that have been prepared for each word. The voice recognition system determines that the input voice is a word model.

그리고 단어가 결정되면 인식 시스템은 해당 단어가 수행될 전장품에게 해당 프로토콜을 전달하고 이에따라 전장품이 작동을 하게 되는 것이다.And when the word is determined, the recognition system delivers the protocol to the electronic device to which the word is to be performed, and the electronic device operates accordingly.

그러나, 이와같은 종래 음성 인식 시스템의 음성 데이터베이스에서 원하는 조건의 웨이브파일을 분류해 내기가 매우 힘들었으며, 분류하지 않고 그냥 사용하는 경우가 많았다.However, it is very difficult to classify a wave file of a desired condition in a speech database of such a conventional speech recognition system, and it is often used without classification.

또한, 웨이브파일을 분류한다고 하여도 사람의 손을 일일이 거쳐야 했으며,이에 따라 불필요한 시간과 인력의 낭비를 가져오게 되는 문제가 있었다.In addition, even to classify wave files had to go through each person's hand, there was a problem that leads to unnecessary waste of time and manpower.

본 발명은 이와같은 종래의 문제점을 해결하기 위하여 안출한 것으로, 본 발명의 목적은, 차량의 환경에 맞게 녹음된 방대한 양의 데이터베이스를 사람의 손을 거치지 않고 소프트웨어적으로 간단히 분류해 낼 수 있도록 하여 지역별, 속도별, 연렬별, 조건별로 구축되어 있는 음성 데이터베이스를 효과적으로 사용할 수 있도록 하는 차량용 음성인식기의 웨이브파일 자동 분류 방법을 제공하는데 있다.The present invention has been made to solve such a conventional problem, and an object of the present invention is to enable a software to easily classify a large amount of database recorded according to the environment of a vehicle without going through a human hand. The present invention provides a method for automatically classifying a wave file of a vehicle voice recognizer to effectively use a voice database constructed by region, speed, sequence, and condition.

도 1은 음성인식 시스템의 구성을 나타낸 블록도1 is a block diagram showing the configuration of a voice recognition system

도 2는 본 발명 차량용 음성인식기의 웨이브파일 자동 분류 방법의 전체적인 동작흐름도2 is an overall operation flow diagram of a wave file automatic classification method of a vehicle voice recognizer of the present invention

도 3은 도 2에서의 웨이브 조건 결정 과정을 나타낸 동작흐름도FIG. 3 is a flowchart illustrating a wave condition determining process of FIG. 2.

도 4는 도 2에서의 디렉터리 초기화과정을 나타낸 동작흐름도4 is a flowchart illustrating a directory initialization process of FIG. 2.

도 5는 도 2에서의 SPL파일 체크 과정을 나타낸 동작흐름도FIG. 5 is a flowchart illustrating a process of checking an SPL file in FIG.

도 6은 도 2에서의 리스트 파일 작성 과정을 나타낸 동작 흐름도6 is a flowchart illustrating an operation of creating a list file of FIG. 2.

〈도면의 주요 부분에 대한 부호의 설명〉<Explanation of symbols for main parts of drawing>

1:음성구간 검출부 2:특징계수 추출부1: Voice section detection section 2: Feature coefficient extraction section

3:음성인식부 4:데이터 베이스부3: Voice recognition section 4: Database section

5:후처리부5: post-processing unit

이와같은 목적을 달성하기 위한 본 발명은, 데이터베이스의 전반적인 정보와 화자의 정보, 음질에 대한 정보들이 기록되어 있는 정보 파일들을 디렉토리 단위로 읽어들여서 사용자가 원하는 조건에만 합당한 웨이브 파일의 리스트를 정해진 규격대로 작성하여 ASCII 텍스트 포멧의 파일로 저장함을 특징으로 한다.In order to achieve the above object, the present invention reads the information files in which the overall information of the database, the speaker information, and the sound quality are recorded in a directory unit, so that a list of wave files that satisfies a user's desired condition is set according to a predetermined standard. It is written and saved as a file in ASCII text format.

이하, 본 발명의 실시예를 첨부된 도면을 참고로 하여 상세히 설명하면 다음과 같다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

본 발명은 도 1에 도시된 바와같이 입력되는 신호로부터 음성구간을 검출하는 음성구간 검출부(1)와, MFCC계수를 사용하여 상기 음성구간 검출부(1)에서 검출된 음성구간으로부터 그 특징을 추출하는 특징계수 추출부(2)와, HMM 등의 알고리즘을 이용하여 음성신호를 인식하는 음성인식부(3)와, 음성신호에 의해 학습된 단어 모델이 저정되어 있는 데이터 베이스부(4)와, 상기 음성인식부(3)에서 인식된 음성신호에 대해 실효성을 판단하여 인식되는 단어를 출력하는 후처리부(5)로 구성된다.As shown in FIG. 1, the present invention provides a speech section detecting unit 1 for detecting a speech section from an input signal, and extracts a feature from the speech section detected by the speech section detecting section 1 using an MFCC coefficient. A feature coefficient extraction section 2, a speech recognition section 3 for recognizing a speech signal using an algorithm such as an HMM, a database section 4 storing a word model learned by the speech signal, and It is composed of a post-processing section 5 for outputting the recognized words by determining the effectiveness of the speech signal recognized by the speech recognition section (3).

이와같은 구성을 갖는 본 발명은 도스(DOS)기반의 프로그램으로, 도스 바탕에 영문 모드로 실행시켜야 하며, IBM-AT/386 이상의 기종에서는 어디서든 작동가능하며, 디렉토리와 파일이름은 8.3형식만 적용가능하다.The present invention having such a configuration is a DOS-based program, which must be run in English mode on a DOS-based basis, and can operate anywhere in the IBM-AT / 386 or higher model, and only 8.3 format is applied to directories and file names. It is possible.

본 발명은 도 2에 도시된 바와같이 크게 웨이브 조건 결정 과정(S10),디렉터리 초기화 과정(S20), SPL(Speech Logging) 파일 체크 과정(S30), 리스트 파일 작성 과정(S40)의 4단계로 이루어지며, 이들을 순차적으로 실행하면서 작업을 수행한다.As shown in FIG. 2, the present invention is largely composed of four steps: a wave condition determination process (S10), a directory initialization process (S20), a SPL (Speech Logging) file check process (S30), and a list file creation process (S40). It executes tasks by executing them sequentially.

먼저, 웨이브 조건 결정과정(S10)은 웨이브 파일을 선택하기위한 조건을 결정하는 부분으로, 도 3에 도시된 바와같이, 조건값을 초기화하고(S11), 조건값을 정정(S12)한 후 정정된 값을 모니터를 통하여 본다(S13).First, the wave condition determination process (S10) is a part for determining a condition for selecting a wave file, as shown in FIG. 3, initializes the condition value (S11), corrects the condition value (S12), and then corrects it. The measured value is viewed through the monitor (S13).

그리고 수정사항이 없는가를 판단하여 수정사항이 없으면 리턴하고 수정사항이 있으면 다시 정정을 수행한 후 상기 S12단계로 돌아간다(S14,S15).If it is determined that there are no modifications, it returns if there is no modification, and if there is a modification, corrects again and returns to the step S12 (S14, S15).

여기서,인식 수행을 위하여는 7가지 조건이 필요하다.Here, seven conditions are required to perform the recognition.

제1조건은 사운드의 질로,음성 파일의 음질에 따른 분류조건이다.The first condition is sound quality, which is a classification condition according to sound quality of a voice file.

음성 데이터 베이스에 저장된 각 음성 파형에 대해 소음의 포함 유무,음질의 차이에 따라 A부터 E까지 다섯단계로 분류되어 있다.For each voice waveform stored in the voice database, it is classified into five levels from A to E according to whether noise is included and difference in sound quality.

A단계는 소음이 거의 없는 이상적인 파형이고, B단계는 음성이 비교적 좋으나 작은 소음, 낮은 기침,명확하지 않은 에코,숨소리,느린 발음은 허용되며, C단계는 보통정도의 음질로 B단계에서 정한 기준보다 더크게 들리는 소음으로 음성의 앞 뒤 묵음 구간이 100ms보다 짧고 10ms보다 길 때이며, D단계는 C단계보다 낮은 음질로 순간 소음이 음성을 초과할 때,발음이 올바르고 아직 이해할 수 있는 정도, 앞 뒤 묵음구간이 10ms보다 짧을 때,녹음 상태가 나쁠때이며, E단계는 매우 낮은 음질로, 묵음 구간이 0ms보다 적을 때,인식단어와 다른 단어일 때,발음을 이해 할수 없을 때이다.Level A is an ideal waveform with little noise, while level B is relatively good in voice, but low noise, low cough, indefinite echoes, breaths, and slow pronunciation are acceptable, and level C is a moderate sound quality. The louder noise is when the front and rear silence interval is shorter than 100ms and longer than 10ms, and the D level is lower than the C level, when the instantaneous noise exceeds the voice, the sound is correct and understandable. When the silence period is shorter than 10ms, the recording state is bad, the E level is very low sound quality, when the silence period is less than 0ms, when the word is different from the recognition word, when the pronunciation is not understood.

여기서, 각 음성의 음질 분류 조건을 복수로 선택할 수 있는데,예를들어 사용자가 이 조건을 A,B라고 입력할 경우 전 음성 데이터 베이스 가운데에서 음질 조건이 A,B인 음성은 선택되고 나머지는 선택되지 않는다.Here, a plurality of sound quality classification conditions may be selected for each voice. For example, if the user inputs A, B as the condition, a voice having a sound quality condition of A or B is selected among all voice databases, and the rest are selected. It doesn't work.

제2조건은 각 음성을 발성한 화자의 성별을 판단하는 분류조건이다.The second condition is a classification condition for determining the gender of the speaker who spoke each voice.

사용자는 [남녀모두],[남자만],[여자만] 중에서 한가지를 선택할 수 있다.The user can select one of [man and woman], [man only], and [woman only].

[남녀모두]는 음성을 발성한 화자가 남자이거나 여자이거나 상관하지 않는다는 의미로 검색조건에서 이 조건은 스킵(SKIP)하게 된다.[Both male and female] means that the speaker who spoke the voice does not care whether it is male or female, and this condition is skipped in the search condition.

[남자만]은 음성발성화자가 남자인 음성파일을 선택하도록 하는 것이고,[여자만]은 음성발성화자가 여자인 음성파일만 선택하도록 하는 것이다.[Man only] means that the voice speaker selects a voice file that is a male, and [Woman only] allows a voice speaker to select only a voice file that is a female.

제3조건은 각 음성을 발성한 화자의 연령을 의미하는 분류조건이다.The third condition is a classification condition representing the age of the speaker who spoke each voice.

각 연령별로 20대,30대,40대,50대이상의 단위로 분류되어 있다.Each age group is divided into 20s, 30s, 40s and 50s.

사용자는 이 숫자둥 한 개를 입력하도록 되어 있으며 예를들어 20을 입력하면 음성데이터 베이스중에서 20대만 선택되며 0을 선택하면 이 조건은 스킵된다.The user is required to enter one of these numbers. For example, if you enter 20, only 20 are selected from the voice database. If you select 0, this condition is skipped.

제4조건은 녹음 장소에 따른 분류조건이다.The fourth condition is a classification condition according to the recording place.

차량에서 녹음한 경우와 사무실 환경에서 녹음한 두가지 경우의 음성이 저장되어 있는데 [어디나]는 어디서 녹음했건 상관않는다는 의미로, 사용자가 이 조건을 선택하면 이 분류조건은 스킵하게 된다.There are two kinds of voice recordings recorded in the vehicle and in the office environment, and [wherever] means that it does not matter where you recorded. If you select this condition, this classification condition is skipped.

[차내]는 자동차내에서 녹음한 경우만 선택되고, [사무실내]는 사무실 환경에서 녹음한 경우만 선택된다.[In-car] is selected only when recording in a car, and [In-office] is selected only when recording in an office environment.

제5조건은 운전상태에 따른 분류조건이다.The fifth condition is a classification condition according to the operating state.

상기 분류조건중 녹음 장소가 차량인 경우 이 조건이 필요한데, 이 분류조건은 자동차의 속도 및 주행 상태에 따른 분류로 다음 표 1과 같다.This condition is required when the recording place is a vehicle among the classification conditions. This classification condition is classified according to the speed and driving state of the vehicle, as shown in Table 1 below.

[표 1]TABLE 1

구분division 속도speed 엔진engine Pan 도로road 001001 00 오프off 오프off 도심downtown 002002 00 오프off 오프off 주차parking 003003 00 오프off On 도심downtown 004004 00 오프off On 주차parking 005005 00 On 오프off 도심downtown 006006 00 On 오프off 주차parking 007007 00 On On 도심downtown 008008 00 On On 주차parking 009009 4040 On 오프off 도심downtown 010010 4040 On 오프off 도심downtown 011011 6060 On On 도시근교Suburb 012012 6060 On On 도시근교Suburb 013013 8080 On 오프off 일반도로General road 014014 100100 On 오프off 일반도로General road 015015 100100 On On 고속도로highway 016016 100100 On On 고속도로highway

사용자는 이 중에서 하나를 선택할 수 있다.The user can select one of these.

[상태1-8]은 상태 1부터 8까지를 선택하고, [상태9-12]는 상태 9부터 12까지를 선택하고, [상태 13-16]은 상태13부터 상태16까지를 선택한다.[State 1-8] selects states 1 to 8, [State 9-12] selects states 9 to 12, and [State 13-16] selects states 13 to 16.

제6조건은 음성파형의 진폭을 분류하는 조건이다.The sixth condition is a condition for classifying the amplitude of the speech waveform.

음성데이터 베이스에서는 검수 과정에서 진폭의 크기를 로우레벨의 경우와 그렇지않은 경우의 두가지로 구분하고 있는데 이는 음성 데이터의 인식 훈련 과정에서 이 두 경우를 구분해 줄 필요가 있기 때문이며,[노 메터]는 두 경우 다 수용하겠다는 의미이고, [로우 레벨만]은 음성 파형의 진폭이 로우인 경우만 선택하며, [적정레벨만]은 음성파형의 진폭이 정상적인 경우만 선택한다.In the voice database, the amplitude level is divided into two cases of low level and other cases in the inspection process, because it is necessary to distinguish these two cases in the training process of recognition of voice data. In both cases, it means to accept. [Low level only] is selected only when the amplitude of the speech waveform is low, and [Relative level only] is selected only when the amplitude of the speech waveform is normal.

제7조건은 방언지역에 따른 분류조건이다.The seventh condition is the classification condition according to the dialect region.

이 조건은 각 사투리를 사용하는 지방을 구분해 주기위한 것이며,서울/경기/부산/대전/광주/강릉등 전국 7개 지역에서 다양한 방언을 구사하는 화자들로부터 음성을 녹음하였다.This condition is to distinguish the provinces using the dialects, and the voices were recorded from speakers who speak various dialects in seven areas of Seoul, Gyeonggi, Busan, Daejeon, Gwangju and Gangneung.

이를 방언별로 구분하여 음성 인식 훈련이 수행될 필요가 있기 때문에 본 조건이 추가된 것이다.This condition is added because speech recognition training needs to be performed by dividing this into dialects.

다음에 S20과정인 디렉터리 초기화 과정을 도 4를 참고로 하여 설명한다.Next, a process of initializing the directory, which is an S20 process, will be described with reference to FIG. 4.

이 과정은 SPL 디렉터리와 웨이브 디렉터리에 대한 정보를 입력하는 과정으로, 기본적으로 초기 파일을 먼저 읽도록 되어 있으며, 이 초기화 파일에서 디렉터리 정보를 읽는다(S21).This process is to input information about SPL directory and wave directory. Basically, the initial file is read first, and the directory information is read from the initialization file (S21).

이때, 디렉터리를 파일로 읽을 것인가 또는 손으로 입력할 것인가를 판단하여 파일인 경우에는 파일로 디렉터리 정보를 읽고(S22,S23), 아니면 손으로 디렉터리를 입력한다(S24).At this time, it is determined whether the directory is read as a file or input by hand, and in the case of a file, directory information is read as a file (S22, S23), or the directory is input by hand (S24).

다음에 디렉터리 정보가 정확한가를 판단하여 디렉터리 정보가 정확하면 디렉터리 정보가 정확한 것을 모니터를 통하여 보여주고(S25,S26), 디렉터리 정보가 정확하지 않으면 상기 손으로 디렉터리를 입력시키는 S24단계로 돌아간다.Next, it is determined whether the directory information is correct, and if the directory information is correct, the monitor shows that the directory information is correct (S25, S26).

여기서, SPL 디렉터리는 SPL 파일이 존재하는 디렉토리이며, 웨이브 디렉터리는 웨이브 파일이 존재하는 디렉터리의 바로 한단계 상위 디렉터리이다.Here, the SPL directory is a directory in which the SPL file exists, and the wave directory is a directory one level up from the directory in which the wave file exists.

다시 말해서, 웨이브 디렉터리와 SPL 디렉터리는 데이터 베이스상에서 같은 레벨에 존재하여야 하며, SPL과 웨이브는 항상 1 대 1로 메치(MATCH)되어야 한다.In other words, the wave directory and the SPL directory must be at the same level in the database, and the SPL and wave must always be matched one-to-one.

이 두 디렉토리 정보는 정확성을 요구하며, 만일 혼동될 경우 프로그램이 오동작을 할 우려가 매우 높으므로 사용자는 이 정보를 입력할 때 신중을 기해야 하는데 이는 프로그램은 단지 디렉토리가 존재하는지의 여부만 살피기 때문이다.The information in these two directories requires accuracy, and if confused, the program is very likely to malfunction, so the user must be careful when entering this information, because the program only checks to see if the directory exists. .

다음에 SPL 파일 체크 과정(S30)을 도 5를 참고로 하여 설명한다.Next, the SPL file check process S30 will be described with reference to FIG. 5.

이 과정은 SPL을 리스트하여 사용자에게 확인시키는 과정으로, 사용자는 화살표 키를 이용하여 SPL 리스트를 살펴보고 프로그램에 정확히 입력되었는지를 확인할 수 있다.This process is to process SPL list and confirm it to the user. The user can check the SPL list by using the arrow keys and confirm that the SPL is entered correctly.

즉, SPL파일에 정보를 보여주고(S31), SPL파일이 정확한가를 판단하여 정확하지 않으면 그대로 종료하고 정확하면 리턴한다(S32).That is, the information is shown in the SPL file (S31), and it is determined whether the SPL file is correct.

다음에 리스트 파일 작성 과정(S40)에 대하여 도 6을 참고로 하여 설명한다.Next, the list file creation process S40 will be described with reference to FIG.

이 과정은 최종적으로 사용자가 입력한 조건과 디렉토리 구조에 따라 조건에 맞는 웨이브 파일 리스트를 만들고, 그 결과를 사용자에게 간략하게 보고하는 과정으로, 화면에는 리스트 파일 이름과 단어에 따른 웨이브 파일의 개수만 표시된다.This process finally creates a list of wave files that meet the conditions according to the conditions and directory structure entered by the user, and briefly reports the result to the user. The screen shows only the number of wave files according to the list file name and words. Is displayed.

즉, SPL 파일 개수(i)를 i=0로 설정하고(S41), 정보를 읽어 각 웨이브들의 음성화일의 조건을 체크한 후(S42,S43) 리스트를 작성한 상태에서 모든 SPL파일들의 리스트를 만든다(S44,S45)That is, the number of SPL files (i) is set to i = 0 (S41), the information is read, the condition of the voice file of each wave is checked (S42, S43), and the list is made with all the SPL files created. (S44, S45)

그리고 SPL파일이 SPL 파일 개수(i)보다 작은가를 판단하여 i보다 작은 경우 디렉터리를 정보를 모니터를 통하여 보여주고 SPL파일 개수(i)보다 큰 경우 상기 S41단계부터 다시 수행한다.If it is smaller than i by determining whether the SPL file is smaller than the number of SPL files (i), the information is displayed on the directory through the monitor.

이상에서 설명한 바와같은 본 발명은 차량용 음성 데이터베이스를 분류할 때 차량의 환경에 맞게 녹음된 방대한 양의 데이터베이스를 사람의 손을 거치지 않고 소프트웨어적으로 간단히 분류할 수 있어 지역별,속도별,연령별,조건별로 구축되어 있는 음성 데이터를 빠른 시간내에 효과적으로 분류할 수 있어 불필요한 시간의 낭비와 인력소모를 방지할 수 있으며, 분류조건을 다양하게 하여 한 개의 메인 데이터베이스에 대해서 여러 가지 많은 서브 데이터베이스를 구축할 수 있는 효과가 있다.As described above, the present invention can easily classify a large amount of database recorded according to the environment of a vehicle by software without human hands when classifying a vehicle voice database, and by region, speed, age, and condition. It can effectively classify the constructed voice data in a short time to prevent unnecessary waste of time and manpower, and it is possible to build many sub databases for one main database by varying the classification conditions. There is.

Claims (5)

음성 파일의 음질에 따른 조건, 각 음성을 발성한 화자의 성별을 판단하는 조건, 각 음성을 발성한 화자의 연령을 의미하는 조건, 녹음 장소에 따른 조건, 운전상태에 따른 조건, 음성파형의 진폭에 따른 조건, 방언지역에 따른 조건을 결정하는 웨이브 조건 결정 과정;Condition of sound quality of voice file, condition of judging gender of speaker who spoke each voice, condition of age of speaker who spoke each voice, condition of recording place, condition of driving condition, amplitude of voice waveform A wave condition determination process for determining a condition according to a condition and a dialect region according to the present invention; SPL디렉터리와 웨이브 디렉터리에 대한 정보를 입력하는 디렉터리 초기화 과정;A directory initialization process for inputting information about an SPL directory and a wave directory; SPL을 리스트하여 사용자에게 확인시키는 SPL 파일 체크 과정;Checking the SPL file by listing the SPL to the user; 사용자가 입력한 조건과 디렉터리 구조에 따라 조건에 맞는 웨이브 파일 리스트를 만드는 리스트 파일 작성 과정;A process of creating a list file which makes a list of wave files matching the conditions according to the conditions and directory structure entered by the user; 을 순차적으로 수행하는 것을 특징으로 하는 차량용 음성인식기의 웨이브파일 자동 분류 방법.Wave file automatic classification method of the vehicle voice recognizer, characterized in that to perform sequentially. 제 1항에 있어서, 상기 웨이브 조건 결정 과정이,The method of claim 1, wherein the wave condition determination process, 조건값을 초기화하는 단계,Initializing the condition value, 조건값을 정정한 후 정정된 값을 모니터를 통하여 보는 단계와,Correcting the condition value and viewing the corrected value through a monitor; 수정사항이 없는가를 판단하여 수정사항이 없으면 리턴하고 수정사항이 있으면 다시 정정을 수행하는 단계로 이루어짐을 특징으로 하는 차량용 음성인식기의 웨이브파일 자동 분류 방법.Determining whether there is a correction, and if there is no correction, returning the correction and performing correction again. 제 1항에 있어서, 상기 디렉터리 초기화 과정이,The method of claim 1, wherein the directory initialization process, 초기화 파일에서 디렉터리 정보를 읽는 단계와,Reading directory information from the initialization file, 디렉터리를 파일로 읽을 것인가 손으로 입력할 것인가를 판단하여 파일인 경우에는 파일로 디렉터리 정보를 읽고, 아니면 손으로 디렉터리를 입력하는 단계와,Determining whether to read the directory as a file or input by hand, in the case of a file, read the directory information as a file, or enter the directory by hand, 디렉터리 정보가 정확한가를 판단하여 디렉터리 정보가 정확할 경우 이를 모니터를 통하여 보여주는 단계로 이루어짐을 특징으로 하는 차량용 음성인식기의 웨이브파일 자동 분류 방법.Determining whether the directory information is correct, and if the directory information is correct, the step of showing through the monitor characterized in that the wave file automatic classification method of the vehicle voice recognizer. 제 1항에 있어서, SPL파일 체크 과정이,According to claim 1, SPL file check process, SPL파일에 정보를 보여주는 단계와,Displaying the information in the SPL file, SPL파일이 정확한가를 판단하여 정확하지 않으면 그대로 종료하고 정확하면 리턴하는 단계로 이루어짐을 특징으로 하는 차량용 음성인식기의 웨이브파일 자동 분류방법.Determining whether the SPL file is correct, if it is not correct, it is terminated as it is, and if it is correct, the wave file automatic classification method of the vehicle voice recognizer, characterized in that the step. 제 1항에 있어서, 리스트 파일 작성 과정이,The method of claim 1, wherein the list file creation process SPL 파일 개수(i)를 0으로 설정하는 단계와,Setting the number of SPL files (i) to 0, 정보를 읽어 각 웨이브들의 음성화일의 조건을 체크하는 단계와,Reading the information and checking the condition of the voice file of each wave; 리스트를 작성하고 모든 SPL파일들의 리스트를 계속하여 만드는 단계와,Create a list and keep a list of all the SPL files, 상기 SPL파일이 SPL 파일 개수(i)보다 작은가를 판단하여 i보다 작은 경우 디렉터리 정보를 모니터를 통하여 보여주는 단계로 이루어짐을 특징으로 하는 차량용 음성인식기의 웨이브파일 자동 분류방법.Determining whether the SPL file is smaller than the number of SPL files (i), and when the size of the SPL file is smaller than i, displaying directory information through a monitor.
KR1019980029588A 1998-07-23 1998-07-23 Wave file automatic classification method of car voice recognizer KR100282048B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019980029588A KR100282048B1 (en) 1998-07-23 1998-07-23 Wave file automatic classification method of car voice recognizer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019980029588A KR100282048B1 (en) 1998-07-23 1998-07-23 Wave file automatic classification method of car voice recognizer

Publications (2)

Publication Number Publication Date
KR20000009294A KR20000009294A (en) 2000-02-15
KR100282048B1 true KR100282048B1 (en) 2001-02-15

Family

ID=19544940

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019980029588A KR100282048B1 (en) 1998-07-23 1998-07-23 Wave file automatic classification method of car voice recognizer

Country Status (1)

Country Link
KR (1) KR100282048B1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000249058A (en) * 1999-02-26 2000-09-12 Ebara Corp Trap device
KR101006257B1 (en) * 2008-06-13 2011-01-06 주식회사 케이티 Apparatus and method for recognizing speech according to speaking environment and speaker

Also Published As

Publication number Publication date
KR20000009294A (en) 2000-02-15

Similar Documents

Publication Publication Date Title
JP5330450B2 (en) Topic-specific models for text formatting and speech recognition
CN101149928B (en) Sound signal processing method, sound signal processing apparatus and computer program
US6839667B2 (en) Method of speech recognition by presenting N-best word candidates
US7089184B2 (en) Speech recognition for recognizing speaker-independent, continuous speech
US9177545B2 (en) Recognition dictionary creating device, voice recognition device, and voice synthesizer
US20080103774A1 (en) Heuristic for Voice Result Determination
US20030125945A1 (en) Automatically improving a voice recognition system
US6836758B2 (en) System and method for hybrid voice recognition
EP1702319B1 (en) Error detection for speech to text transcription systems
US20020091517A1 (en) Method and apparatus for the automatic separating and indexing of multi-speaker conversations
US20080154591A1 (en) Audio Recognition System For Generating Response Audio by Using Audio Data Extracted
JPS62239231A (en) Speech recognition method by inputting lip picture
RU2223554C2 (en) Speech recognition device
JP4246703B2 (en) Automatic speech recognition method
JP2002132287A (en) Speech recording method and speech recorder as well as memory medium
JPH0876785A (en) Voice recognition device
US7844459B2 (en) Method for creating a speech database for a target vocabulary in order to train a speech recognition system
US6721702B2 (en) Speech recognition method and device
US20010056345A1 (en) Method and system for speech recognition of the alphabet
KR100282048B1 (en) Wave file automatic classification method of car voice recognizer
US6308152B1 (en) Method and apparatus of speech recognition and speech control system using the speech recognition method
AU2021104203A4 (en) Intelligent system &amp; method for recognizing fake speech using artificial intelligence &amp; blockchain technology
JP2006208905A (en) Voice dialog device and voice dialog method
US6212499B1 (en) Audible language recognition by successive vocabulary reduction
CN112562668A (en) Semantic information deviation rectifying method and device

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
N231 Notification of change of applicant
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121031

Year of fee payment: 13

FPAY Annual fee payment

Payment date: 20131029

Year of fee payment: 14

FPAY Annual fee payment

Payment date: 20141020

Year of fee payment: 15

FPAY Annual fee payment

Payment date: 20151029

Year of fee payment: 16

FPAY Annual fee payment

Payment date: 20161024

Year of fee payment: 17

LAPS Lapse due to unpaid annual fee