KR101808689B1 - 음성인식 학습 시스템 - Google Patents

음성인식 학습 시스템 Download PDF

Info

Publication number
KR101808689B1
KR101808689B1 KR1020160057905A KR20160057905A KR101808689B1 KR 101808689 B1 KR101808689 B1 KR 101808689B1 KR 1020160057905 A KR1020160057905 A KR 1020160057905A KR 20160057905 A KR20160057905 A KR 20160057905A KR 101808689 B1 KR101808689 B1 KR 101808689B1
Authority
KR
South Korea
Prior art keywords
data
unit
transfer
reliability
voice
Prior art date
Application number
KR1020160057905A
Other languages
English (en)
Other versions
KR20170127618A (ko
Inventor
유병재
이지중
Original Assignee
주식회사 솔루게이트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 솔루게이트 filed Critical 주식회사 솔루게이트
Priority to KR1020160057905A priority Critical patent/KR101808689B1/ko
Publication of KR20170127618A publication Critical patent/KR20170127618A/ko
Application granted granted Critical
Publication of KR101808689B1 publication Critical patent/KR101808689B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/04Electrically-operated educational appliances with audible presentation of the material to be studied
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Educational Administration (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Educational Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 음성인식 학습 시스템에 관한 것으로써, 외부로부터 음성을 입력받아 음성데이터를 생성하는 입력부; 사전데이터베이스를 기초로 상기 음성데이터를 텍스트데이터로 변환하는 변환부; 상기 텍스트데이터의 오기를 수정하여 전사데이터를 생성하는 전사부; 상기 음성데이터 및 상기 음성데이터에 대응되는 상기 전사데이터를 취합하여 학습데이터를 생성하는 취합부; 상기 학습데이터에 기초하여 상기 음성데이터에 상기 전사데이터를 매칭함으로써 음향정보를 생성하고, 상기 학습데이터에 기초하여 상기 음성데이터에 상기 전사데이터를 매칭함으로써 언어정보를 생성하며, 상기 음향정보와 상기 언어정보를 기초로 사전이미지파일을 생성하는 생성부; 및 상기 사전이미지파일을 상기 사전데이터베이스에 적용하는 적용부를 포함하되, 상기 변환부는, 상기 음성데이터가 입력되는 시간에 대한 정보를 기초로, 상기 텍스트데이터를 생성함으로써, 상기 텍스트데이터가 상기 시간에 따라 인덱싱되게 하며, 상기 전사부는, 상기 인덱싱을 기초로 상기 텍스트데이터가 상기 시간에 따라 상기 음성데이터에 대응되도록 생성되었는지를 판단하여, 대응되지 않았다고 판단하는 경우, 상기 텍스트데이터가 상기 시간에 따라 상기 음성데이터에 매칭되도록 상기 텍스트데이터의 위치를 수정한 후 사용자에게 제공하며, 수정된 상기 텍스트데이터와 상기 음성데이터의 비교에 기초하여 상기 사용자가 상기 텍스트데이터의 오기를 수정함으로써 생성되는 상기 전사데이터를 입력받는 것을 특징으로 한다.
본 발명에 따르면, 전사데이터를 생성하는데 투입되는 인력을 최소화할 수 있어, 음성인식의 학습 효율이 크게 향상될 수 있다.

Description

음성인식 학습 시스템{LEARNING SYSTEM OF SPEECH RECOGNITION RELIABILITY}
본 발명은 음성인식 학습 시스템에 관한 것으로써, 사전데이터베이스를 기초로 음성데이터를 텍스트데이터로 변환한 다음, 텍스트데이터에 발생된 오기를 수정하는 것으로 전사데이터를 용이하게 생성함으로써 음성인식 학습에 투입되는 인력의 최소화할 수 있는 음성인식 학습 시스템에 관한 것이다.
음성인식기술(STT : Speech To Text)이란, 음성 정보를 분석하여 문자, 명령어 및 다양한 형태의 정보로 변환해 주는 기술이다.
근래에 음성의 인식률 및 인식속도 등 여러 성능을 개선하기 위한 연구들이 진행 되었으며, 이에 따라, 음성인식기술은 상용화 가능한 단계에까지 이르게 되어 스마트폰과 TV, 가전, 네비게이션, 지능형 로봇, 외국어 학습 시스템, 통역 시스템 등 여러 분야에 적용되고 있다.
이러한 음성인식기술은 시스템에 존재하는 음성인식엔진에 의해서 구현되는데, 음성인식엔진의 인식률을 향상시키기 위해서는 음성인식엔진을 계속해서 학습시키는 것이 필요하다.
종래에는, 이러한 음성인식엔진의 학습을 위해서, 입력되는 음성데이터 중 학습에 필요한 음성데이터를 추출하는 작업을 인력을 동원하여 수행한 후, 또다시 인력을 이용하여 수작업으로 추출된 음성데이터를 전사데이터(입력할 텍스트데이터)로 변환시킨 후에, 이를 음성인식엔진에 각각 전사시킴으로써 학습을 수행하였다.
이러한 종래의 방식에 의하면, 입력될 음성데이터의 양이 큰 경우, 노동력 및 비용의 크게 투입되는 문제가 있다.
본 발명의 목적은 상술한 종래의 문제점을 해결하기 위한 것으로 사전데이터베이스를 기초로 음성데이터를 텍스트데이터로 변환한 다음, 텍스트데이터에 발생된 오기를 수정하는 것으로 전사데이터를 용이하게 생성함으로써 음성인식 학습에 투입되는 인력의 최소화할 수 있는 음성인식 학습 시스템을 제공함에 있다.
상기 목적은, 본 발명에 따라, 외부로부터 음성을 입력받아 음성데이터를 생성하는 입력부; 사전데이터베이스를 기초로 상기 음성데이터를 텍스트데이터로 변환하는 변환부; 상기 텍스트데이터의 오기를 수정하여 전사데이터를 생성하는 전사부; 상기 음성데이터 및 상기 음성데이터에 대응되는 상기 전사데이터를 취합하여 학습데이터를 생성하는 취합부; 상기 학습데이터에 기초하여 상기 음성데이터에 상기 전사데이터를 매칭함으로써 음향정보를 생성하고, 상기 학습데이터에 기초하여 상기 음성데이터에 상기 전사데이터를 매칭함으로써 언어정보를 생성하며, 상기 음향정보와 상기 언어정보를 기초로 사전이미지파일을 생성하는 생성부; 및 상기 사전이미지파일을 상기 사전데이터베이스에 적용하는 적용부를 포함하되, 상기 변환부는, 상기 음성데이터가 입력되는 시간에 대한 정보를 기초로, 상기 텍스트데이터를 생성함으로써, 상기 텍스트데이터가 상기 시간에 따라 인덱싱되게 하며, 상기 전사부는, 상기 인덱싱을 기초로 상기 텍스트데이터가 상기 시간에 따라 상기 음성데이터에 대응되도록 생성되었는지를 판단하여, 대응되지 않았다고 판단하는 경우, 상기 텍스트데이터가 상기 시간에 따라 상기 음성데이터에 매칭되도록 상기 텍스트데이터의 위치를 수정한 후 사용자에게 제공하며, 수정된 상기 텍스트데이터와 상기 음성데이터의 비교에 기초하여 상기 사용자가 상기 텍스트데이터의 오기를 수정함으로써 생성되는 상기 전사데이터를 입력받는 것을 특징으로 하는 음성인식 학습 시스템에 의해서 달성된다.
또한, 본 발명은, 상기 생성부에서의 상기 음향정보의 생성 여부, 상기 언어정보의 생성 여부, 상기 사전이미지파일의 생성 여부 중 어느 하나 이상을 결정하는 설정부를 더 포함하는 할 수 있다.
또한, 본 발명은, 상기 사전데이터베이스를 기초로 상기 전사데이터에 대한 신뢰도 점수를 연산하는 연산부; 상기 전사데이터에 대한 신뢰도 점수를 기초로 상기 전사데이터를 신뢰할 수 있는지 또는 신뢰할 수 없는지를 판단하는 판단부; 및 상기 판단부에 의해서 상기 전사데이터가 신뢰할 수 있다고 판단되는 경우, 상기 전사데이터를 상기 취합부로 전달하는 전달부를 더 포함할 수 있다.
본 발명에 따르면, 전사데이터를 생성하는데 투입되는 인력을 최소화할 수 있어, 음성인식의 학습 효율이 크게 향상될 수 있다.
도 1은 본 발명의 일실시예에 따른 음성인식 학습 시스템의 전체 구성을 도시한 것이고,
도 2는 본 발명의 일실시예에 따른 음성인식 학습 시스템의 취합부에서 학습데이터 생성과정을 도시한 것이고,
도 3은 본 발명의 일실시예에 따른 음성인식 학습 시스템의 생성부에서 사전이미지파일의 생성과정을 도시한 것이고,
도 4는 본 발명의 일실시예에 따른 음성인식 학습 시스템의 적용부에서 사전이미지파일이 사전데이터베이스에 적용되는 과정을 도시한 것이고,
도 5는 본 발명의 일실시예에 따른 음성인식 학습 시스템의 연산부의 상세구성을 도시한 것이다.
이하, 첨부한 도면을 참조하여, 본 발명의 일실시예에 따른 음성인식 학습 시스템에 대해서 상세히 설명한다.
도 1은 본 발명의 일실시예에 따른 음성인식 학습 시스템의 전체 구성을 도시한 것이고, 도 2는 본 발명의 일실시예에 따른 음성인식 학습 시스템의 취합부에서 학습데이터 생성과정을 도시한 것이고, 도 3은 본 발명의 일실시예에 따른 음성인식 학습 시스템의 생성부에서 사전이미지파일의 생성과정을 도시한 것이고, 도 4는 본 발명의 일실시예에 따른 음성인식 학습 시스템의 적용부에서 사전이미지파일이 사전데이터베이스에 적용되는 과정을 도시한 것이다.
도 1 내지 도 4에 도시된 바와 같이, 본 발명의 일실시예에 따른 음성인식 학습 시스템(100)은 입력부(1010)와 변환부(1020)와 전사부(1030)와 연산부(1040)와 판단부(1050)와 전달부(1060)와 취합부(1070)와 설정부(1080)와 생성부(1090)와 적용부(1100)를 포함한다.
입력부(1010)는 외부로부터 음성을 입력받아 음성데이터를 생성하는 것으로써, 후술하는 변환부(1020)에 전기적으로 연결된다. 이러한 입력부(1010)는 마이크 등으로 마련될 수 있으나, 이에 반드시 제한되는 것은 아니며, 외부로부터 음성에 대한 정보를 입력받을 수 있는 것이라면, 어떠한 것으로 마련되더라도 무방하다. 이러한 입력부(1010)는 생성한 음성데이터를 후술하는 변환부(1020)로 전달한다.
변환부(1020)는 사전데이터베이스를 기초로 음성데이터를 텍스트데이터로 변환하는 것으로써, 상술한 입력부(1010)와 후술하는 연산부(1040)에 전기적으로 연결된다. 이러한 변환부(1020)는 본 발명의 일실시예에 따른 음성인식 학습 시스템(100)이 구현되는 하드웨어의 연산영역의 일부분으로 정의될 수 있다.
여기서, 사전데이터베이스란, 음성인식을 위해 사용되는 다수 어휘의 집합 정보로써, 본 발명의 일실시예에 따른 음성인식 신뢰도 판단 시스템이 구현되는 하드웨어의 저장영역의 일부분에 미리 저장된다.
변환부(1020)는 음성데이터의 음성의 특징을 기초로 텍스트데이터를 생성하는데, 이때, 생성되는 텍스트데이터는 음성데이터가 입력되는 시간에 대한 정보와 함께 본 발명의 일실시예에 따른 음성인식 신뢰도 판단 시스템이 구현되는 하드웨어의 저장영역에 저장된다. 이러한 변환부(1020)에 의해서, 입력되는 음성데이터에 대응되는 텍스트데이터가 인덱싱될 수 있다.
한편, 변환부(1020)는 음성데이터를 텍스트데이터로 변환하기 전에, 음성데이터를 분석하여 사람의 음성주파수 외의 주파수를 제거하는 등의 내부의 처리 단계를 실시함으로써, 텍스트데이터의 오기 발생율을 최소화 할 수 있다.
전사부(1030)는 텍스트데이터의 오기를 수정하여 전사데이터를 생성하는 것으로써, 상술한 변환부(1020)와 후술하는 연산부(1040)에 전기적으로 연결된다. 이러한 전사부(1030)는 상술한 변환부(1020)와 마찬가지로 본 발명의 일실시예에 따른 음성인식 신뢰도 판단 시스템(100)이 구현되는 하드웨어의 연산영역의 일부분으로 정의될 수 있다.
이러한 전사부(1030)는 음성데이터의 시간 정보에 대응되는 위치에 텍스트데이터가 대응되도록 생성되었는지를 판단하며, 대응되지 않았다고 판단하는 경우, 텍스트데이터가 음성데이터의 시간 정보에 대응되도록 텍스트데이터를 수정한다.
한편, 음성데이터를 청취한 사용자는 텍스트데이터가 청취한 음성데이터의 내용과 일치되도록 텍스트데이터의 오기를 수정하여 전사부(1030)에 입력할 수 있다.
이러한 변환부(1020) 및 전사부(1030)에 의하면, 사전데이터베이스를 이용하여 우선적으로 텍스트데이터가 생성되며, 생성된 텍스트데이터가 음성데이터의 시간 정보에 대응되는 위치에 대응되도록 생성되었는지가 판단되어 텍스트데이터가 1차적으로 수정되며, 이후, 음성데이터를 청취한 사용자에 의해서 텍스트데이터의 오기가 수정되는 과정에 의해서 전사데이터가 생성되므로, 전사데이터를 생성함에 있어서 투입되는 인력이 최소화될 뿐만 아니라, 전사데이터의 생성 효율 및 정확성이 높아지는 효과가 있다.
연산부(1040)는 사전데이터베이스를 기초로 전사데이터에 대한 신뢰도 점수를 연산하는 것으로써, 상술한 변환부(1020)와 후술하는 판단부(1050)에 전기적으로 연결된다. 이러한 연산부(1040)는 상술한 변환부(1020) 등과 마찬가지로 본 발명의 일실시예에 따른 음성인식 신뢰도 판단 시스템(100)이 구현되는 하드웨어의 연산영역의 일부분으로 정의될 수 있다. 연산부(1040)에 대한 상세한 설명은 후술하기로 한다.
판단부(1050)는 전사데이터에 대한 신뢰도 점수를 기초로 전사데이터를 신뢰할 수 있는지 또는 신뢰할 수 없는지를 판단하는 것으로써, 상술한 연산부(1040)와 후술하는 전달부(1060)에 전기적으로 연결된다. 이러한 판단부(1050)는 상술한 변환부(1020) 등과 마찬가지로 본 발명의 일실시예에 따른 음성인식 신뢰도 판단 시스템(100)이 구현되는 하드웨어의 연산영역의 일부분으로 정의될 수 있다. 판단부(1050)에 대한 상세한 설명은 후술하기로 한다.
전달부(1060)는 판단부(1050)에 의해서 전사데이터가 신뢰할 수 있다고 판단되는 경우, 전사데이터를 취합부(1070)로 전달하는 것으로써, 상술한 판단부(1050)와 후술하는 전사부(1030)에 전기적으로 연결된다. 이러한 연산부(1060)는 상술한 변환부(1020) 등과 마찬가지로 본 발명의 일실시예에 따른 음성인식 신뢰도 판단 시스템(100)이 구현되는 하드웨어의 연산영역의 일부분으로 정의될 수 있다.
취합부(1070)는 음성데이터 및 음성데이터에 대응되는 전사데이터를 취합하여 학습데이터를 생성하는 것으로써, 상술한 전달부(1060)와 후술하는 설정부(1080) 및 생성부(1090)에 전기적으로 연결된다. 이러한 취합부(1070)는 상술한 변환부(1020) 등과 마찬가지로 본 발명의 일실시예에 따른 음성인식 신뢰도 판단 시스템(100)이 구현되는 하드웨어의 연산영역의 일부분으로 정의될 수 있다.
이러한 취합부(1070)는 음성데이터 및 음성데이터에 대응되는 전사데이터를 취합하여 학습데이터를 생성한다. 즉, 학습데이터는 음성데이터 및 이에 대응되는 전사데이터가 함께 묶인 형태의 복수 데이터 및 이의 리스트를 의미한다. 이러한 학습데이터는 음성이 입력된 시간의 순서에 따라 인덱싱 될 수 있다.
설정부(1080)는 생성부(1090)에서의 음향정보의 생성 여부, 언어정보의 생성 여부, 사전이미지파일의 생성 여부 중 어느 하나 이상을 결정하는 것으로써, 상술한 취합부(1070)와 후술하는 생성부(1090)에 전기적으로 연결된다. 이러한 설정부(1080)는 상술한 변환부(1020) 등과 마찬가지로 본 발명의 일실시예에 따른 음성인식 신뢰도 판단 시스템(100)이 구현되는 하드웨어의 연산영역의 일부분으로 정의될 수 있다.
이러한 설정부(1080)에 의해서, 음향정보를 학습할 것인지, 언어정보를 학습할 것인지, 또한, 이러한 학습을 기초로 사전데이터에 추가될 데이터의 집합인 사전이미지를 생성할 것인지, 생성하는 경우, 사전이미지의 경로 및 파일명 등이 설정된다. 이러한 설정부(1080)의 설정사항은 후술하는 생성부(1090) 및 적용부(1100)에 전달되어 생성부(1090) 및 적용부(1100)의 동작을 제어한다.
생성부(1090)는 학습데이터에 기초하여 음성데이터에 전사데이터를 매칭함으로써 음향정보를 생성하고, 학습데이터에 기초하여 음성데이터에 전사데이터를 매칭함으로써 언어정보를 생성하며, 음향정보와 언어정보를 기초로 사전이미지파일을 생성하는 것으로써, 상술한 취합부(1070) 및 설정부(1080)와 후술하는 적용부(1100)에 전기적으로 연결된다. 이러한 생성부(1090)는 상술한 변환부(1020) 등과 마찬가지로 본 발명의 일실시예에 따른 음성인식 신뢰도 판단 시스템(100)이 구현되는 하드웨어의 연산영역의 일부분으로 정의될 수 있다.
이러한 생성부(1090)는 설정부(1080)의 설정사항에 따라 제어되어 음향정보 및 언어정보를 학습하며, 그 결과 사전이미지파일이 생성된다. 사전이미지파일은 후술하는 적용부(1100)로 전달된 후, 사전데이터베이스에 적용되며, 이에 따라 사전데이터베이스의 음성인식 기능이 향상된다.
적용부(1100)는 사전이미지파일을 사전데이터베이스에 적용하는 것으로써, 상술한 생성부(1090)에 전기적으로 연결된다. 이러한 적용부(1100)는 상술한 변환부(1020) 등과 마찬가지로 본 발명의 일실시예에 따른 음성인식 신뢰도 판단 시스템(100)이 구현되는 하드웨어의 연산영역의 일부분으로 정의될 수 있다.
적용부(1100)는 설정부(1080)의 설정사항에 따라 제어되어 설정된 시각에 기존의 사전데이터베이스의 동작을 중단시키고, 이후, 새롭게 생성된 사전데이터베이스를 변환부(1020) 및 연산부(1040)에 적용시킴으로써, 음성인식의 과정을 재시작한다.
따라서, 입력부(1010)와 변환부(1020)와 연산부(1040)와 판단부(1050)와 전달부(1060)와 전사부(1030)와 취합부(1070)와 설정부(1080)와 생성부(1090)와 적용부(1100)를 포함하는 본 발명의 일실시예에 따른 음성인식 학습 시스템(100)에 의하면, 전사데이터를 생성하는데 투입되는 인력을 최소화할 수 있어, 음성인식의 학습 효율이 크게 향상될 수 있다.
또한, 이러한 본 발명의 일실시예에 따른 음성인식 학습 시스템(100)이 특정한 목적(예를 들면 쇼핑 등)을 가진 웹사이트에 적용되는 경우, 해당 사이트에 자주 언급되는 음성에 포함되는 단어 대한 특징 및 대화 패턴 등이 반복적이고 지속적으로 입력되므로, 음성인식에 대한 학습이 보다 신속하고 효율적으로 실시될 수 있다. 이에 따라서, 음성인식의 신뢰도 및 학습의 효율성이 크게 향상되는 효과가 있다.
지금부터는 첨부한 도면을 참조하여 본 발명의 일실시예에 따른 음성 인식 학습 시스템의 연산부와 판단부에 대해서 상세히 설명한다.
도 5는 본 발명의 일실시예에 따른 음성인식 학습 시스템의 연산부의 상세구성을 도시한 것이다.
도 5에 도시된 바와 같이, 본 발명의 일실시예에 따른 음성인식 학습 시스템(100)의 연산부(1040)는 기능에 따라 상세하게는, 제1분해부(1041)와 제2분해부(1042)와 어휘유사도연산부(1043)와 문장신뢰도연산부(1044)와 종합신뢰도연산부(1045)와 문장누적신뢰도연산부(1046)와 종합누적신뢰도연산부(1047)를 포함할 수 있다.
제1분해부(1041)는 전사데이터를 문장 단위로 분해하여 문장데이터를 생성하는 것으로써, 상술한 변환부(1020) 및 후술하는 제2분해부(1042)에 전기적으로 연결된다. 이러한 제1분해부(1041)에 의해서 생성된 문장데이터는 후술하는 제2분해부(1042)로 전달된다. 문장데이터는 예를 들면, 하기와 같은 데이터를 의미한다.
예 1 : 반갑습니다솔로게이트음성인식엔진숨입니다
예 2 : 전솔게이트음성인식엔진솔로를이용해주셔서감사합니다
제2분해부(1042)는 문장데이터를 어휘별로 분해하여 어휘데이터를 생성하는 것으로써, 상술한 제1분해부(1041) 및 후술하는 어휘유사도연산부(1043)에 전기적으로 연결된다. 이러한 제2분해부(1042)에 의해서 생성된 어휘데이터는 후술하는 어휘유사도연산부(1043)로 전달된다. 이러한 제2분해부(1042)에 의해서 생성되는 어휘데이터는 예를 들면, 하기와 같은 데이터를 의미한다.
예 1 : 반갑/습니다/솔로/게이트/음성/인식/엔진/숨/입니다
예 2 : 전/솔/게이트/음성/인식/엔진/솔로/를/이용/해/주셔서/감사/합/니다
어휘유사도연산부(1043)는 어휘데이터와 사전데이터베이스에 포함되는 정보를 기초로 유사여부를 연산하여 어휘데이터에 유사도 점수를 생성하는 것으로써, 상술한 제2분해부(1042) 및 후술하는 문장신뢰도연산부(1044)에 전기적으로 연결된다. 이러한 어휘유사도연산부(1043)는 생성한 어휘데이터에 대한 유사도 점수를 후술하는 문장신뢰도연산부(1044)로 전달한다.
이러한 어휘유사도연산부(1043)에 의해서, 예를 들면, 하기의 [표 1] 및 [표 2]와 같이 어휘데이터에 포함되는 각각의 어휘에 대한 유사도 점수가 생성된다.
어휘
(예1)
반갑 습니다 솔로 게이트 음성 인식 엔진 니다
유사도 0.86 0.92 0.53 0.93 0.87 0.85 0.76 0.23 0.71 0.94
어휘
(예2)
게이트 음성 인식 엔진 솔로 이용 주서 감사 니다
유사도 0.37 0.43 0.92 0.81 0.80 0.73 0.69 0.75 0.91 0.93 0.79 0.76 0.82 0.94
문장신뢰도연산부(1044)는 상술한 어휘유사도연산부(1043)에 의해서 생성되는 어휘데이터에 대한 유사도 점수를 기초로 문장데이터에 대한 신뢰도 점수를 연산하는 것으로써, 상술한 어휘유사도연산부(1043)에 전기적으로 연결된다.
이러한 문장신뢰도연산부(1044)는 하기와 같은 식을 기초로 문장데이터에 대한 신뢰도 점수를 연산한다.
Figure 112016045188625-pat00001
여기서, STR = 문장데이터에 대한 신뢰도 점수, n = 문장데이터에 포함되는 어휘데이터의 개수, w = 어휘데이터에 포함되는 글자의 개수, wr = 어휘데이터에 대한 유사도 점수, wc = 문장데이터에 포함되는 어휘데이터의 개수이다.
즉, 문장데이터에 대한 신뢰도 점수는 각 어휘의 글자수와 각 어휘의 유사도 점수를 곱한 값의 제곱값들을 모두 합산한 다음, 이 값을 문장에 포함되는 어휘의 개수로 나눈 값에 대한 제곱근이다.
이러한 문장신뢰도연산부(1044)에 의한, 예 1의 문장데이터에 대한 신뢰도 점수는 1.783342 이며, 예 2의 문장데이터에 대한 신뢰도 점수는 1.55916 이다.
종합신뢰도연산부(1045)는 문장데이터에 대한 신뢰도 점수가 복수개인 경우, 즉, 당해 입력되는 음성데이터로부터 변환되는 전사데이터에서 문장이 복수개인 경우, 복수개의 문장데이터에 대한 신뢰도 점수를 기초로 복수개의 문장데이터에 대한 종합신뢰도 점수를 연산하는 것으로써, 상술한 문장신뢰도연산부(1044)에 전기적으로 연결된다.
이러한 종합신뢰도연산부(1045)는 하기와 같은 식을 기초로 종합신뢰도 점수를 연산한다.
Figure 112016045188625-pat00002
여기서, RTR = 종합신뢰도 점수, STR = 문장데이터에 대한 신뢰도 점수, n = 문장데이터의 개수, m = 문장데이터에 포함되는 어휘데이터의 개수, wc = 문장데이터에 포함되는 어휘데이터의 개수이다.
즉, 종합신뢰도 점수는 각 문장데이터에 대한 신뢰도 점수와 각 문장의 어휘 개수를 곱한 값의 제곱값들을 모두 합산한 다음, 이 값을 각 문장의 어휘 개수의 합과 문장의 개수를 곱한 값으로 나눈 값에 대한 제곱근이다.
이러한 종합신뢰도연산부(1045)에 의한, 예 1 및 예 2에 따른 문장데이터에 대한 종합신뢰도 점수는 4.518349 이다.
문장누적신뢰도연산부(1046)는 기입력된 복수개의 전사데이터에 포함되는 복수개의 문장데이터에 대한 신뢰도 점수를 누적적으로 연산하여 문장누적신뢰도 점수를 생성하는 것으로써, 상술한 문장신뢰도연산부(1044) 및 후술하는 문장신뢰도판단부(1051)에 전기적으로 연결된다.
문장누적신뢰도연산부(1046)는 당해 음성데이터가 입력되기 이전에 이미 입력되어 있던 음성데이터에 기초한 전사데이터에 포함되는 문장데이터에 대한 신뢰도 점수를 누적적으로 연산하여 문장누적신뢰도 점수를 생성한다. 이러한 문장누적신뢰도연산부(1046)에 의해서 생성되는 문장누적신뢰도 점수는 후술하는 문장신뢰도판단부(1051)로 전달된다.
이러한 문장누적신뢰도연산부(1046)는 하기와 같은 식을 기초로 문장누적신뢰도 점수를 연산한다.
Figure 112016045188625-pat00003
여기서, SCTR = 문장누적신뢰도 점수, STR = 문장데이터에 대한 신뢰도 점수, n = 문장데이터에 대한 신뢰도 점수의 개수이다.
즉, 문장누적신뢰도 점수는 복수개의 문장데이터에 대한 신뢰도 점수 값을 모두 합산한 다음, 이 값을 누적되는 문장의 개수로 나눈 값이다.
종합누적신뢰도연산부(1047)는 기입력된 복수개의 전사데이터에 포함되는 복수개의 문장데이터에 대한 종합신뢰도 점수를 누적적으로 연산함으로써 종합누적신뢰도 점수를 생성하는 것으로써, 상술한 종합신뢰도연산부(1045) 및 후술하는 종합신뢰도판단부(1052)에 전기적으로 연결된다.
종합누적신뢰도연산부(1047)는 당해 음성데이터가 입력되기 이전에 이미 입력되어 있던 복수개의 음성데이터에 기초한 복수개의 전사데이터에 포함되는 복수개의 문장데이터에 대한 신뢰도 점수를 누적적으로 연산하여 종합누적신뢰도 점수를 생성한다. 이러한 종합누적신뢰도연산부(1047)에 의해서 생성되는 종합누적신뢰도 점수는 후술하는 종합신뢰도판단부(1052)로 전달된다.
이러한 종합누적신뢰도연산부(1047)는 하기와 같은 식을 기초로 종합누적신뢰도 점수를 연산한다.
Figure 112016045188625-pat00004
여기서, RCTR = 종합누적신뢰도 점수, RTR = 종합신뢰도 점수, n = 종합신뢰도 점수의 개수이다.
즉, 종합누적신뢰도 점수는 복수개의 종합신뢰도 점수 값을 모두 합산한 다음, 이 값을 누적되는 종합신뢰도 점수의 개수로 나눈 값이다.
따라서, 제1분해부(1041)와 제2분해부(1042)와 어휘유사도연산부(1043)와 문장신뢰도연산부(1044)와 종합신뢰도연산부(1045)와 문장누적신뢰도연산부(1046)와 종합누적신뢰도연산부(1047)를 포함하는 연산부(1040)에 의하면, 당해 입력되는 문장데이터에 대한 신뢰도 점수 및 기저장된 문장데이터에 대한 문장누적신뢰도 점수와 종합누적신뢰도 점수가 생성된다.
생성된 상기 세가지 점수는 후술하는 판단부(1050)로 전달된다. 판단부(1050)에서는 문장누적신뢰도 점수와 종합누적신뢰도 점수를 당해 입력되는 문장데이터에 대한 신뢰도 점수와 비교, 연산하여, 당해 입력되는 전사데이터에 대한 신뢰 여부를 판단한다.
판단부(1050)는 당해 입력되는 전사데이터에 대한 신뢰도를 기초로 당해 입력되는 전사데이터를 신뢰할 수 있는지 또는 신뢰할 수 없는지를 판단하는 것으로써, 상술한 연산부(1040)에 전기적으로 연결된다. 이러한 판단부(1050)는 기능에 따라 상세하게는, 문장신뢰도판단부(1051)와 종합신뢰도판단부(1052)를 포함할 수 있다.
문장신뢰도판단부(1051)는 문장누적신뢰도 점수를 기초로 기입력된 복수개의 문장데이터에 대한 복수개의 신뢰도 점수의 표준편차를 연산하는 것으로써, 연산된 표준편차를 기초로 전사데이터에 포함되는 개별 문장데이터에 대한 신뢰 여부를 판단한다.
기입력된 복수개의 문장데이터에 대한 복수개의 신뢰도 점수의 표준편차는 하기의 식에 의해서 연산된다.
Figure 112016045188625-pat00005
여기서, SSDR = 문장데이터에 대한 신뢰도 점수의 표준편차, SCTR = 문장누적신뢰도 점수, STR = 문장데이터에 대한 신뢰도 점수, n = 문장데이터의 개수이다.
한편, 상기 식으로 연산되는 표준편차를 이용하여, 문장데이터의 신뢰도를 판단하는 식은 다음과 같다.
문장데이터의 신뢰도 판단 = STR - (SCTR - SSDR) > 0 ? true : false;
상술한 식에서 알 수 있듯이, 당해 입력되는 전사데이터에 포함되는 문장데이터에 대한 신뢰도 점수가 하한 표준편차 보다 크면 이는 전사데이터에 포함되는 개별 문장의 신뢰도가 높음을 나타낸다.
즉, 문장신뢰도판단부(1051)는 당해 입력되는 전사데이터에 포함되는 문장데이터에 대한 신뢰도 점수에서 문장누적신뢰도 점수와 기입력된 복수개의 문장데이터에 대한 복수개의 신뢰도 점수의 표준편차의 차이 값을 비교하여, 전자의 값이 큰 경우, 전사데이터에 포함되는 개별 문장의 신뢰도가 높다고 판단하고, 후자의 값이 큰 경우, 전사데이터에 포함되는 개별 문장의 신뢰도가 낮다고 판단한다.
종합신뢰도판단부(1052)는 종합누적신뢰도 점수를 기초로 기입력된 복수개의 종합신뢰도 점수의 표준편차를 연산하는 것으로써, 연산된 표준편차를 기초로 전사데이터에 대한 신뢰 여부를 판단한다.
기입력된 복수개의 종합신뢰도 점수의 표준편차는 하기의 식에 의해서 연산된다.
Figure 112016045188625-pat00006
여기서, RSDR = 전사데이터에 대한 신뢰도 점수의 표준편차, RCTR = 종합누적신뢰도 점수, RTR = 종합신뢰도 점수, n = 종합신뢰도 점수의 개수이다.
한편, 상기 식으로 연산되는 표준편차를 이용하여, 전사데이터의 신뢰도를 판단하는 식은 다음과 같다.
전사데이터의 신뢰도 판단 = RTR - (RCTR - RSDR) > 0 ? true : false;
상술한 식에서 알 수 있듯이, 당해 입력되는 전사데이터에 포함되는 문장데이터에 대한 종합신뢰도 점수가 하한 표준편차 보다 크면 이는 전사데이터에 포함되는 전체 문장의 신뢰도가 높음을 나타낸다.
즉, 종합신뢰도판단부(1052)는 당해 입력되는 전사데이터에 포함되는 문장데이터에 대한 종합신뢰도 점수에서 종합누적신뢰도 점수와 기입력된 복수개의 종합신뢰도 점수의 표준편차의 차이 값을 비교하여, 전자의 값이 큰 경우, 전사데이터의 전체 문장의 신뢰도가 높다고 판단하고, 후자의 값이 큰 경우, 전사데이터의 전체 문장의 신뢰도가 낮다고 판단한다.
따라서, 연산부(1040)와 판단부(1050)에 따르면, 음성데이터로부터 생성되는 전사데이터에 대한 신뢰도가 연산될 수 있고, 이러한 신뢰도에 의해서, 전사데이터가 신뢰할 수 있는 데이터 인지, 신뢰할 수 없는 데이터인지 효과적으로 판단될 수 있다.
즉, 연산부(1040) 및 판단부(1050)에 의해서, 전사데이터가 신뢰할 수 있는 데이터라고 판단되는 경우에는 전사데이터를 취합부(1070)로 전달하며, 전사데이터가 신뢰할 수 없는 데이터라고 판단되는 경우에는 전사데이터가 삭제된다. 이러한 과정에 의해서, 신뢰성이 있는 전사데이터만이 학습데이터로 이용되므로 음성 인식의 효율성이 더욱 향상되는 효과가 있다.
본 발명의 권리범위는 상술한 실시예에 한정되는 것이 아니라 첨부된 특허청구범위 내에서 다양한 형태의 실시예로 구현될 수 있다. 특허청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 누구든지 변형 가능한 다양한 범위까지 본 발명의 청구범위 기재의 범위 내에 있는 것으로 본다.
1000 : 본 발명의 일실시예에 따른 음성인식 학습 시스템
1010 : 입력부
1020 : 변환부
1030 : 전사부
1040 : 연산부
1041 : 제1분해부
1042 : 제2분해부
1043 : 어휘유사도연산부
1044 : 문장신뢰도연산부
1045 : 종합신뢰도연산부
1046 : 문장누적신뢰도연산부
1047 : 종합누적신뢰도연산부
1050 : 판단부
1051 : 문장신뢰도판단부
1052 : 종합신뢰도판단부
1060 : 전달부
1070 : 취합부
1080 : 설정부
1090 : 생성부
1100 : 적용부

Claims (3)

  1. 외부로부터 음성을 입력받아 음성데이터를 생성하는 입력부;
    사전데이터베이스를 기초로 상기 음성데이터를 텍스트데이터로 변환하는 변환부;
    상기 텍스트데이터의 오기를 수정하여 전사데이터를 생성하는 전사부;
    상기 음성데이터 및 상기 음성데이터에 대응되는 상기 전사데이터를 취합하여 학습데이터를 생성하는 취합부;
    상기 학습데이터에 기초하여 상기 음성데이터에 상기 전사데이터를 매칭함으로써 음향정보를 생성하고, 상기 학습데이터에 기초하여 상기 음성데이터에 상기 전사데이터를 매칭함으로써 언어정보를 생성하며, 상기 음향정보와 상기 언어정보를 기초로 사전이미지파일을 생성하는 생성부; 및
    상기 사전이미지파일을 상기 사전데이터베이스에 적용하는 적용부를 포함하되,
    상기 변환부는,
    상기 음성데이터가 입력되는 시간에 대한 정보를 기초로, 상기 텍스트데이터를 생성함으로써, 상기 텍스트데이터가 상기 시간에 따라 인덱싱되게 하며,
    상기 전사부는,
    상기 인덱싱을 기초로 상기 텍스트데이터가 상기 시간에 따라 상기 음성데이터에 대응되도록 생성되었는지를 판단하여, 대응되지 않았다고 판단하는 경우, 상기 텍스트데이터가 상기 시간에 따라 상기 음성데이터에 매칭되도록 상기 텍스트데이터의 위치를 수정한 후 사용자에게 제공하며, 수정된 상기 텍스트데이터와 상기 음성데이터의 비교에 기초하여 상기 사용자가 상기 텍스트데이터의 오기를 수정함으로써 생성되는 상기 전사데이터를 입력받는 것을 특징으로 하는 음성인식 학습 시스템.
  2. 청구항 1에 있어서,
    상기 생성부에서의 상기 음향정보의 생성 여부, 상기 언어정보의 생성 여부, 상기 사전이미지파일의 생성 여부 중 어느 하나 이상을 결정하는 설정부를 더 포함하는 음성인식 학습 시스템.
  3. 청구항 2에 있어서,
    상기 사전데이터베이스를 기초로 상기 전사데이터에 대한 신뢰도 점수를 연산하는 연산부;
    상기 전사데이터에 대한 신뢰도 점수를 기초로 상기 전사데이터를 신뢰할 수 있는지 또는 신뢰할 수 없는지를 판단하는 판단부; 및
    상기 판단부에 의해서 상기 전사데이터가 신뢰할 수 있다고 판단되는 경우, 상기 전사데이터를 상기 취합부로 전달하는 전달부를 더 포함하는 음성인식 학습 시스템.
KR1020160057905A 2016-05-12 2016-05-12 음성인식 학습 시스템 KR101808689B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160057905A KR101808689B1 (ko) 2016-05-12 2016-05-12 음성인식 학습 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160057905A KR101808689B1 (ko) 2016-05-12 2016-05-12 음성인식 학습 시스템

Publications (2)

Publication Number Publication Date
KR20170127618A KR20170127618A (ko) 2017-11-22
KR101808689B1 true KR101808689B1 (ko) 2017-12-14

Family

ID=60809698

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160057905A KR101808689B1 (ko) 2016-05-12 2016-05-12 음성인식 학습 시스템

Country Status (1)

Country Link
KR (1) KR101808689B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102267276B1 (ko) 2020-03-06 2021-06-21 주식회사 예스피치 학습데이터 확장 및 후처리 정제 기능을 가지는 음성 텍스트 변환 시스템 및 방법
KR102429135B1 (ko) 2021-07-13 2022-08-05 (주)이앤아이월드 Diy 전자책 서비스 시스템 및 방법

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102171658B1 (ko) * 2018-06-28 2020-10-29 (주) 엠티콤 크라우드전사장치 및 그 동작 방법
KR102334310B1 (ko) * 2018-12-19 2021-12-03 주식회사 딕토 전사작업 매칭서버 및 그 동작방법
KR102434666B1 (ko) * 2020-11-19 2022-08-22 (주)소리를보는통로 사전 데이터베이스를 활용하여 음성 데이터에 기반한 텍스트를 생성하기 위한 방법 및 컴퓨팅 장치
CN115881108A (zh) * 2022-09-02 2023-03-31 北京中关村科金技术有限公司 语音识别方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101021216B1 (ko) * 2010-04-05 2011-03-11 주식회사 예스피치 음성인식 그래마 자동 튜닝 장치, 방법 및 이를 적용한 자동응답시스템
KR101424496B1 (ko) * 2013-07-03 2014-08-01 에스케이텔레콤 주식회사 음향 모델 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
KR101590724B1 (ko) * 2014-10-06 2016-02-02 포항공과대학교 산학협력단 음성 인식 오류 수정 방법 및 이를 수행하는 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101021216B1 (ko) * 2010-04-05 2011-03-11 주식회사 예스피치 음성인식 그래마 자동 튜닝 장치, 방법 및 이를 적용한 자동응답시스템
KR101424496B1 (ko) * 2013-07-03 2014-08-01 에스케이텔레콤 주식회사 음향 모델 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
KR101590724B1 (ko) * 2014-10-06 2016-02-02 포항공과대학교 산학협력단 음성 인식 오류 수정 방법 및 이를 수행하는 장치

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102267276B1 (ko) 2020-03-06 2021-06-21 주식회사 예스피치 학습데이터 확장 및 후처리 정제 기능을 가지는 음성 텍스트 변환 시스템 및 방법
KR102429135B1 (ko) 2021-07-13 2022-08-05 (주)이앤아이월드 Diy 전자책 서비스 시스템 및 방법

Also Published As

Publication number Publication date
KR20170127618A (ko) 2017-11-22

Similar Documents

Publication Publication Date Title
KR101808689B1 (ko) 음성인식 학습 시스템
JP6465077B2 (ja) 音声対話装置および音声対話方法
US10074363B2 (en) Method and apparatus for keyword speech recognition
US8195459B1 (en) Augmentation and calibration of output from non-deterministic text generators by modeling its characteristics in specific environments
US20210280198A1 (en) Matching speakers to meeting audio
US9292487B1 (en) Discriminative language model pruning
EP2783365B1 (en) Method and system for adapting grammars in hybrid speech recognition engines for enhancing local speech recognition performance
CN103474069B (zh) 用于融合多个语音识别系统的识别结果的方法及系统
TW201349222A (zh) 語音識別方法及系統
WO2006107586A3 (en) Method and system for interpreting verbal inputs in a multimodal dialog system
JPWO2006097975A1 (ja) 音声認識プログラム
CN106782547B (zh) 一种基于语音识别的机器人语义识别系统
US10269349B2 (en) Voice interactive device and voice interaction method
WO2012004955A1 (ja) テキスト補正方法及び認識方法
JP2013050605A (ja) 言語モデル切替装置およびそのプログラム
CN111916085A (zh) 基于发音相似度的人机对话匹配方法、装置及介质
JP7055327B2 (ja) 会話収集装置、会話収集システム及び会話収集方法
KR101800293B1 (ko) 음성인식 신뢰도 판단 시스템
JP5295037B2 (ja) ConditionalRandomFieldsもしくはGlobalConditionalLog−linearModelsを用いる学習装置及びその学習装置におけるパラメータ学習方法、プログラム
JP2004348552A (ja) 音声文書検索装置および方法およびプログラム
CN107103902A (zh) 完整语音内容递归识别方法
JP2014149490A (ja) 音声認識誤り修正装置及びそのプログラム
KR102217621B1 (ko) 사용자 발화의 오류를 교정하는 방법 및 장치
Chakraborty et al. Event based emotion recognition for realistic non-acted speech
JP2018049165A (ja) 補正装置、補正方法及び補正プログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant