KR101368464B1 - 음성 데이터 전사용 음성 인식 장치 및 방법 - Google Patents

음성 데이터 전사용 음성 인식 장치 및 방법 Download PDF

Info

Publication number
KR101368464B1
KR101368464B1 KR1020130093668A KR20130093668A KR101368464B1 KR 101368464 B1 KR101368464 B1 KR 101368464B1 KR 1020130093668 A KR1020130093668 A KR 1020130093668A KR 20130093668 A KR20130093668 A KR 20130093668A KR 101368464 B1 KR101368464 B1 KR 101368464B1
Authority
KR
South Korea
Prior art keywords
recognition
input buffer
word
continuous
continuous word
Prior art date
Application number
KR1020130093668A
Other languages
English (en)
Inventor
이병수
Original Assignee
주식회사 잇팩
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 잇팩 filed Critical 주식회사 잇팩
Priority to KR1020130093668A priority Critical patent/KR101368464B1/ko
Application granted granted Critical
Publication of KR101368464B1 publication Critical patent/KR101368464B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

음성 데이터 전사용 음성 인식 장치 및 방법이 개시된다. 이 장치 및 방법은 핵심어 인식을 수행하다가 핵심어가 인식되면 그 인식된 핵심어의 앞뒤로 연속어를 인식하는 하이브리드 인식 모드 동작을 통해 시스템의 부하를 늘리지 않고서도 음성 데이터 전사용 음성 인식 성능을 크게 높일 수 있다.

Description

음성 데이터 전사용 음성 인식 장치 및 방법{Apparatus of speech recognition for speech data transcription and method thereof}
음성 인식 장치, 특히 음성 데이터 전사용 음성 인식 기술이 개시된다.
통신망을 통해 고객과 접촉하여 여러 서비스를 제공하거나 상품을 판매하는 콜센터를 중심으로 한 사업이 사회의 여러 분야에 이용되고 있다. 여기에서 고객과의 중요한 대화 내용은 대체로 법적인 이유 및 보다 나은 사업을 위한 데이터로서 모두 저장되며, 저장된 데이터의 양은 방대하게 확장된다. 이러한 기존의 콜센터의 고객 응대 시스템(10)은 도 1에 도시된 바와 같은 구성을 가진다. 고객 응대 시스템(10)의 녹취 음성 데이터 DB에는 방대한 양의 녹음 음성 데이터가 저장된다. 그리고 중요한 정보를 가지고 있으면서 너무나 방대하여 제대로 활용되지 못하는 콜센터의 녹취 음성 데이터 DB의 정보를 자동으로 캐내기 위해, 음성 인식을 이용한 음성 전사 및 데이터 마이닝 시스템(20)이 도 1에 도시된 바와 같이 구성된다. 이 음성 전사 및 데이터 마이닝 시스템(20)은 자동적인 음성 인식 시스템을 이용하여 고객과의 대화 내용을 인식하여 그대로 전사(轉寫)하여 저장하거나 또한 텍스트 마이닝 시스템을 통해 전사된 데이터로부터 유용한 정보를 자동으로 추출하여 저장할 수도 있다.
고객과 진행된 대화가 저장되어 있는 또는 진행중인 대화가 저장되고 있는 녹취 음성 데이터 DB에서 특정 음성 파일 또는 스트림이 음성 데이터 전사용 음성 인식 시스템에 입력되어 자동으로 인식되며, 대화의 내용이 전사되게 된다. 필요에 따라 이렇게 전사된 텍스트 데이터로부터 자동으로 유효한 정보를 추출하는 텍스트 기반 데이터 마이닝 시스템이 추가될 수 있으며, 전사된 텍스트 데이터 및 분류된 정보는 음성 인식 및 데이터 마이닝 결과 저장 DB에 저장되게 된다. 이러한 기능들이 제대로 수행될 수 있도록 음성 데이터 전사 시스템 제어부가 시스템을 운영하게 된다. 그리고 전사 시스템 사용자 UI부를 통해 시스템 사용자로부터 여러 파라미터 및 동작에 대한 입력을 받게 되며, 결과를 원하는 형태로 보여주게 된다.
이러한 음성 인식 전사 시스템에서 가장 중요한 음성 인식 엔진으로는 대체로 두 가지 형태의 인식 엔진이 잘 알려져 있다. 첫 번째가 연속어 인식기이다. 연속어 인식기는 고객 또는 상담원의 대화 내용을 있는 그대로 인식하여 전사하는 엔진이다. 그러나 이를 위해서는 방대한 어휘를 인식해야 하고, 엔진의 구성이 복잡하게 되며, 이에 따라 인식에 필요한 연산량이 많아져 시스템에 상당한 부하를 주게 된다. 따라서 사업에 유용한 시스템을 구성하기 위해서는 시스템 자원(resource)에 많은 투자를 해야 하기 때문에 경제적인 부담이 커지게 된다. 두 번째가 핵심어 인식기이다. 핵심어 인식기는 사업자가 관심을 가지는 특정 단어 또는 단어열, 예를 들면 상품명이라든지 대화 중 사용되지 말아야 할 어휘라든지 또는 계약과 관련한 중요한 어휘들을 등록하여 이러한 단어들만을 대화중에 사용되었는지를 인식하여 알려주게 된다.
보통 고객과 상담원과의 대화에서 상당히 많은 부분은 일상적인 인사 및 절차와 관련된 의례적인 대화가 차지하게 되며, 사업과 관련한 중요한 대화는 전체 대화 중 작은 부분에서 이루어지게 된다. 그리고 중요한 내용을 전개하지 못하는 대화들이 전체 대화들에서 상당히 많은 부분을 차지하게 된다. 이러한 핵심어 인식기는 시스템의 부하가 작아 경제적으로 구성할 수 있으나, 관심 있는 핵심어의 인식 여부나 그 빈도 수만을 알려줌으로써 보다 자세한 정보를 제공하지 못하는 단점이 있다.
시스템 부하를 줄이면서도 중요 대화 내용을 놓치지 않고 제공해줄 수 있는 음성 데이터 전사용 음성 인식 장치 및 방법이 개시된다.
일 양상에 따른 음성 데이터 전사용 음성 인식 장치는 핵심어 처리부와 연속어 처리부를 포함한다. 핵심어 처리부는 입력 음성 데이터를 제 1 입력 버퍼에 저장하면서 핵심어 인식을 수행한다. 그리고 연속어 처리부는 핵심어가 인식되면 그 인식된 핵심어를 포함한 전후 일정 구간의 음성 데이터를 제 2 입력 버퍼에 저장하며, 제 2 입력 버퍼를 이용하여 연속어 인식을 수행한다.
일 실시예에 있어서, 연속어 처리부는 제 2 입력 버퍼에 저장된 핵심어의 전 구간에서 묵음 구간을 검출하고, 묵음 구간이 검출되면 그 묵음 구간의 시작 지점부터 연속어 인식을 수행할 수 있다. 그리고 검출된 묵음 구간의 시작 지점부터 핵심어까지의 구간이 설정 시간을 초과할 경우에 그 묵음 구간의 시작 지점부터 연속어 인식을 수행할 수 있다.
일 실시예에 있어서, 연속어 처리부는 제 2 입력 버퍼에 저장된 핵심어 위치의 후 구간에서 묵음 구간을 검출하고, 묵음 구간이 검출되면 그 묵음 구간의 시작 지점까지만 연속어 인식을 수행할 수 있다. 그리고 연속어 처리부는 핵심어부터 묵음 구간의 시작 지점까지의 구간이 설정 시간을 초과할 경우에 그 묵음 구간의 시작 지점까지만 연속어 인식을 수행할 수 있다. 이때 연속어 처리부는 연속어 인식을 수행하면서 묵음 구간을 검출할 수 있다.
일 양상에 따르면, 제 2 입력 버퍼는 복수이며, 연속어 처리부는 연속어 인식 중에 핵심어가 새로 인식되면 새로 인식된 핵심어를 대상으로 하는 연속어 인식을 위해 다중 쓰레드로 동작할 수 있다.
일 실시예에 있어서, 제 1 입력 버퍼는 FIFO(First In First Out) 구조의 버퍼일 수 있다.
일 실시예에 있어서, 제 2 입력 버퍼는 제 1 입력 버퍼보다 최대 두 배 용량일 수 있다.
일 양상에 따른 음성 데이터 전사용 음성 인식 방법은 입력 음성 데이터를 제 1 입력 버퍼에 저장하면서 핵심어 인식을 수행하는 단계, 및 핵심어가 인식되면 그 인식된 핵심어를 포함한 전후 일정 구간의 음성 데이터를 제 2 입력 버퍼에 저장하며, 제 2 입력 버퍼를 이용하여 연속어 인식을 수행하는 단계를 포함한다.
일 양상에 따르면, 연속어 인식을 수행하는 단계는 제 2 입력 버퍼에 저장된 핵심어의 전 구간에서 묵음 구간을 검출하는 단계와, 검출된 묵음 구간의 시작 지점부터 핵심어까지의 구간이 설정 시간을 초과하는지 판단하는 단계, 및 초과할 경우 그 묵음 구간의 시작 지점부터 연속어 인식을 수행하는 단계를 포함할 수 있다.
일 양상에 따르면, 연속어 인식을 수행하는 단계는 제 2 입력 버퍼에 저장된 핵심어의 후 구간에서 묵음 구간을 검출하는 단계와, 핵심어부터 후 구간 내 검출된 묵음 구간의 시작 지점까지의 구간이 설정 시간을 초과하는지 판단하는 단계, 및 초과할 경우 후 구간 내 검출된 묵음 구간의 시작 지점까지만 연속어 인식을 수행할 수 있다.
일 실시예에 있어서,연속어 인식을 수행하는 단계는 연속어 인식을 수행하면서 후 구간에서 묵음 구간을 검출할 수 있다.
일 양상에 따르면, 음성 데이터 전사용 음성 인식 방법은 인식 모드를 판단하는 단계를 더 포함하며, 판단 결과 인식 모드가 하이브리드 인식 모드일 경우 핵심어 인식을 수행하는 단계와 연속어 인식을 수행하는 단계가 수행될 수 있다.
개시된 음성 데이터 전사용 음성 인식 장치 및 방법은 연속어 인식 엔진과 핵심어 인식 엔진을 유기적으로 조합함으로써 시스템의 부하를 크게 늘리지 않고서도 핵심어 인식 엔진만 수행하는 것과 비교해서 훨씬 많은 데이터를 추출할 수 있다. 또한 경우에 따라서는 핵심어 인식 엔진 또는 연속어 인식 엔진만 독자적으로 사용하여 인식을 수행할 수도 있게 된다.
이러한 음성 데이터 전사용 음성 인식 장치 및 방법은 고객과의 통신 상담을 통해 상품을 판매하거나 서비스를 제공하는 콜센터를 중심으로 한 사업 영역에서 고객의 음성 데이터를 인식 엔진을 사용하여 자동으로 전사하여 데이터를 얻어내는 전사 시스템에 적용될 수 있다.
도 1은 종래 콜센터의 고객 응대 시스템 및 음성 인식을 이용한 음성 전사 및 데이터 마이닝 시스템의 블록도이다.
도 2는 본 발명의 일 실시예에 따른 음성 데이터 전사용 음성 인식 장치의 블록도이다.
도 3은 본 발명의 일 실시예에 따른 제 1 입력 버퍼의 구조를 나타낸 도면이다.
도 4는 본 발명의 일 실시예에 따른 제 2 입력 버퍼의 구조를 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따른 음성 데이터 전사용 음성 인식 방법의 흐름도이다.
도 6은 본 발명의 일 실시예에 따른 하이브리드 인식 모드 동작의 흐름도이다.
도 7은 본 발명의 일 실시예에 따른 하이브리드 인식 모드에서 단일 쓰레드 연속어 인식 수행 흐름도이다.
도 8은 본 발명의 일 실시예에 따른 하이브리드 인식 모드에서 연속어 인식 수행 쓰레드 생성 및 제거 방법의 흐름도이다.
도 9는 본 발명의 일 실시예에 따른 하이브리드 인식 모드에서 연속어 인식을 위한 시작점 검출 방법의 흐름도이다.
도 10은 본 발명의 일 실시예에 따른 하이브리드 인식 모드에서 연속어 인식 종료를 위한 종료점 검출 방법의 흐름도이다.
전술한, 그리고 추가적인 본 발명의 양상들은 첨부된 도면을 참조하여 설명되는 바람직한 실시예들을 통하여 더욱 명백해질 것이다. 이하에서는 본 발명을 이러한 실시예를 통해 당업자가 용이하게 이해하고 재현할 수 있도록 상세히 설명하기로 한다.
도 2는 본 발명의 일 실시예에 따른 음성 데이터 전사용 음성 인식 장치의 블록도이고, 도 3은 본 발명의 일 실시예에 따른 제 1 입력 버퍼의 구조를 나타낸 도면이며, 도 4는 본 발명의 일 실시예에 따른 제 2 입력 버퍼의 구조를 나타낸 도면이다.
도 2에 도시된 바와 같이, 음성 데이터 전사용 음성 인식 장치는 모드 설정부(100)와 음성 처리부(200)와 제 1 입력 버퍼(300) 및 제 2 입력 버퍼(400)를 포함할 수 있다. 또한 핵심어 저장부(500)와 핵심어 등록부(600)도 더 포함할 수 있다. 도시된 구성들 중 적어도 음성 처리부(200)를 포함한 구성은 하드웨어적으로는 프로세서 내에 구현될 수 있다. 또한 제 1 입력 버퍼(300)와 제 2 입력 버퍼(400)도 프로세서 내에 함께 구현될 수 있다. 모드 설정부(100)는 음성 처리부(200)의 인식 모드를 설정한다. 일 실시예에 있어서, 모드 설정부(100)는 인식 모드 설정을 위한 사용자 인터페이스(user interface, UI)를 제공하고, UI를 통해 지정된 모드로 음성 처리부(200)의 인식 모드를 설정할 수 있다. 여기서 인식 모드는 핵심어 인식 모드와 연속어 인식 모드 그리고 하이브리드 인식 모드로 나뉠 수 있다. 잘 알려진 바와 같이, 핵심어 인식 모드는 핵심어를 인식하는 모드이고, 연속어 인식 모드는 연속어를 인식하는 모드이다. 그리고 일 양상에 따른 하이브리드 인식 모드는 핵심어 인식 모드와 연속어 인식 모드가 혼합된 모드이다. 일 실시예에 있어서, 음성 인식은 항상 하이브리드 인식 모드일 수 있다. 이 경우, 모드 설정부(100)는 구성에서 제외될 수 있다.
음성 처리부(200)는 음성 데이터를 입력받아 처리하는 구성으로서, 핵심어 처리부(210)와 연속어 처리부(220)를 포함할 수 있다. 핵심어 처리부(210)는 소프트웨어적으로 구현 가능한 핵심어 인식 엔진을 포함할 수 있다. 핵심어 처리부(210)는 핵심어 인식 엔진을 사용하여 음성 데이터에서 핵심어를 인식할 수 있다. 연속어 처리부(220)는 소프트웨어적으로 구현 가능한 연속어 인식 엔진을 포함할 수 있다. 연속어 처리부(220)는 연속어 인식 엔진을 사용하여 음성 데이터에서 연속어를 인식할 수 있다.
핵심어 처리부(210)는 핵심어 저장부(500)를 이용하여 핵심어를 인식할 수 있다. 여기서 핵심어 저장부(500)에는 하나 이상의 핵심어가 저장되며, 핵심어 처리부(210)는 핵심어 저장부(500)에 저장된 핵심어에 대해서만 음성 데이터에 존재하는지를 인식할 수 있다. 그리고 핵심어 등록부(600)는 핵심어 저장부(500)에 핵심어를 등록하는 역할을 한다. 일 실시예에 있어서, 핵심어 등록부(600)는 핵심어 등록을 위한 사용자 인터페이스(user interface, UI)를 제공하고, UI를 통해 입력된 혹은 선택된 핵심어를 핵심어 저장부(500)에 등록할 수 있다.
제 1 입력 버퍼(300)는 핵심어 처리부(210)가 핵심어를 인식하는데 이용되는 버퍼이며, 제 2 입력 버퍼(400)는 연속어 처리부(220)가 연속어를 인식하는데 이용되는 버퍼이다. 일 실시예에 있어서, 제 1 입력 버퍼(300)와 제 2 입력 버퍼(400)는 하이브리드 인식 모드로 동작시에 이용되는 버퍼일 수 있다. 제 1 입력 버퍼(300)의 구조가 도 2에 예시되어 있으며, 제 2 입력 버퍼(400)의 구조는 도 3에 예시되어 있다. 제 1 입력 버퍼(300)는 FIFO(First In First Out) 구조의 버퍼일 수 있다. 제 1 입력 버퍼(300)는 입력 음성 데이터의 최대 M초 분량의 최신 데이터를 저장할 수 있다. 그리고 제 2 입력 버퍼(400)는 제 1 입력 버퍼(300)보다 최대 두 배 용량을 가질 수 있다. 이 제 2 입력 버퍼(400)는 핵심어 기준으로 최대 M초 분량의 앞 부분 음성 데이터가 저장되는 앞 부분 버퍼와 핵심어 기준으로 최대 M초 분량의 뒷부분 음성 데이터가 저장되는 뒷부분 버퍼로 구분될 수 있다.
한편, 하이브리드 인식 모드의 대체적인 동작 원리는 다음과 같다. 우선 일차적으로 인식이 시작되면, 핵심어 인식 엔진이 등록된 핵심어에 대해 인식을 수행한다. 인식 수행 중 핵심어가 인식된 경우, 핵심어가 인식된 구간을 중심으로 앞뒤로 적당한 구간의 음성 입력 구간에 대해 연속어 인식 엔진을 사용하여 음성 인식을 수행함으로써, 핵심어가 인식된 부분을 중심으로 하여 일정 부분의 대화 내용을 그대로 전사한다. 보통 중요한 대화는 중요 단어 주위에서 전개되게 된다. 상품명에 대한 대화가 진행될 때 그 상품명을 중심으로 어떤 이유로 해당 상품을 권유하게 되었는지, 상품이 계약 단계까지 진행이 되었는지 등과 사용 금지된 단어의 사용시에는 어떤 이유로 그러한 단어를 사용하게 되었는지에 대한 대화의 전개가 해당 관심 단어 부근에서 발생하게 된다. 따라서 이렇게 두 인식 엔진을 하이브리드하게 구성함으로써 불필요한 부분을 연속어 인식 엔진으로 전사하는데 따르는 시스템의 부하를 피할 수 있으며, 핵심어 인식 엔진만 사용할 때 발생하는 정보의 빈약함 또한 피할 수 있게 된다. 또한 경우에 따라서는 연속어 인식 엔진 또는 핵심어 인식 엔진을 단독으로 사용하여 인식을 수행할 수 있기 때문에, 중요한 대화 파일의 경우 파일의 모든 부분을 전사할 수 있으며, 사용 목적에 따라 핵심어 인식만 수행하여 결과를 추출할 수도 있다.
이하, 음성 데이터 전사용 음성 인식 장치의 구체적인 동작 실시예에 대해 설명한다. 하이브리드 인식 모드에서, 핵심어 처리부(210)는 입력 음성 데이터를 제 1 입력 버퍼(300)에 저장한다. 여기서 제 1 입력 버퍼(300)는 도 2에 예시된 바와 같이 최대 M초의 음성 데이터를 저장할 수 있는 버퍼로서, 항상 입력 음성의 최신 데이터가 저장되도록 한 FIFO 구조의 버퍼일 수 있다. 핵심어 처리부(210)는 이 같은 제 1 입력 버퍼(300)에 음성 데이터를 저장하면서 인식을 수행한다. 이때 핵심어 처리부(210)가 핵심어 저장부(500)에 등록된 핵심어를 인식하게 되면, 연속어 처리부(220)를 호출하며, 계속해서 입력 음성 데이터를 제 1 입력 버퍼(300)에 저장하면서 핵심어 인식을 수행한다. 이 같은 동작은 음성 데이터 입력이 종료되기 전까지 반복된다.
한편, 호출된 연속어 처리부(220)는 제 1 입력 버퍼(300)에 저장된 음성 데이터를 제 2 입력 버퍼(400)에 복사한다. 또한 연속어 처리부(220)는 핵심어 인식 시점부터 이어지는 최대 M초 분량의 입력 음성 데이터를 제 2 입력 버퍼(400)에 저장한다. 연속어 처리부(220)가 이 같이 음성 데이터를 저장하면서 동시에 제 2 입력 버퍼(400)를 이용하여 연속어 인식을 수행한다. 즉, 연속어 처리부(220)는 도 3에 도시된 핵심어를 중심으로 하여 앞뒤로 M초 분량의 음성 데이터가 저장되어 있는 제 2 입력 버퍼(400)를 가지고 인식을 수행하는 것이다. 여기서 M초는 적용되는 환경에 따라 핵심어 주위로 적절한 데이터가 담겨 있을 것이라고 예상되는 시간으로 사용자에 의해 설정될 수 있다.
이 같이 버퍼를 이용하여 연속어 인식을 수행하는 이유는 실시간 스트림으로 입력되는 음성 데이터에서 핵심어가 인식된 후에 연속어를 핵심어 앞뒤로 일정구간 인식해야 하기 때문에, 시간적인 지연(delay)이 발생해 버퍼로 처리하는 것이다. 또한 연속어가 인식되고 있는 중에 연속해서 또 다른 핵심어가 인식되어 연속어 처리부(220)가 호출될 경우에, 연속어 처리부(220)가 다중 쓰레드로 연속어 인식 엔진을 수행하게 하기 위함이다. 하나의 연속어 인식 쓰레드가 종료되기 전에 또다른 핵심어가 새로 검출되어 연속어를 수행할 필요가 있을 경우에는 단일 쓰레드의 동작이 다중 쓰레드로 동작할 수 있게 되는 것이다. 이러한 다중 쓰레드 동작을 위해, 제 2 입력 버퍼(400)는 복수일 수 있다.
일 양상에 따라, 연속어 처리부(220)는 제 2 입력 버퍼(400)에 저장된 핵심어의 앞 부분 버퍼에서 연속어 인식의 시작점을 찾고, 그 시작점부터 연속어 인식을 수행할 수 있다. 이를 위해, 연속어 처리부(220)는 보통 음성 인식 엔진에서 사용되는 끝점 검출기를 사용해서 연속어 인식을 위한 시작점을 검출해 인식을 수행할 수 있다. 일 실시예에 있어서, 연속어 처리부(220)는 제 2 입력 버퍼(400)의 전 구간에서 묵음 구간을 검출하고, 묵음 구간이 검출되면 그 묵음 구간의 시작 지점을 연속어 인식의 시작점으로 결정하며, 그 묵음 구간의 시작 지점부터 연속어 인식을 수행할 수 있다. 연속어 처리부(220)는 음성 에너지와 피치 특성을 통해 묵음 구간을 검출할 수 있으며, 이 검출 기술 자체는 잘 알려진 바와 같을 수 있다.
이 같이 연속어 인식의 시작점을 찾아 연속어 인식을 수행하는 이유는 다음과 같다. 제 2 입력 버퍼(400)에는 핵심어 앞 부분에 최대 M초 분량이 음성이 녹음되어 있지만, 경우에 따라 전 구간인 앞 부분 버퍼 내에서 문장이 새로 시작되는 구간에서 인식을 수행한다면 대략적으로 정보의 유실 없이 시스템의 부하를 더 줄이면서 좋은 연속어 인식 결과를 얻을 가능성이 매우 크기 때문이다.
나아가 연속어 처리부(220)는 묵음 구간이 검출되면 무조건 그 묵음 구간의 시작 지점부터 연속어 인식을 수행하는 것이 아니라, 묵음 구간의 시작 지점부터 핵심어까지의 시간 구간이 기설정된 최소 보장 시간(N)을 초과하는 경우에만 그 묵음 구간의 시작 지점부터 연속어 인식을 수행할 수도 있다. 여기서 최소 보장 시간 값은 사용자에 의해 설정될 수 있다. 이 같이 묵음 구간의 시작 지점부터 핵심어까지의 시간 구간이 너무 짧으면 연속어 인식이 무의미할 수 있기 때문이다. 그리고 N 값이 M값과 같다면 끝점 검출 없이 연속어 인식을 수행한다.
일 양상에 따라, 연속어 처리부(220)는 제 2 입력 버퍼(400)에 저장된 핵심어의 후 구간인 뒷부분 버퍼 내에서 연속어 인식의 종료점을 찾고, 그 종료점까지만 연속어 인식을 수행할 수 있다. 이를 위해, 연속어 처리부(220)는 음성 인식 엔진의 끝점 검출기를 이용하여 최대 M초 이전에 문장이 끝나는 부분을 찾을 수 있다. 일 실시예에 있어서, 연속어 처리부(220)는 제 2 입력 버퍼(400)의 뒷부분 버퍼에서 묵음 구간을 검출하고, 묵음 구간이 검출되면 그 묵음 구간의 시작 지점을 연속어 인식의 종료점으로 결정하며, 그 묵음 구간의 시작 지점까지만 연속어 인식을 수행할 수 있다. 이때 연속어 처리부(220)는 연속어 인식을 수행하면서 제 2 입력 버퍼(400)의 뒷부분 버퍼에서 묵음 구간을 검출하는 동작을 수행할 수 있다. 그리고 연속어 처리부(220)는 묵음 구간이 검출되면 무조건 그 묵음 구간의 시작 지점까지만 연속어 인식을 수행하는 것이 아니라, 핵심어부터 묵음 구간의 시작 지점까지의 시간 구간이 기설정된 최소 보장 시간(N)을 초과하는 경우에만 그 묵음 구간의 시작 지점까지만 연속어 인식을 수행할 수도 있다. 마찬가지로 N 값이 M 값과 같다면 끝점 검출 없이 연속어 인식을 수행한다.
도 5는 본 발명의 일 실시예에 따른 음성 데이터 전사용 음성 인식 방법의 흐름도이다.
음성 처리부(200)는 인식 모드를 결정한다(S100). 일 실시예에 있어서, 음성 처리부(200)는 사용자에 의해 설정된 모드로 인식 모드를 결정한다. 하이브리드 인식 모드일 경우(S105), 음성 처리부(200)는 하이브리드 인식을 수행한다(S110). 하이브리 인식은 1차로 핵심어를 인식하고, 2차로 핵심어 앞뒤를 포함한 구간을 연속어 인식하는 것이다. 음성 처리부(200)는 하이브리드 인식 수행을 통해 얻어진 결과를 출력한다(S115). 음성 처리부(200)는 음성 입력의 완료 여부를 판단하여 음성 인식을 종료하거나 하이브리드 인식을 계속하여 수행한다(S120). 연속어 인식 모드일 경우(S125), 음성 처리부(200)는 연속어 인식을 수행하며(S130), 이를 통해 얻어진 결과를 출력한다(S135). 음성 처리부(200)는 음성 입력의 완료 여부를 판단하여 음성 인식을 종료하거나 연속어 인식을 계속하여 수행한다(S140). 핵심어 인식 모드일 경우, 음성 처리부(200)는 핵심어 인식을 수행하며(S145), 이를 통해 얻어진 결과를 출력한다(S150). 음성 처리부(200)는 음성 입력의 완료 여부를 판단하여 음성 인식을 종료하거나 연속어 인식을 계속하여 수행한다(S155).
도 6은 본 발명의 일 실시예에 따른 하이브리드 인식 모드 동작의 흐름도이다.
핵심어 처리부(210)는 입력된 음성 데이터를 제 1 입력 버퍼(300)에 저장하면서 핵심어 인식을 수행한다(S200)(S210). 핵심어 인식 수행중 핵심어가 검출되면(S220), 핵심어 처리부(210)는 연속어 처리부(220)를 호출한다(S230). 호출된 연속어 처리부(220)는 제 2 입력 버퍼(400)를 이용하여 연속어 인식을 수행한다(S240) 이 연속어 처리부(220)는 핵심어 처리부(210)와 동시에 쓰레드 형태로 동작하며, 이후 핵심어 처리부(220)는 음성 입력의 완료 여부를 판단하여 하이브리드 인식 모드를 종료하거나 인식을 계속 수행한다(S250).
도 7은 본 발명의 일 실시예에 따른 하이브리드 인식 모드에서 단일 쓰레드 연속어 인식 수행 흐름도이다.
호출된 연속어 처리부(220)는 제 1 입력 버퍼(300)에 저장된 음성 데이터를 제 2 입력 버퍼(400)에 복사한다(S300). 연속어 처리부(220)는 제 2 입력 버퍼(400)에 저장된 음성 데이터에서 연속어 인식 시작 지점을 검출한다(S310). 또한 연속어 처리부(220)는 핵심어 이후에 계속 입력되는 음성 데이터를 제 2 입력 버퍼(400)에 저장한다(S320). 연속어 처리부(220)는 연속어 인식 시작 지점이 검출된 경우 그 검출된 시작 지점부터 연속어를 인식하고, 그렇지 않은 경우 제 2 입력 버퍼(400)에 저장된 음성 데이터의 처음부터 연속어를 인식하며, 연속어 인식 종료 지점을 검출한다(S330). 종료 지점이 검출되면(S340), 연속어 처리부(220)는 종료 지점까지 수행된 연속어 인식 결과를 출력한다(S350). 종료 지점이 검출되지 않으면, 연속어 처리부(220)는 제 2 입력 버퍼(400)에의 음성 데이터 입력 시간이 최대 입력 시간을 초과하였거나 또는 입력이 완료되었는지를 판단하여 연속어 인식 결과를 출력하거나 S320으로 피드백한다(S360).
도 8은 본 발명의 일 실시예에 따른 하이브리드 인식 모드에서 연속어 인식 수행 쓰레드 생성 및 제거 방법의 흐름도이다.
연속어 처리부(220)는 호출을 대기한다(S400). 그리고 핵심어 처리부(210)는 핵심에 인식시 연속어 처리부(220)를 호출한다(S410). 호출된 연속어 처리부(220)는 현재 하이브리드 인식 모드용 연속어 인식 쓰레드가 존재하는지 판단한다(S420). 존재하지 않을 경우, 연속어 처리부(220)는 첫 번째 하이브리드 인식 모드용 연속어 인식 쓰레드를 생성하고(S430), 연속어 인식을 수행한다(S440). 이후, 연속어 처리부(220)는 연속어 인식 수행의 완료 여부를 판단하여 쓰레드를 종료하거나 연속어 인식을 계속 수행한다(S450). 한편, S420에서의 판단 결과 하이브리드 인식 모드용 연속어 인식 쓰레드가 존재하면, 연속어 처리부(220)는 현재 동작하고 있는 n개의 하이브리드 인식 모드용 연속어 인식 쓰레드 외에 새로운 n+1번째 쓰레드를 생성하고(S460), 연속어 인식을 수행한다(S470). 이후, 연속어 처리부(220)는 연속어 인식 수행의 완료 여부를 판단하여 쓰레드를 종료하거나 연속어 인식을 계속 수행한다(S480).
도 9는 본 발명의 일 실시예에 따른 하이브리드 인식 모드에서 연속어 인식을 위한 시작점 검출 방법의 흐름도이다.
연속어 처리부(220)는 제 2 입력 버퍼(400)의 핵심어 앞 부분 음성 데이터로부터 에너지와 경우에 따라 피치 특성을 더해 묵음 구간을 검출한다(S500). 연속어 처리부(220)는 묵음 구간이 검출되는지 판단하고(S510), 검출되지 않을 경우 제 2 입력 버퍼(400)의 처음부터 연속어 인식을 시작한다(S520). 검출될 경우, 연속어 처리부(220)는 검출된 묵음 구간 시작부터 핵심어까지의 시간 구간이 최소 음성 입력 시간인 N초보다 큰지 판단한다(S530). N초보다 클 경우, 연속어 처리부(220)는 묵음 구간 시작 지점부터 연속어 인식을 시작한다(S540). N초보다 크지 않을 경우, 연속어 처리부(220)는 제 2 입력 버퍼(400)의 처음부터 연속어 인식을 시작한다.
도 10은 본 발명의 일 실시예에 따른 하이브리드 인식 모드에서 연속어 인식 종료를 위한 종료점 검출 방법의 흐름도이다.
연속어 처리부(220)는 하이브리드 인식 모드에서 연속어 인식을 수행하면서 핵심어 뒷부분 음성으로부터 에너지와 경우에 따라 피치 특성을 더해 묵음 구간을 검출한다(S600). 연속어 처리부(220)는 핵심어 이후 최대 M초 전에 묵음 구간이 검출되는지 판단한다(S610). 검출될 경우, 연속어 처리부(220)는 핵심어 위치부터 검출된 묵음까지의 구간이 최소 음성 입력 시간인 N초보다 큰지 판단한다(S620). 클 경우, 연속어 처리부(220)는 검출된 묵음 구간의 시작 지점까지만 연속어 인식을 수행하여 종료하고, 그 결과를 출력한다(S630). 한편, S610에서 묵음 구간이 검출되지 않을 경우, 연속어 처리부(220)는 핵심어 이후 최대 M초 전에 음성 입력이 종료되었는지를 판단한다(S640). 판단 결과 종료되었으면, S630이 수행된다. 종료되지 않았으면, 연속어 처리부(220)는 핵심어 이후 최대 M초까지 음성 인식이 진행되었는지를 판단한다(S650). 진행되었으면, S630이 수행된다. 종료되지 않았으면, 연속어 처리부(220)는 계속해서 연속어 인식을 수행한다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
100 : 모드 설정부 200 : 음성 처리부
210 : 핵심어 처리부 220 : 연속어 처리부
300 : 제 1 입력 버퍼 400 : 제 2 입력 버퍼
500 : 핵심어 저장부 600 : 핵심어 등록부

Claims (14)

  1. 삭제
  2. 입력 음성 데이터를 제 1 입력 버퍼에 저장하면서 핵심어 인식을 수행하는 핵심어 처리부; 및
    핵심어 처리부에 의해 핵심어가 인식되면 그 인식된 핵심어를 포함한 전후 일정 구간의 음성 데이터를 제 2 입력 버퍼에 저장하며 제 2 입력 버퍼를 이용하여 연속어 인식을 수행하되, 제 2 입력 버퍼에 저장된 핵심어의 전 구간에서 묵음 구간을 검출하고 묵음 구간이 검출되면 그 묵음 구간의 시작 지점부터 연속어 인식을 수행하는 연속어 처리부;
    를 포함하는 음성 데이터 전사용 음성 인식 장치.
  3. 제 2 항에 있어서,
    연속어 처리부는 검출된 묵음 구간의 시작 지점부터 핵심어까지의 시간 구간이 기설정된 최소 음성 입력 시간을 초과할 경우에 그 묵음 구간의 시작 지점부터 연속어 인식을 수행하는 음성 데이터 전사용 음성 인식 장치.
  4. 입력 음성 데이터를 제 1 입력 버퍼에 저장하면서 핵심어 인식을 수행하는 핵심어 처리부; 및
    핵심어 처리부에 의해 핵심어가 인식되면 그 인식된 핵심어를 포함한 전후 일정 구간의 음성 데이터를 제 2 입력 버퍼에 저장하며 제 2 입력 버퍼를 이용하여 연속어 인식을 수행하되, 제 2 입력 버퍼에 저장된 핵심어 위치의 후 구간에서 묵음 구간을 검출하고 묵음 구간이 검출되면 그 묵음 구간의 시작 지점까지만 연속어 인식을 수행하는 연속어 처리부;
    를 포함하는 음성 데이터 전사용 음성 인식 장치.
  5. 제 4 항에 있어서,
    연속어 처리부는 핵심어부터 묵음 구간의 시작 지점까지의 시간 구간이 기설정된 최소 음성 입력 시간을 초과할 경우에 그 묵음 구간의 시작 지점까지만 연속어 인식을 수행하는 음성 데이터 전사용 음성 인식 장치.
  6. 제 4 항에 있어서,
    연속어 처리부는 연속어 인식을 수행하면서 묵음 구간을 검출하는 음성 데이터 전사용 음성 인식 장치.
  7. 입력 음성 데이터를 제 1 입력 버퍼에 저장하면서 핵심어 인식을 수행하는 핵심어 처리부; 및
    핵심어 처리부에 의해 핵심어가 인식되면 그 인식된 핵심어를 포함한 전후 일정 구간의 음성 데이터를 제 2 입력 버퍼에 저장하며 제 2 입력 버퍼를 이용하여 연속어 인식을 수행하는 연속어 처리부;를 포함하되,
    제 2 입력 버퍼는 복수이며,
    연속어 처리부는 연속어 인식 중에 핵심어가 새로 인식되면 새로 인식된 핵심어를 대상으로 하는 연속어 인식을 위해 다중 쓰레드로 동작하는 음성 데이터 전사용 음성 인식 장치.
  8. 입력 음성 데이터를 제 1 입력 버퍼에 저장하면서 핵심어 인식을 수행하는 핵심어 처리부; 및
    핵심어 처리부에 의해 핵심어가 인식되면 그 인식된 핵심어를 포함한 전후 일정 구간의 음성 데이터를 제 2 입력 버퍼에 저장하며, 제 2 입력 버퍼를 이용하여 연속어 인식을 수행하는 연속어 처리부;를 포함하되,
    제 1 입력 버퍼는 FIFO(First In First Out) 구조의 버퍼인 음성 데이터 전사용 음성 인식 장치.
  9. 제 8 항에 있어서,
    제 2 입력 버퍼는 제 1 입력 버퍼보다 최대 두 배 용량인 음성 데이터 전사용 음성 인식 장치.
  10. 삭제
  11. 입력 음성 데이터를 제 1 입력 버퍼에 저장하면서 핵심어 인식을 수행하는 단계;
    핵심어가 인식되면 그 인식된 핵심어를 포함한 전후 일정 구간의 음성 데이터를 제 2 입력 버퍼에 저장하며, 제 2 입력 버퍼를 이용하여 연속어 인식을 수행하는 단계;를 포함하되,
    연속어 인식을 수행하는 단계는 :
    제 2 입력 버퍼에 저장된 핵심어의 전 구간에서 묵음 구간을 검출하는 단계;
    검출된 묵음 구간의 시작 지점부터 핵심어까지의 구간이 설정 시간을 초과하는지 판단하는 단계; 및
    초과할 경우 그 묵음 구간의 시작 지점부터 연속어 인식을 수행하는 단계;
    를 포함하는 음성 데이터 전사용 음성 인식 방법.
  12. 제 11 항에 있어서, 연속어 인식을 수행하는 단계는 :
    제 2 입력 버퍼에 저장된 핵심어의 후 구간에서 묵음 구간을 검출하는 단계;
    핵심어부터 후 구간 내 검출된 묵음 구간의 시작 지점까지의 구간이 설정 시간을 초과하는지 판단하는 단계; 및
    초과할 경우 후 구간 내 검출된 묵음 구간의 시작 지점까지만 연속어 인식을 수행하는 단계;
    를 더 포함하는 음성 데이터 전사용 음성 인식 방법.
  13. 제 12 항에 있어서,
    연속어 인식을 수행하는 단계는 연속어 인식을 수행하면서 후 구간에서 묵음 구간을 검출하는 음성 데이터 전사용 음성 인식 방법.
  14. 인식 모드를 판단하는 단계;
    입력 음성 데이터를 제 1 입력 버퍼에 저장하면서 핵심어 인식을 수행하는 단계; 및
    핵심어가 인식되면 그 인식된 핵심어를 포함한 전후 일정 구간의 음성 데이터를 제 2 입력 버퍼에 저장하며, 제 2 입력 버퍼를 이용하여 연속어 인식을 수행하는 단계;를 포함하되,
    판단된 인식 모드가 하이브리드 인식 모드일 경우 핵심어 인식을 수행하는 단계와 연속어 인식을 수행하는 단계가 수행되는 음성 데이터 전사용 음성 인식 방법.
KR1020130093668A 2013-08-07 2013-08-07 음성 데이터 전사용 음성 인식 장치 및 방법 KR101368464B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020130093668A KR101368464B1 (ko) 2013-08-07 2013-08-07 음성 데이터 전사용 음성 인식 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130093668A KR101368464B1 (ko) 2013-08-07 2013-08-07 음성 데이터 전사용 음성 인식 장치 및 방법

Publications (1)

Publication Number Publication Date
KR101368464B1 true KR101368464B1 (ko) 2014-02-28

Family

ID=50272137

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130093668A KR101368464B1 (ko) 2013-08-07 2013-08-07 음성 데이터 전사용 음성 인식 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101368464B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016070825A1 (en) * 2014-11-06 2016-05-12 Mediatek Inc. Processing system having keyword recognition sub-system with or without dma data transaction
US9652017B2 (en) 2014-12-17 2017-05-16 Qualcomm Incorporated System and method of analyzing audio data samples associated with speech recognition
US10269347B2 (en) 2016-02-05 2019-04-23 Samsung Electronics Co., Ltd. Method for detecting voice and electronic device using the same

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002091489A (ja) 2000-09-13 2002-03-27 Alpine Electronics Inc 音声認識装置
KR20060089922A (ko) * 2005-02-03 2006-08-10 에스케이 텔레콤주식회사 음성 인식을 이용한 데이터 추출 장치 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002091489A (ja) 2000-09-13 2002-03-27 Alpine Electronics Inc 音声認識装置
KR20060089922A (ko) * 2005-02-03 2006-08-10 에스케이 텔레콤주식회사 음성 인식을 이용한 데이터 추출 장치 및 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016070825A1 (en) * 2014-11-06 2016-05-12 Mediatek Inc. Processing system having keyword recognition sub-system with or without dma data transaction
US9652017B2 (en) 2014-12-17 2017-05-16 Qualcomm Incorporated System and method of analyzing audio data samples associated with speech recognition
US10269347B2 (en) 2016-02-05 2019-04-23 Samsung Electronics Co., Ltd. Method for detecting voice and electronic device using the same

Similar Documents

Publication Publication Date Title
US10917758B1 (en) Voice-based messaging
CN113327609B (zh) 用于语音识别的方法和装置
US9384736B2 (en) Method to provide incremental UI response based on multiple asynchronous evidence about user input
WO2017084334A1 (zh) 一种语种识别方法、装置、设备及计算机存储介质
JP3004883B2 (ja) 終話検出方法及び装置並びに連続音声認識方法及び装置
JP4902617B2 (ja) 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム
KR20160007527A (ko) 타깃 키워드를 검출하기 위한 방법 및 장치
JP2003308087A (ja) 文法更新システム及び方法
US20140129222A1 (en) Speech recognition system, recognition dictionary registration system, and acoustic model identifier series generation apparatus
JP5496863B2 (ja) 感情推定装置、その方法、プログラム及びその記録媒体
US11164584B2 (en) System and method for uninterrupted application awakening and speech recognition
WO2018047421A1 (ja) 音声処理装置、情報処理装置、音声処理方法および情報処理方法
US11043222B1 (en) Audio encryption
JP2011232619A (ja) 音声認識装置および音声認識方法
KR101368464B1 (ko) 음성 데이터 전사용 음성 인식 장치 및 방법
JP2002215187A (ja) 音声認識方法及びその装置
US10468031B2 (en) Diarization driven by meta-information identified in discussion content
US20120116765A1 (en) Speech processing device, method, and storage medium
CN110956958A (zh) 搜索方法、装置、终端设备及存储介质
JP4425055B2 (ja) クライアント・サーバ音声認識方法、これに用いる装置、そのプログラム及び記録媒体
CN113516964B (zh) 语音合成方法及可读存储介质
CN114999482A (zh) 基于视线的语音识别方法、装置、设备及存储介质
JP3006496B2 (ja) 音声認識装置
JP6867939B2 (ja) 計算機、言語解析方法、及びプログラム
JP2007233823A (ja) 自動要約装置及びコンピュータプログラム

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
N231 Notification of change of applicant
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150529

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20191209

Year of fee payment: 7