KR20170109728A - 연속어의 음성 인식을 위한 장치, 방법 및 컴퓨터 판독가능 매체에 저장된 컴퓨터 프로그램 - Google Patents

연속어의 음성 인식을 위한 장치, 방법 및 컴퓨터 판독가능 매체에 저장된 컴퓨터 프로그램 Download PDF

Info

Publication number
KR20170109728A
KR20170109728A KR1020160033450A KR20160033450A KR20170109728A KR 20170109728 A KR20170109728 A KR 20170109728A KR 1020160033450 A KR1020160033450 A KR 1020160033450A KR 20160033450 A KR20160033450 A KR 20160033450A KR 20170109728 A KR20170109728 A KR 20170109728A
Authority
KR
South Korea
Prior art keywords
segment
primary segments
result data
segments
morpheme
Prior art date
Application number
KR1020160033450A
Other languages
English (en)
Other versions
KR101825940B1 (ko
Inventor
윤재선
김소윤
Original Assignee
주식회사 셀바스에이아이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 셀바스에이아이 filed Critical 주식회사 셀바스에이아이
Priority to KR1020160033450A priority Critical patent/KR101825940B1/ko
Publication of KR20170109728A publication Critical patent/KR20170109728A/ko
Application granted granted Critical
Publication of KR101825940B1 publication Critical patent/KR101825940B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Abstract

본 발명의 일 실시예에 따라 연속어의 음성 인식을 위한 방법이 개시된다. 인식된 연속어 데이터를 묵음 구간에 기초하여 세그먼트화(Segmentation)함으로써 하나 이상의 1차 세그먼트들을 생성하는 단계- 상기 1차 세그먼트 각각은 하나 이상의 형태소 유닛을 포함함-; 상기 생성된 1차 세그먼트들로 구성되는 샘플 결과 데이터를 생성하는 단계; 상기 형태소 유닛의 위치 관계 확률 정보 및 상기 묵음 구간의 길이 정보 중 적어도 하나에 기초하여 상기 생성된 결과 샘플 데이터에서의 1차 세그먼트들 간의 세그먼트 조합 여부를 결정하는 단계; 및 상기 1차 세그먼트들 간의 조합 여부 결정에 기초하여, 상기 1차 세그먼트들을 재세그먼트화(Re-Segmentation)함으로써 최종 결과 데이터를 생성하는 단계를 포함할 수 있다.

Description

연속어의 음성 인식을 위한 장치, 방법 및 컴퓨터 판독가능 매체에 저장된 컴퓨터 프로그램{APPARATUS, METHOD AND COMPUTER PROGRAM STORED ON COMPUTER-READABLE MEDIUM FOR RECOGNIZING CONTINUOUS SPEECH}
본 발명은 음성 인식 방법에 관한 것으로서, 보다 구체적으로는 연속어의 음성 인식에 있어서 세그먼트화 정확도를 높이기 위한 방법에 관한 것이다.
인간은 시대가 흐름에 따라 점점 더 편한 생활을 찾아왔고, 이에 도움이 되는 기술들을 발전시켜 왔다. 음성 인식 기술은 이런 인간의 욕구에 대표적으로 부응하는 기술로서 편리성을 인정받아 현재까지 꾸준하게 연구 개발되어 오고 있다. 또한, 최근 세계 전반에서 음성 인식 기술이 자동차, 의료, 방송, 교육 등의 여러 분야로 확대 적용되면서 핵심 기술로 부상하고 있다.
일반적으로, 이러한 음성 인식 기술이 인식할 수 있는 발성의 형태는 가장 초보적인 고립단어 인식부터 연결단어 인식, 연속어 인식, 핵심어 인식이 있다. 이 중 자연스럽게 발성한 연속된 음성을 인식할 수 있는 연속어 인식은 뛰어난 활용성에도 불구하고 인식률이 그다지 높지 못하다. 특히 자연스러운 대화 형태의 발성인 경우 인식률이 매우 낮은 문제가 있다.
이러한 문제점을 해결하기 위해 많은 방법이 연구되어 왔는데 그 중 하나는 언어모델링 기술이다. 언어모델링은 대개 N-gram 차수를 이용한 통계적 모델로 1개의 단어나 음절이 서로 다른 단어 또는 음절들과 함께 발현될 확률을 구하는 기술로 실제 사용되는 언어적 패턴의 규칙성을 수집해 음성인식 시스템이 보다 나은 성능을 내는데 활용되고 있다.
공개번호 KR20090035944(2009.04.13)는 음성 인식 장치 및 방법을 개시한다. 구체적으로 언어 모델 보정 기반의 이중 경로 음성 인식 방법 및 장치 및 방법에 관한 것으로, 제 1 음소 인식부로부터 생성된 음성 격자를 음소 규칙을 통하여 언어 모델 보정 후 제 2 음소 인식부에서 음성을 인식하여 최종 결과를 생성하도록 하는 기술적 특징을 제시한다.
하지만 여전히 연속어를 인식의 단위로 변환하는 기존의 세그먼트화는 화자의 대화에서 세그먼트를 잘 못 생성하는 경우, 언어모델의 확률값이 잘못 계산되어 정확하지 않은 결과가 출력될 수 있는 문제가 있다.
따라서, 연속어의 음성 인식을 하는데 있어서 세그먼트화의 정확도를 높여 음성 인식의 인식률을 높이기 위한 필요성이 당업계에서 존재할 수 있다.
본 발명은 전술한 배경기술에 대응하여 안출된 것으로, 연속어의 음성 인식에 있어서 묵음 구간의 길이 정보와 형태소의 위치 관계 확률 정보에 기초한 재세그먼트화를 통해 보다 높은 정확도를 지니는 음성 인식 방법을 제공하기 위한 것이다.
전술한 바와 같은 과제를 실현하기 위한 본 발명의 일 실시예에 따라 묵음 구간의 길이 정보와 형태소의 위치 관계 확률 정보에 기초한 재세그먼트화를 통해 보다 높은 정확도를 가지는 연속어의 음성 인식을 위한 방법이 개시된다. 상기 방법은 인식된 연속어 데이터를 묵음 구간에 기초하여 세그먼트화(Segmentation)함으로써 하나 이상의 1차 세그먼트들을 생성하는 단계-상기 1차 세그먼트 각각은 하나 이상의 형태소 유닛을 포함함-, 상기 생성된 1차 세그먼트들로 구성되는 샘플 결과 데이터를 생성하는 단계, 상기 형태소 유닛의 위치 관계 확률 정보 및 상기 묵음 구간의 길이 정보 중 적어도 하나에 기초하여 상기 생성된 결과 샘플 데이터에서의 1차 세그먼트들 간의 세그먼트 조합 여부를 결정하는 단계 및 상기 1차 세그먼트들 간의 조합 여부 결정에 기초하여, 상기 1차 세그먼트들을 재세그먼트화(Re-Segmentation)함으로써 최종 결과 데이터를 생성하는 단계를 포함할 수 있다.
대안적으로, 상기 1차 세그먼트들은 상기 묵음 구간을 기준으로 분리되어 상기 묵음 구간 전방에 위치하는 전방 세그먼트와 상기 묵음 구간 후방에 위치하는 후방 세그먼트를 포함할 수 있으며, 상기 위치 관계 확률 정보는 상기 전방 세그먼트가 포함하는 하나 이상의 전방 형태소 유닛과 상기 후방 세그먼트가 포함하는 하나 이상의 후방 형태소 유닛의 위치 관계 확률 정보를 포함할 수 있다.
대안적으로, 상기 결정하는 단계는 상기 위치 관계 확률 정보가 사전 설정된 임계치 이상인 경우 및 상기 묵음 구간의 길이 정보가 사전 설정된 임계치 이상인 경우, 상기 전방 세그먼트와 상기 후방 세그먼트의 세그먼트 조합되어야 함을 결정하는 단계를 포함할 수 있다.
대안적으로, 상기 위치 관계 확률 정보는 상기 후방 형태소 유닛이 문장의 첫 부분에 위치할 수 있는 확률에 따라서 비례할 수 있다.
대안적으로, 상기 위치 관계 확률 정보는 상기 전방 형태소 유닛 뒤에 상기 후방 형태소 유닛이 위치할 확률에 따라서 반비례할 수 있다.
대안적으로, 상기 최종 결과 데이터를 생성하는 단계는 상기 1차 세그먼트들 중 인접한 세그먼트들을 서로 연결하여 하나의 세그먼트를 생성하는 단계 또는 상기 1차 세그먼트들 중 하나의 세그먼트를 분리하여 복수개의 세그먼트를 생성하는 단계를 포함할 수 있다.
추가적으로, 본 발명의 일 실시예에 따라 연속어의 음성 인식을 위한 장치가 개시된다. 상기 장치는 인식된 연속어 데이터를 묵음 구간에 기초하여 세그먼트화(Segmentation)함으로써 하나 이상의 1차 세그먼트-상기 1차 세그먼트 각각은 하나 이상의 형태소 유닛을 포함함-들을 생성하는 1차 세그먼트 생성모듈, 상기 1차 세그먼트들로 구성되는 샘플 결과 데이터를 생성하는 샘플 결과 데이터 생성모듈, 상기 형태소 유닛의 위치 관계 확률 정보 및 상기 묵음 구간의 길이 정보 중 적어도 하나에 기초하여 상기 생성된 결과 샘플 데이터에서의 상기 1차 세그먼트들 간의 세그먼트 조합 여부를 결정하는 조합 결정모듈 및 상기 조합 결정모듈에 의한 조합 여부 결정에 기초하여, 상기 1차 세그먼트들을 재세그먼트화(Re-Segmentaion)함으로써 최종 결과 데이터를 생성하는 재세그먼트화 모듈을 포함할 수 있다.
또한, 본 발명의 일 실시예에 따른 하나 이상의 프로세서들에 의해 실행되고 연속어의 음성 인식을 위한 컴퓨터 판독가능 매체에 저장된 컴퓨터 프로그램을 개시한다. 상기 컴퓨터 프로그램은 컴퓨터로 하여금 이하의 동작들을 수행하도록 하며, 상기 동작들은 인식된 연속어 데이터를 묵음 구간에 기초하여 세그먼트화(Segmentation)함으로써 하나 이상의 1차 세그먼트-상기 1차 세그먼트 각각은 하나 이상의 형태소 유닛을 포함함-들을 생성하는 동작, 상기 1차 세그먼트들로 구성되는 샘플 결과 데이터를 생성하는 동작, 상기 형태소 유닛의 위치 관계 확률 정보 및 상기 묵음 구간의 길이 정보 중 적어도 하나에 기초하여 상기 생성된 결과 샘플 데이터에서의 상기 1차 세그먼트들 간의 세그먼트 조합 가능 여부를 결정하는 동작 및 상기 1차 세그먼트들 간의 조합 가능 여부 결정에 기초하여, 상기 1차 세그먼트들을 재세그먼트화(Re-Segmentaion)함으로써 최종 결과 데이터를 생성하는 동작을 포함할 수 있다.
본 발명은 연속어의 음성 인식에 있어서 묵음 구간의 길이 정보와 형태소의 위치 관계 확률 정보에 기초한 재세그먼트화를 통해 보다 높은 정확도를 지니는 음성 인식 솔루션을 제공할 수 있다.
도 1은 본 발명의 일 실시예에 따른 연속어 음성 인식을 위한 장치의 컴포넌트들을 도시한다.
도 2는 본 발명의 일 실시예에 따른 연속어 음성 인식을 위한 방법의 순서도를 도시한다.
도 3은 본 발명의 일 실시예에 따른 세그먼트 보정에 대한 예시도이다.
도 4는 본 발명의 또 다른 일 실시예에 따른 세그먼트 보정에 대한 예시도이다.
다양한 실시예들이 이제 도면을 참조하여 설명되며, 전체 도면에서 걸쳐 유사한 도면번호는 유사한 구성요소를 나타내기 위해서 사용된다. 본 명세서에서, 다양한 설명들이 본 발명의 이해를 제공하기 위해서 제시된다. 그러나 이러한 실시예들은 이러한 구체적인 설명 없이도 실행될 수 있음이 명백하다. 다른 예들에서, 공지된 구조 및 장치들은 실시예들의 설명을 용이하게 하기 위해서 블록 다이어그램 형태로 제공된다.
본 명세서에서 사용되는 용어 "컴포넌트", "모듈", "시스템" 등은 컴퓨터-관련 엔티티, 하드웨어, 펌웨어, 소프트웨어, 소프트웨어 및 하드웨어의 조합, 또는 소프트웨어의 실행을 지칭한다. 예를 들어, 컴포넌트는 프로세서상에서 실행되는 처리과정, 프로세서, 객체, 실행 스레드, 프로그램, 및/또는 컴퓨터일 수 있지만, 이들로 제한되는 것은 아니다. 예를 들어, 컴퓨팅 장치에서 실행되는 애플리케이션 및 컴퓨팅 장치 모두 컴포넌트일 수 있다. 하나 이상의 컴포넌트는 프로세서 및/또는 실행 스레드 내에 상주할 수 있고, 일 컴포넌트는 하나의 컴퓨터 내에 로컬화될 수 있고, 또는 2개 이상의 컴퓨터들 사이에 분배될 수 있다. 또한, 이러한 컴포넌트들은 그 내부에 저장된 다양한 데이터 구조들을 갖는 다양한 컴퓨터 판독가능한 매체로부터 실행할 수 있다. 컴포넌트들은 예를 들어 하나 이상의 데이터 패킷들을 갖는 신호(예를 들면, 로컬 시스템, 분산 시스템에서 다른 컴포넌트와 상호작용하는 하나의 컴포넌트로부터 데이터 및/또는 신호를 통해 다른 시스템과 인터넷과 같은 네트워크를 통한 데이터)에 따라 로컬 및/또는 원격 처리들을 통해 통신할 수 있다.
제시된 실시예들에 대한 설명은 본 발명의 기술 분야에서 통상의 지식을 가진 자가 본 발명을 이용하거나 또는 실시할 수 있도록 제공된다. 이러한 실시예들에 대한 다양한 변형들은 본 발명의 기술 분야에서 통상의 지식을 가진 자에게 명백할 것이며, 여기에 정의된 일반적인 원리들은 본 발명의 범위를 벗어남이 없이 다른 실시예들에 적용될 수 있다. 그리하여, 본 발명은 여기에 제시된 실시예들로 한정되는 것이 아니라, 여기에 제시된 원리들 및 신규한 특징들과 일관되는 최광의의 범위에서 해석되어야 할 것이다.
도 1은 본 발명의 일 실시예에 따른 연속어 음성 인식을 위한 장치(100)의 컴포넌트들을 도시한다.
상기 장치(100)는 모바일 단말, PC, 핸드폰, 키오스크, 셀룰러 폰, 이동국, PDA, 원격 단말, 사용자 에이전트, 전자사전, PDA, 유무선 전화기 등과 같이, 음성 인식 기능을 수행할 수 있는 임의의 장치를 포함할 수 있다. 추가적인 실시예에서, 상기 장치(100)는 상기 언급한 임의의 장치와 통신가능한 음성 인식 기능을 수행할 수 있는 서버 또한 포함할 수 있다.
추가적으로, 도 1에서 도시되는 장치(100)의 모듈(110, 130, 150 및 170)은 상기 장치(100)에서의 하나 이상의 프로세서들에 의해 실행가능한 기능들의 집합을 의미할 수 있으며, 또한 상기 하나 이상의 프로세서들에 의해 포함될 수도 있다.
본 발명의 일 실시예에 따라, 연속어 음성 인식을 위한 장치(100)는 인식된 연속어 데이터를 묵음 구간에 기초하여 세그먼트화함으로써 하나 이상의 1차 세그먼트-상기 1차 세그먼트 각각은 하나 이상의 형태소 유닛을 포함함-들을 생성하는 1차 세그먼트 생성모듈(110), 상기 1차 세그먼트들로 구성되는 샘플 결과 데이터를 생성하는 샘플 결과 데이터 생성모듈(130), 상기 형태소 유닛의 위치 관계 확률 정보 및 상기 묵음 구간의 길이 정보 중 적어도 하나에 기초하여 상기 생성된 결과 샘플 데이터에서의 상기 1차 세그먼트들 간의 세그먼트 조합 여부를 결정하는 조합 결정모듈(150), 상기 조합 결정모듈에 의한 조합 여부 결정에 기초하여, 상기 1차 세그먼트들을 재세그먼트화(Re-Segmentaion)함으로써 최종 결과 데이터를 생성하는 재세그먼트화 모듈(170) 및 데이터베이스(190)를 포함할 수 있다.
상기 1차 세그먼트 생성모듈(110)은 음성 인식 장치(100)에 의해 인식된 연속어 데이터를 묵음 구간에 기초하여 세그먼트화함으로써 하나 이상의 1차 세그먼트들을 생성할 수 있다. 여기서 상기 1차 세그먼트들은 하나 이상의 형태소 유닛들을 포함할 수 있다.
보다 구체적으로, 상기 1차 세그먼트 생성모듈(110)은 상기 음성 인식 장치(100)에 의해 인식된 상기 연속어 데이터를 각각의 묵음 구간을 기준으로 전방에 위치한 데이터와 후방에 위치한 데이터로 구분하여 그룹핑할 수 있다. 따라서 묵음 구간이 하나 이상인 경우, 상기 1차 세그먼트 생성모듈(110)은 상기 하나 이상의 묵음 구간을 기준으로 복수개의 1차 세그먼트들을 생성할 수 있다.
본 발명의 일 실시예에 따른 상기 1차 세그먼트들은 예를 들어 도 3 및 도 4에 도시된 바와 같이 하나의 묵음 구간(312, 412)을 기준으로 분리되어 상기 묵음 구간(312, 412) 전방에 위치하는 전방 세그먼트(311, 411)와 상기 묵음 구간(312, 412)의 후방에 위치하는 후방 세그먼트(313, 413)를 포함할 수 있다.
또한, 상기 1차 세그먼트들은 각각 하나 이상의 형태소 유닛을 포함할 수 있다. 여기서 상기 형태소 유닛은 일정한 의미를 지닌 가장 작은 말의 단위인 형태소일 수 있다. 예를 들어, 상기 형태소는 의미 또는 기능에 따라 구분되는 문법형태소와 어휘형태소, 사용될 때의 의존성 여부로 구분되는 자립형태소와 의존형태소 및 결합 관계에 따른 근원형태소와 불구형태소 등의 모든 종류의 형태소를 포함할 수 있다. 상기 형태소 종류의 기재는 예시일뿐, 상기 형태소는 다른 종류의 형태소를 포함하는 포괄적 의미로 사용될 수 있다.
상기 연속어 음성 인식을 위한 장치(100)는 샘플 결과 데이터 생성모듈(130)을 포함할 수 있다. 상기 샘플 결과 데이터 생성모듈(130)은 상기 1차 세그먼트 생성모듈(110)에 의해 생성된 상기 1차 세그먼트들을 조합 결정모듈(150)에서 판단할 수 있는 결과 데이터 형태로 샘플 결과 데이터(310, 410)를 생성할 수 있다. 보다 구체적으로, 상기 샘플 결과 데이터 생성모듈(130)은 상기 조합 결정모듈(150)이 상기 샘플 결과 데이터(310, 410)를 기반으로 조합 여부를 판단할 수 있도록 상기 샘플 결과 데이터가 상기 형태소 유닛의 위치 관계 확률 정보 및 묵음 구간의 길이 정보를 포함하도록 할 수 있다.
상기 위치 관계 확률 정보는 전방 세그먼트가 포함하는 하나 이상의 전방 형태소 유닛과 후방 세그먼트가 포함하는 하나 이상의 후방 형태소 유닛의 위치 관계 확률 정보를 포함할 수 있다. 보다 구체적으로, 상기 위치 관계 확률 정보는 상기 전방 및 후방 세그먼트에 포함된 하나 이상의 상기 형태소 유닛의 언어 모델링을 통해 얻을 수 있는 확률 정보를 포함할 수 있다.
예를 들어, 연속어 인식을 위한 음성 인식 장치(100)가 전방에 존재하는 형태소 4개를 이용해 뒤에 위치할 형태소의 확률을 결정하는 5-gram 언어 모델을 사용하는 경우, 상기 위치 관계 확률 정보는 "산이 매우 푸르다"라는 문장의 '산, -이, 매우 및 푸르-'까지의 형태소를 분석하여 뒤에 '-다'가 올 40%의 확률 정보를 포함할 수 있다. 또한, 상기 위치 관계 확률 정보는 상기 '-다'라는 형태소 외에도 '-고'에 해당하는 30%, '-구나'에 해당하는 10% 확률 정보를 포함할 수도 있다. 상기 위치 관계 확률 정보의 기재와 수치들은 예시일뿐, 본 발명은 이에 제한되지 않는다.
본 발명의 일 실시예에서 상기 위치 관계 확률 정보는 전방 형태소 유닛 뒤에 후방 형태소 유닛이 위치할 확률 또는 상기 후방 형태소 유닛이 문장의 첫 부분에 위치할 수 있는 확률을 포함할 수 있다. 또한, 상기 위치 관계 확률 정보는 조합 결정모듈(150)이 샘플 결과 데이터(310, 410)들의 조합 여부를 결정할 때 결정의 기초가 될 수 있다.
본 발명의 일 실시예에서 상기 위치 관계 확률 정보는 상기 전방 형태소 유닛 뒤에 상기 후방 형태소 유닛이 위치할 확률에 따라서 반비례할 수 있다.
예를 들어, 연속어 인식을 위한 음성 인식 장치(100)가 5-gram 언어 모델을 사용해 '나는 학교에 간다'라는 문장의 '-는, 학교, -에 및 가' 뒤에 '-ㄴ다'가 올 확률을 90%로 계산한 상기 위치 관계 확률 정보가 0.9의 값을 가지는 경우, 상기 '-는 학교에 가' 뒤에 '-ㄴ다'가 올 확률을 50%로 계산한 상기 위치 관계 확률 정보는 1.4의 값을 가질 수 있다. 상기 위치 관계 확률 정보의 기재와 수치들은 예시일뿐, 본 발명은 이에 제한되지 않는다.
또한, 본 발명의 일 실시예에서 상기 위치 관계 확률 정보는 상기 후방 형태소 유닛이 문장의 첫 부분에 위치할 확률에 따라서 비례할 수 있다.
예를 들어, 상기 연속어 인식을 위한 음성 인식 장치(100)가 5-gram 언어 모델을 사용해 '산이 푸르다 나는'라는 문장을 인식하여 상기 후방 형태소 '나'가 문장의 첫 부분에 위치할 확률을 90%로 계산한 상기 위치 관계 확률 정보가 0.9의 값을 가지는 경우, 상기 '나'가 문장의 첫 부분에 위치할 확률을 98%로 계산한 상기 위치 관계 확률 정보는 0.98의 값을 가질 수 있다. 상기 위치 관계 확률 정보의 기재와 수치들은 예시일뿐, 본 발명은 이에 제한되지 않는다.
상기 연속어 음성 인식을 위한 장치(100)는 조합 결정모듈(150)을 포함할 수 있다. 상기 조합 결정모듈(150)은 샘플 결과 데이터 생성모듈(130)이 생성한 샘플 결과 데이터에 포함된 상기 형태소 유닛의 위치 관계 확률 정보 및 상기 묵음 구간의 길이 정보 중 적어도 하나에 기초하여 상기 생성된 결과 샘플 데이터에서의 상기 1차 세그먼트들 간의 세그먼트 조합 여부를 결정할 수 있다.
상기 세그먼트 조합은 재세그먼트화 모듈(170)이 상기 묵음 구간을 기준으로 분리된 전방 세그먼트와 후방 세그먼트를 조합하여 상기 묵음 구간으로 분리되지 않은 않는 새로운 세그먼트를 생성하는 동작일 수 있다.
상기 조합 결정모듈(150)의 세그먼트 조합 여부 결정은 상기 위치 관계 확률 정보 및 상기 묵음 구간의 길이 정보에 적어도 일부분 기초할 수 있다. 보다 구체적으로, 상기 세그먼트 조합 여부 결정은 상기 조합 결정모듈(150)이 상기 위치 관계 확률 정보 및 상기 묵음 구간의 길이 정보를 사전 설정된 임계값과 비교를 통해 조합 여부를 결정하는 동작을 포함할 수 있다.
또한, 상기 조합 결정모듈(150)은 결정한 세그먼트 조합 여부를 상기 재세그먼트화 모듈(170)에 제공하여 상기 조합 여부를 기초로 상기 재세그먼트화 모듈(170)이 세그먼트 조합을 수행하도록 할 수 있다.
예를 들어, 상기 조합 결정모듈(150)은 상기 위치 관계 확률 정보가 0.7이고 상기 묵음 구간의 길이가 0.1초일 때, 0.1초에 상수 3을 곱하고 상기 위치 관계 확률 정보 0.7과 합하는 일련의 정해진 계산과정을 통해 1을 얻을 수 있고, 상기 얻은 1이 사전 설정된 임계값 1.2 이하임을 비교를 통해 알 수 있다. 그리고, 상기 비교를 통해 샘플 결과 데이터 상의 전방 세그먼트와 후방 세그먼트가 세그먼트 조합되어야 함을 결정할 수 있다. 또한, 상기 조합 결정모듈(150)은 상기 결정을 재세그먼트화 모듈(170)에 제공하여 상기 재세그먼트화 모듈(170)이 재세그먼트화를 수행하도록 할 수 있다. 상기 조합 결정모듈(150) 작동의 기재와 수치들은 예시일뿐, 본 발명은 이에 제한되지 않는다.
본 발명의 일 실시예에 따른 상기 조합 결정모듈(150)은 상기 위치 관계 확률 정보가 사전 설정된 임계치 이상인 경우 및 상기 묵음 구간의 길이 정보가 사전 설정된 임계치 이상인 경우, 상기 전방 세그먼트와 상기 후방 세그먼트의 세그먼트 조합되어야 함을 결정할 수 있다.
보다 구체적으로, 상기 위치 관계 확률 정보가 전방 형태소 유닛 뒤에 후방 형태소가 위치할 확률과 상기 후방 형태소가 문장의 첫 부분에 올 확률에 기초하여 사전 설정된 임계치 이상으로 결정되는 경우 및 상기 묵음 구간의 길이 정보가 사전 설정된 시간 이상의 값인 경우, 상기 조합 결정모듈(150)은 상기 전방 세그먼트와 상기 후방 세그먼트가 상기 묵음을 기준으로 세그먼트 분리되어야 함을 결정할 수 있다.
예를 들어, 상기 샘플 결과 데이터 생성모듈(130)이 생성한 샘플 결과 데이터(310, 410)에 포함된 상기 위치 관계 확률 정보가 0.8이고 상기 묵음 구간의 길이가 0.05초인 경우, 상기 조합 결정모듈(150)은 사전 설정된 임계값 0.7 및 0.10초와 비교하여 상기 위치 관계 확률 정보 0.8이 임계값 0.7 이상이라는 점에 기초하여 상기 샘플 결과 데이터 상의 전방 세그먼트와 후방 세그먼트가 상기 묵음 구간을 기준으로 세그먼트 분리되어야 함을 결정할 수 있다. 상기 조합 결정모듈(150) 작동의 기재와 수치들은 예시일뿐, 본 발명은 이에 제한되지 않는다.
상기 연속어 음성 인식을 위한 장치(100)는 재세그먼트화 모듈(170)을 포함할 수 있다. 상기 재세그먼트화 모듈(170)은 상기 조합 결정모듈(150)에 의한 조합 여부 결정에 기초하여, 상기 1차 세그먼트들을 재세그먼트화함으로써 최종 결과 데이터를 생성할 수 있다.
보다 구체적으로, 상기 재세그먼트화 모듈(170)은 상기 조합 결정에 따라 묵음 구간을 기준으로 분리된 전방 세그먼트화 후방 세그먼트를 세그먼트 조합하거나 또는 세그먼트 분리하는 재세그먼트화를 통해 최종 결과 데이터(330, 430)를 생성할 수 있다.
예를 들어, 도 3에 도시된 바와 같이 샘플 결과 데이터(310)는 전방 세그먼트(311), 묵음 구간(312) 및 후방 세그먼트(313)를 포함할 수 있다. 상기 전방 세그먼트(311)는 '엄마는'이고 상기 후방 세그먼트(313)가 '최고야'이며 상기 '엄마는'과 '최고야'가 상기 묵음 구간(312)을 기준으로 분리되어있는 경우, 조합 결정모듈(150)은 분리되어야 한다는 결정을 재세그먼트화 모듈(170)에 제공할 수 있다. 그리고, 상기 재세그먼트화 모듈(170)은 상기 샘플 결과 데이터(310)와 같이 '엄마는'을 전방 세그먼트(331), 묵음 구간(332) 및 '최고야'를 후방 세그먼트(333)으로 포함하는 최종 결과 데이터(330)를 생성할 수 있다. 상기 재세그먼트화 모듈(170)의 동작 기재는 예시일뿐, 본 발명은 이에 제한되지 않는다.
또 다른 예시에서는, 도 4에 도시된 바와 같이 샘플 결과 데이터(410)는 전방 세그먼트(411), 묵음 구간(412) 및 후방 세그먼트(413)를 포함할 수 있다. 상기 전방 세그먼트(411)는 '안녕'이고 상기 후방 세그먼트(413)가 '하세요'이며 상기 '안녕'과 '하세요'가 상기 묵음 구간(412)을 기준으로 분리되어 있는 경우, 조합 결정모듈(150)은 조합되어야 한다는 결정을 재세그먼트화 모듈(170)에 제공할 수 있다. 그리고, 상기 재세그먼트화 모듈(170)은 상기 '안녕'과 '하세요'를 상기 묵음 구간(412)을 제거한 상태로 조합하여 '안녕하세요'라는 새로운 세그먼트(431)를 최종 결과 데이터(430)로 생성할 수 있다. 상기 재세그먼트화 모듈(170)의 동작 기재는 예시일뿐, 본 발명은 이에 제한되지 않는다.
또한, 본 발명의 일 실시예에 따른 상기 재세그먼트화 모듈(170)은 상기 1차 세그먼트들 중 인접한 세그먼트들을 서로 연결하여 하나의 세그먼트를 생성하거나 또는, 상기 1차 세그먼트들 중 하나의 세그먼트를 분리하여 복수개의 세그먼트를 생성할 수도 있다.
상기 재세그먼트화 모듈(170)이 생성한 최종 결과 데이터(330, 430)는 데이터베이스(190)에 전송되어 저장되거나 다시 조합 결정모듈(150)에 전송되어 조합 결정여부가 맞는지 다시 한번 확인될 수 있다.
연속어 음성 인식 장치(100)는 데이터베이스(190)를 포함할 수 있다. 또한, 상기 데이터베이스(190)는에는 1차 세그먼트 생성모듈(110)이 인식하는 연속어 데이터, 샘플 결과 데이터 생성모듈(130)이 생성하는 샘플 결과 데이터, 조합 결정모듈(150)의 조합 결정여부 및 재세그먼트화 모듈(170)에서 생성된 최종 결과 데이터 등이 저장될 수 있다.
추가적으로, 상기 데이터베이스(190)는 상기 연속어 음성 인식 장치(100)의 다른 컴포넌트들과 연결될 수 있다. 또한, 상기 데이터베이스(190)는 하나의 또는 복수의 데이터베이스를 포함할 수 있다. 선택적으로 또는 대안적으로, 그 일부 또는 전체 정보를 포함하는 데이터베이스(190)가 상기 연속어 음성 인식 장치(100)내에 위치할 수 있다. 또한, 상기 데이터베이스(190)가 상기 연속어 음성 인식 장치(100) 외부에서 독립적으로 존재할 수도 있다. 이러한 경우, 상기 데이터베이스(190)는 상기 연속어 음성 인식 장치(100)와 통신 가능할 수 있다. 추가적으로, 상기 데이터베이스(190)는 상기 연속어 음성 인식 장치(100)에서 처리 및 출력되는 다양한 데이터를 저장할 수 있다.
본 발명의 일 양상에서, 상기 데이터베이스(190)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(Random Access Memory, RAM), SRAM(Static Random Access Memory), 롬(Read-Only Memory, ROM), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다. 본 발명의 추가적인 양상에서, 상기 연속어 음성 인식 장치(100)는 인터넷 상에서 상기 데이터베이스(190)의 저장 기능을 수행하는 웹 스토리지(web storage)와 관련되어 동작할 수도 있다.
도 1에서는 도시되지 않았지만, 본 발명의 일 실시예에 따른 장치(100)는, 송신 모듈을 더 포함할 수 있다. 송신 모듈은 장치(100)로부터 네트워크를 통해 미리 지정된 서버 및 다른 장치로 임의의 정보 및 데이터를 전송할 수 있다. 또한 송신 모듈은 사용자가 입력한 정보 및 데이터를 미리 지정된 서버 및 단말로 송신할 수 있다. 일례로 송신 모듈은 수신 모듈에 의해 사용자로부터 인식된 연속어 데이터에 대한 음성 인식 결과 데이터를 송신할 수 있다.
본 발명의 일 양상에서 장치(100)는 수신 모듈(미도시)을 더 포함할 수 있다. 수신 모듈은 네트워크를 통하여 다른 서버 및 장치 그리고 사용자로부터의 데이터를 수신할 수 있다. 추가적으로 수신 모듈은 외부로부터의 다양한 정보를 수신하여 상기 장치(100)를 구성하는 다양한 컴포넌트들로 해당 정보를 전달할 수 있다.
전술한 바와 같이, 송신 모듈 및 수신 모듈은 네트워크 접속을 위한 유/무선 인터넷 서브 모듈을 포함할 수 있다. 일례로, 무선 인터넷 기술로는 WLAN(Wireless LAN)(Wi-Fi), Wibro(Wireless broadband), Wimax(World Interoperability for Microwave Access), HSDPA(High Speed Downlink Packet Access) 등이 이용될 수 있다. 일례로, 유선 인터넷 기술로는 XDSL(Digital Subscriber Line), FTTH(Fibers to the home), PLC(Power Line Communication) 등이 이용될 수 있다.
또한, 송신 모듈 및 수신 모듈은 근거리 통신 서브 모듈을 포함하여, 상기 장치(100)와 비교적 근거리에 위치하고 근거리 통신 기능을 구비한 다른 전자 장치와 데이터를 송수신할 수 있다. 근거리 통신(short range communication) 기술로는 예를 들어, 블루투스(Bluetooth), RFID(Radio Frequency Identification), 적외선 통신(IrDA, infrared Data Association), UWB(Ultra Wideband), ZigBee 등이 이용될 수 있다.
본 발명의 일 양상에서, 수신 모듈을 통해 수신된 문서 또는 음성 데이터는 데이터베이스(190)에 저장될 수 있다.
본 발명의 일 실시예에 따라 상기 장치(100)는 출력 모듈(미도시)을 포함할 수 있다. 이러한 출력 모듈은 상기 장치(100)에서의 프로세싱 결과 또는 수신 결과 등으로부터 발생되는 임의의 데이터를 출력할 수 있다. 예를 들어, 출력 모듈은 액정 화면으로 구성될 수 있다. 이에 따라 상기 장치(100)는 액정 화면에 음성 인식 결과 데이터를 출력할 수 있다. 게다가, 출력 모듈은 액정 화면이 터치되는 방식에 따라 제어될 수 있다. 추가적으로 출력 모듈은 장치(100)의 종류에 따라 상이할 수 있다.
본 발명의 일 실시예에 따라 연속어의 음성 인식을 위한 방법이 개시된다. 상기 연속어의 음성 인식을 위한 방법은 인식된 연속어 데이터를 묵음 구간에 기초하여 세그먼트화(Segmentation)함으로써 하나 이상의 1차 세그먼트들을 생성하는 단계- 상기 1차 세그먼트 각각은 하나 이상의 형태소 유닛을 포함함-, 상기 생성된 1차 세그먼트들로 구성되는 샘플 결과 데이터를 생성하는 단계, 상기 형태소 유닛의 위치 관계 확률 정보 및 상기 묵음 구간의 길이 정보 중 적어도 하나에 기초하여 상기 생성된 결과 샘플 데이터에서의 1차 세그먼트들 간의 세그먼트 조합 여부를 결정하는 단계 및 상기 1차 세그먼트들 간의 조합 여부 결정에 기초하여, 상기 1차 세그먼트들을 재세그먼트화(Re-Segmentation)함으로써 최종 결과 데이터를 생성하는 단계를 포함할 수 있다.
도 2는 본 발명의 일 실시예에 따른 연속어 음성 인식을 위한 방법의 순서도를 도시한다.
상기 방법은 인식된 연속어 데이터를 묵음 구간에 기초하여 세그먼트화함으로써 하나 이상의 1차 세그먼트-상기 1차 세그먼트 각각은 하나 이상의 형태소 유닛을 포함함-들을 생성(801)하는 과정을 포함할 수 있다.
보다 구체적으로, 상기 방법은 음성 인식 장치(100)에 의해 인식된 연속어 데이터를 상기 1차 세그먼트 생성모듈(110)이 각각의 묵음 구간을 기준으로 전방에 위치한 데이터와 후방에 위치한 데이터로 구분하여 그룹핑하는 단계를 포함할 수 있다. 또한, 상기 묵음 구간이 하나 이상인 경우, 상기 하나 이상의 묵음 구간을 기준으로 복수개의 1차 세그먼트들이 생성될 수 있다.
본 발명의 일 실시예에 따른 상기 방법에서 생성되는 상기 1차 세그먼트들은 도 3 및 도 4에 도시된 샘플 결과 데이터(310, 410)과 같이 하나의 묵음 구간을 기준으로 분리되어 상기 묵음 구간 전방에 위치하는 전방 세그먼트(311, 411)와 상기 묵음 구간의 후방에 위치하는 후방 세그먼트(313, 413)를 포함할 수 있다.
상기 방법은 샘플 결과 데이터 생성모듈(130)이 상기 생성된 1차 세그먼트들로 구성되는 샘플 결과 데이터를 생성(802)하는 과정을 포함할 수 있다.
보다 구체적으로, 상기 방법은 샘플 결과 데이터 생성모듈(130)이 1차 세그먼트 생성모듈(110)에 의해 생성된 상기 1차 세그먼트들을 조합 결정모듈(150)에서 판단할 수 있도록 형태소 유닛의 위치 관계 확률 정보 및 묵음 구간의 길이 정보를 포함하는 결과 데이터 형태로 샘플 결과 데이터를 생성하는 과정을 포함할 수 있다.
예를 들면, 상기 샘플 결과 데이터 생성모듈(130)은 '안녕', '하세요', '저는', '학생' 및 '입니다'라는 1차 세그먼트들을 배열하고 각각의 1차 세그먼트 사이의 묵음 구간 길이 정보를 포함할 수 있도록 도 3 및 4에 도시된 바와 같은 상기 샘플 결과 데이터(310, 410)를 생성할 수 있다. 상기 샘플 결과 데이터의 기재는 예시일뿐, 본 발명은 이에 제한되지 않는다.
또한, 상기 방법은 상기 형태소 유닛의 위치 관계 확률 정보 및 상기 묵음 구간의 길이 정보 중 적어도 하나에 기초하여 상기 생성된 샘플 결과 데이터에서의 1차 세그먼트들 간의 세그먼트 조합 여부를 결정(803)하는 단계를 포함할 수 있다.
보다 구체적으로, 조합 결정모듈(150)이 상기 샘플 결과 데이터에 포함된 상기 형태소 유닛의 위치 관계 확률 정보 및 상기 묵음 구간의 길이 정보 중 적어도 하나에 기초하여 상기 생성된 결과 샘플 데이터에서의 상기 묵음 구간을 기준으로 분리된 전방 세그먼트와 후방 세그먼트를 조합하여 상기 묵음 구간으로 분리되지 않은 않는 새로운 세그먼트를 생성하는 세그먼트 조합 여부를 결정하는 과정을 포함할 수 있다.
본 발명의 일 실시예에 따른 상기 세그먼트 조합 여부 결정 단계는 상기 조합 결정모듈(150)이 상기 위치 관계 확률 정보와 상기 묵음 구간의 길이 정보를 사칙연산을 통해 수치값으로 변환하고 사전 설정된 임계값과 비교하는 과정을 포함할 수 있다.
또한, 본 발명의 일 실시예에 따른 상기 세그먼트 조합 여부 결정 단계는 상기 조합 결정모듈(150)이 상기 위치 관계 확률 정보가 사전 설정된 임계치 이상인 경우 및 상기 묵음 구간의 길이 정보가 사전 설정된 임계치 이상인 경우 중 적어도 하나 이상의 경우에 해당하면, 상기 전방 세그먼트와 상기 후방 세그먼트가 상기 묵음 구간을 기준으로 분리되어야 함을 결정하는 과정을 포함할 수 있다.
보다 구체적으로, 상기 방법에서 상기 위치 관계 확률 정보가 전방 형태소 유닛 뒤에 후방 형태소가 위치할 확률과 상기 후방 형태소가 문장의 첫 부분에 올 확률에 기초하여 사전 설정된 임계치 이상으로 결정되는 경우 및 상기 묵음 구간의 길이 정보가 사전 설정된 시간 이상의 값인 경우 중 적어도 하나 이상의 경우에 해당하면, 상기 조합 결정모듈(150)이 상기 전방 세그먼트와 상기 후방 세그먼트가 상기 묵음 구간을 기준으로 분리되어야 함을 결정하는 과정을 포함할 수 있다.
예를 들어, 상기 샘플 결과 데이터 생성모듈(130)이 생성한 샘플 결과 데이터(310, 410)에 포함되고 상기 전방 형태소 유닛 뒤에 후방 형태소가 위치할 확률과 상기 후방 형태소가 문장의 첫 부분에 올 확률에 기초한 상기 위치 관계 확률 정보가 0.8이고 상기 묵음 구간의 길이가 0.05초인 경우, 상기 조합 결정모듈(150)은 사전 설정된 임계값 0.7 및 0.10초와 비교하여 상기 위치 관계 확률 정보 0.8이 임계값 0.7 이상이라는 점에 기초하여 상기 샘플 결과 데이터 상의 전방 세그먼트와 후방 세그먼트가 상기 묵음 구간을 기준으로 세그먼트 분리되어야 함을 결정할 수 있다. 상기 세그먼트 조합 여부 결정단계에 대한 기재와 수치들은 예시일뿐, 본 발명은 이에 제한되지 않는다.
또한, 본 발명의 일 실시예에 따른 상기 세그먼트 조합 여부 결정 단계는 상기 조합 결정모듈(150)이 상기 위치 관계 확률 정보가 사전 설정된 임계치 이하이고 상기 묵음 구간의 길이 정보가 사전 설정된 임계치 이하인 경우, 상기 전방 세그먼트와 상기 후방 세그먼트가 세그먼트 조합되어야 함을 결정하는 과정을 포함할 수도 있다.
보다 구체적으로, 상기 방법에서 상기 위치 관계 확률 정보가 전방 형태소 유닛 뒤에 후방 형태소가 위치할 확률과 상기 후방 형태소가 문장의 첫 부분에 올 확률에 기초하여 사전 설정된 임계치 이하이고 상기 묵음 구간의 길이 정보가 사전 설정된 시간 이하인 경우, 상기 조합 결정모듈(150)이 상기 전방 세그먼트와 상기 후방 세그먼트가 상기 묵음 구간을 제거하며 세그먼트 조합되어야 함을 결정하는 과정을 포함할 수 있다.
예를 들어, 상기 샘플 결과 데이터 생성모듈(130)이 생성한 샘플 결과 데이터(310, 410)에 포함되고 상기 전방 형태소 유닛 뒤에 후방 형태소가 위치할 확률과 상기 후방 형태소가 문장의 첫 부분에 올 확률에 기초한 상기 위치 관계 확률 정보가 0.5이고 상기 묵음 구간의 길이가 0.03초인 경우, 상기 조합 결정모듈(150)은 사전 설정된 임계값 0.7 및 0.10초와 비교하여 상기 위치 관계 확률 정보와 상기 묵음 구간의 길이 모두 임계치 이하라는 점에 기초하여 상기 샘플 결과 데이터 상의 전방 세그먼트와 후방 세그먼트가 세그먼트 조합되어야 함을 결정할 수 있다. 상기 세그먼트 조합 여부 결정단계에 대한 기재와 수치들은 예시일뿐, 본 발명은 이에 제한되지 않는다.
상기 방법은 상기 1차 세그먼트들 간의 조합 여부 결정에 기초하여, 상기 1차 세그먼트들을 재세그먼트화함으로써 최종 결과 데이터를 생성하는 단계(804, 805, 806)를 포함할 수 있다. 상기 재세그먼트화(Re-Segmentation)는 상기 조합 결정모듈(150)의 결정에 따라 세그먼트 간의 분리(804) 또는 세그먼트 간의 조합(805)을 포함할 수 있다.
보다 구체적으로, 상기 최종 결과 데이터를 생성하는 단계는 재세그먼트화 모듈(170)이 조합 결정모듈(150)의 결정에 따라 묵음 구간을 기준으로 분리된 전방 세그먼트화 후방 세그먼트를 재조합하는 재세그먼트화(804, 805)를 통해 최종 결과 데이터를 생성(806)하는 과정을 포함할 수 있다.
본 발명의 일 실시예에 따른 상기 세그먼트 간의 분리(804)는 도 3에 도시된 바와 같이, 상기 조합 결정모듈(150)이 형태소 유닛의 위치 관계 확률 정보 및 묵음 구간의 길이 정보 중 적어도 하나가 사전 설정된 임계치 이상이라는 판단에 기초하여, 상기 재세그먼트화 모듈(170)이 상기 전방 세그먼트와 상기 후방 세그먼트를 상기 묵음 구간을 기준으로 분리되는 재세그먼트화를 수행하도록 하는 과정을 포함할 수 있다.
예를 들어, 도 3에 도시된 바와 같이 샘플 결과 데이터(310)는 전방 세그먼트(311), 묵음 구간(312) 및 후방 세그먼트(313)를 포함할 수 있다. 상기 전방 세그먼트(311)는 '엄마는'이고 상기 후방 세그먼트(313)가 '최고야'이며 상기 '엄마는'과 '최고야'가 상기 묵음 구간(312)을 기준으로 분리되어있다. 그리고, 상기 조합 결정모듈(150)은 형태소 유닛의 위치 관계 확률 정보 및 묵음 구간의 길이 정보 중 적어도 하나가 사전 설정된 임계치 이상이라는 판단에 기초하여 분리되어야 한다는 결정을 재세그먼트화 모듈(170)에 제공할 수 있다. 따라서, 상기 재세그먼트화 모듈(170)은 상기 샘플 결과 데이터(310)와 같이 '엄마는'을 전방 세그먼트(331), 묵음 구간(332) 및 '최고야'를 후방 세그먼트(333)으로 포함하는 최종 결과 데이터(330)를 생성할 수 있다. 상기 재세그먼트화 모듈(170)의 세그먼트 분리동작 기재는 예시일뿐, 본 발명은 이에 제한되지 않는다.
또한, 본 발명의 또 다른 일 실시예에 따른 상기 세그먼트 간의 조합(805)은 도 4에 도시된 바와 같이, 상기 조합 결정모듈(150)이 형태소 유닛의 위치 관계 확률 정보와 묵음 구간의 길이 정보가 사전 설정된 임계치 이하라는 판단에 기초하여, 상기 재세그먼트화 모듈(170)이 상기 전방 세그먼트와 상기 후방 세그먼트를 상기 묵음 구간을 제거하며 조합하여 새로운 세그먼트를 생성하는 재세그먼트화를 수행하도록 하는 과정을 포함할 수 있다.
예를 들어, 도 4에 도시된 바와 같이 샘플 결과 데이터(410)는 전방 세그먼트(411), 묵음 구간(412) 및 후방 세그먼트(413)를 포함할 수 있다. 상기 전방 세그먼트(411)는 '안녕'이고 상기 후방 세그먼트(413)가 '하세요'이며 상기 '안녕'과 '하세요'가 상기 묵음 구간(412)을 기준으로 분리되어 있다. 그리고, 상기 조합 결정모듈(150)이 상기 형태소 유닛의 위치 관계 확률 정보와 묵음 구간의 길이 정보가 사전 설정된 임계치 이하라는 판단에 기초하여 조합되어야 한다는 결정을 재세그먼트화 모듈(170)에 제공할 수 있다. 따라서, 상기 재세그먼트화 모듈(170)은 상기 '안녕'과 '하세요'를 상기 묵음 구간(412)을 제거한 상태로 조합하여 '안녕하세요'라는 새로운 세그먼트(431)를 최종 결과 데이터(430)로 생성할 수 있다. 상기 재세그먼트화 모듈(170)의 동작 기재는 예시일뿐, 본 발명은 이에 제한되지 않는다.
상기 최종 결과 데이터 생성 단계는 상기 세그먼트 간의 분리(804) 및 상기 세그먼트 간의 조합(805)을 통해 최종 결과 데이터를 생성(806)하는 과정을 포함할 수 있다.
본 발명의 일 실시예에 따른 상기 최종 결과 데이터 생성(806)은 상기 재세그먼트화 모듈(170)이 조합 결정모듈(150)의 결정에 기초하여 1차 세그먼트들 중 인접한 세그먼트들을 서로 연결하여 하나의 세그먼트를 생성하거나 또는, 상기 1차 세그먼트들 중 하나의 세그먼트를 분리하여 복수개의 세그먼트를 생성하는 과정을 포함할 수 있다.
또한, 상기 최종 결과 데이터 생성 단계에서 상기 재세그먼트화 모듈(170)이 생성한 최종 결과 데이터(330, 430)는 데이터베이스(190)에 전송되어 저장되거나 다시 조합 결정모듈(150)에 전송되어 조합 결정여부가 맞는지 다시 한번 확인되는 과정을 포함할 수도 있다.
도 3은 본 발명의 일 실시예에 따른 세그먼트 보정에 대한 예시도이다.
도 3에서 도시되는 바와 같이, 본 발명의 일 양상에 따른 샘플 결과 데이터(310)에 해당하는 1차 세그먼트들 중 전방 세그먼트(311)와 후방 세그먼트(313)의 형태소 유닛 위치 관계 확률 정보 및 묵음 구간(312)의 길이 정보 중 적어도 하나가 사전 설정된 임계치 이상이라고 조합 결정모듈(150)이 판단한 경우, 재세그먼트화 모듈(170)에 의해 생성된 최종 결과 데이터(330) 역시 상기 묵음 구간(332)을 기준으로 분리되어 생성될 수 있다.
예를 들어, 도 3에 도시된 바와 같이 샘플 결과 데이터(310)는 전방 세그먼트(311), 묵음 구간(312) 및 후방 세그먼트(313)를 포함할 수 있다. 상기 전방 세그먼트(311)는 '엄마는'이고 상기 후방 세그먼트(313)가 '최고야'이며 상기 '엄마는'과 '최고야'가 상기 묵음 구간(312)을 기준으로 분리되어있다. 그리고, 상기 샘플 결과 데이터(310)의 위치 관계 확률 정보가 0.8이고 상기 묵음 구간(312)의 길이가 0.1초인 경우, 상기 조합 결정모듈(150)은 위치 관계 확률 정보의 임계치 0.7 및 묵음 구간의 길이 정보의 임계치 0.1초 중 적어도 하나 임계치 이상이라는 판단에 기초하여, 상기 샘플 결과 데이터(310)의 상기 전방 세그먼트(311)'엄마는'과 상기 후방 세그먼트(313)'최고야'가 분리되어야 한다는 결정을 재세그먼트화 모듈(170)에 제공할 수 있다. 따라서, 상기 재세그먼트화 모듈(170)은 상기 샘플 결과 데이터(310)와 같이 '엄마는'을 전방 세그먼트(331), 묵음 구간(332) 및 '최고야'를 후방 세그먼트(333)으로 포함하는 최종 결과 데이터(330)를 생성할 수 있다. 상기 세그먼트 보정의 상세한 기재는 예시일뿐, 본 발명은 이에 제한되지 않는다.
상기 묵음 구간(312, 332)는 하나 이상 존재할 수 있고, 상기 전방 세그먼트(311, 331)와 후방 세그먼트(313, 333)가 분리되는 기준점이 될 수 있다. 또한, 상기 묵음 구간(312, 332)이 하나 이상 존재하는 경우, 샘플 및 최종 결과 데이터(310, 330)는 복수개의 세그먼트들을 포함할 수 있다.
도 4는 본 발명의 또 다른 일 실시예에 따른 세그먼트 보정에 대한 예시도이다.
도 4에서 도시되는 바와 같이, 본 발명의 일 양상에 따른 샘플 결과 데이터(410)에 해당하는 1차 세그먼트들 중 전방 세그먼트(411)와 후방 세그먼트(413)의 형태소 유닛 위치 관계 확률 정보 및 묵음 구간(412)의 길이 정보 중 적어도 하나가 사전 설정된 임계치 이하라고 조합 결정모듈(150)이 판단한 경우, 재세그먼트화 모듈(170)에 의해 생성된 최종 결과 데이터(430)는 상기 묵음 구간(412)을 제거하고 상기 전방 세그먼트(411)와 상기 후방 세그먼트(413)를 조합한 새로운 세그먼트(431)가 될 수 있다.
예를 들어, 도 4에 도시된 바와 같이 샘플 결과 데이터(410)는 전방 세그먼트(411), 묵음 구간(412) 및 후방 세그먼트(413)를 포함할 수 있다. 상기 전방 세그먼트(411)는 '안녕'이고 상기 후방 세그먼트(413)가 '하세요'이며 상기 '안녕'과 '하세요'가 상기 묵음 구간(412)을 기준으로 분리되어 있다. 그리고, 상기 샘플 결과 데이터(410)의 위치 관계 확률 정보가 0.5이고, 상기 묵음 구간(412)의 길이 정보가 0.05초인 경우, 상기 조합 결정모듈(150)은 상기 위치 관계 확률 정보의 임계치 0.7과 상기 묵음 구간의 길이 정보의 임계치 0.1초에 모두 임계치 이하라는 판단에 기초하여 조합되어야 한다는 결정을 재세그먼트화 모듈(170)에 제공할 수 있다. 따라서, 상기 재세그먼트화 모듈(170)은 상기 '안녕'과 '하세요'를 상기 묵음 구간(412)을 제거한 상태로 조합하여 '안녕하세요'라는 새로운 세그먼트(431)를 최종 결과 데이터(430)로 생성할 수 있다. 상기 세그먼트 보정의 상세한 기재는 예시일뿐, 본 발명은 이에 제한되지 않는다.
또한, 본 발명의 일 실시예에 따라 하나 이상의 프로세서들에 의해 실행 가능한, 컴퓨터 판독가능 매체에 저장된 컴퓨터 프로그램을 개시한다. 상기 컴퓨터 프로그램은 상기 하나 이상의 프로세서로 하여금 이하의 동작들을 수행하도록 하며, 상기 동작들은 인식된 연속어 데이터를 묵음 구간에 기초하여 세그먼트화(Segmentation)함으로써 하나 이상의 1차 세그먼트-상기 1차 세그먼트 각각은 하나 이상의 형태소 유닛을 포함함-들을 생성하는 동작, 상기 1차 세그먼트들로 구성되는 샘플 결과 데이터를 생성하는 동작, 상기 형태소 유닛의 위치 관계 확률 정보 및 상기 묵음 구간의 길이 정보 중 적어도 하나에 기초하여 상기 생성된 결과 샘플 데이터에서의 상기 1차 세그먼트들 간의 세그먼트 조합 가능 여부를 결정하는 동작 및 상기 1차 세그먼트들 간의 조합 가능 여부 결정에 기초하여, 상기 1차 세그먼트들을 재세그먼트화(Re-Segmentaion)함으로써 최종 결과 데이터를 생성하는 동작을 포함할 수 있다.
본 발명의 기술 분야에서 통상의 지식을 가진 자는 정보 및 신호들이 임의의 다양한 상이한 기술들 및 기법들을 이용하여 표현될 수 있다는 것을 이해할 것이다. 예를 들어, 위의 설명에서 참조될 수 있는 데이터, 지시들, 명령들, 정보, 신호들, 비트들, 심볼들 및 칩들은 전압들, 전류들, 전자기파들, 자기장들 또는 입자들, 광학장들 또는 입자들, 또는 이들의 임의의 결합에 의해 표현될 수 있다.
본 발명의 기술 분야에서 통상의 지식을 가진 자는 여기에 개시된 실시예들과 관련하여 설명된 다양한 예시적인 논리 블록들, 모듈들, 프로세서들, 수단들, 회로들 및 알고리즘 단계들이 전자 하드웨어, (편의를 위해, 여기에서 "소프트웨어"로 지칭되는) 다양한 형태들의 프로그램 또는 설계 코드 또는 이들 모두의 결합에 의해 구현될 수 있다는 것을 이해할 것이다. 하드웨어 및 소프트웨어의 이러한 상호 호환성을 명확하게 설명하기 위해, 다양한 예시적인 컴포넌트들, 블록들, 모듈들, 회로들 및 단계들이 이들의 기능과 관련하여 위에서 일반적으로 설명되었다. 이러한 기능이 하드웨어 또는 소프트웨어로서 구현되는지 여부는 특정한 애플리케이션 및 전체 시스템에 대하여 부과되는 설계 제약들에 따라 좌우된다. 본 발명의 기술 분야에서 통상의 지식을 가진 자는 각각의 특정한 애플리케이션에 대하여 다양한 방식들로 설명된 기능을 구현할 수 있으나, 이러한 구현 결정들은 본 발명의 범위를 벗어나는 것으로 해석되어서는 안 될 것이다.
여기서 제시된 다양한 실시예들은 방법, 장치, 또는 표준 프로그래밍 및/또는 엔지니어링 기술을 사용한 제조 물품(article)으로 구현될 수 있다. 용어 "제조 물품"은 임의의 컴퓨터-판독가능 장치로부터 액세스 가능한 컴퓨터 프로그램, 캐리어, 또는 매체(media)를 포함한다. 예를 들어, 컴퓨터-판독가능 매체는 자기 저장 장치(예를 들면, 하드 디스크, 플로피 디스크, 자기 스트립, 등), 광학 디스크(예를 들면, CD, DVD, 등), 스마트 카드, 및 플래쉬 메모리 장치(예를 들면, EEPROM, 카드, 스틱, 키 드라이브, 등)를 포함하지만, 이들로 제한되는 것은 아니다. 또한, 여기서 제시되는 다양한 저장 매체는 정보를 저장하기 위한 하나 이상의 장치 및/또는 다른 기계-판독가능한 매체를 포함한다. 용어 "기계-판독가능 매체"는 명령(들) 및/또는 데이터를 저장, 보유, 및/또는 전달할 수 있는 무선 채널 및 다양한 다른 매체를 포함하지만, 이들로 제한되는 것은 아니다.
제시된 프로세스들에 있는 단계들의 특정한 순서 또는 계층 구조는 예시적인 접근들의 일례임을 이해하도록 한다. 설계 우선순위들에 기반하여, 본 발명의 범위 내에서 프로세스들에 있는 단계들의 특정한 순서 또는 계층 구조가 재배열될 수 있다는 것을 이해하도록 한다. 첨부된 방법 청구항들은 샘플 순서로 다양한 단계들의 엘리먼트들을 제공하지만 제시된 특정한 순서 또는 계층 구조에 한정되는 것을 의미하지는 않는다.
제시된 실시예들에 대한 설명은 임의의 본 발명의 기술 분야에서 통상의 지식을 가진 자가 본 발명을 이용하거나 또는 실시할 수 있도록 제공된다. 이러한 실시예들에 대한 다양한 변형들은 본 발명의 기술 분야에서 통상의 지식을 가진 자에게 명백할 것이며, 여기에 정의된 일반적인 원리들은 본 발명의 범위를 벗어남이 없이 다른 실시예들에 적용될 수 있다. 그리하여, 본 발명은 여기에 제시된 실시예들로 한정되는 것이 아니라, 여기에 제시된 원리들 및 신규한 특징들과 일관되는 최광의의 범위에서 해석되어야 할 것이다.

Claims (8)

  1. 연속어의 음성 인식을 위한 방법으로서,
    인식된 연속어 데이터를 묵음 구간에 기초하여 세그먼트화(Segmentation)함으로써 하나 이상의 1차 세그먼트들을 생성하는 단계- 상기 1차 세그먼트 각각은 하나 이상의 형태소 유닛을 포함함-;
    상기 생성된 1차 세그먼트들로 구성되는 샘플 결과 데이터를 생성하는 단계;
    상기 형태소 유닛의 위치 관계 확률 정보 및 상기 묵음 구간의 길이 정보 중 적어도 하나에 기초하여 상기 생성된 결과 샘플 데이터에서의 1차 세그먼트들 간의 세그먼트 조합 여부를 결정하는 단계; 및
    상기 1차 세그먼트들 간의 조합 여부 결정에 기초하여, 상기 1차 세그먼트들을 재세그먼트화(Re-Segmentation)함으로써 최종 결과 데이터를 생성하는 단계;
    를 포함하는,
    연속어의 음성 인식을 위한 방법.
  2. 제 1 항에 있어서,
    상기 1차 세그먼트들은,
    상기 묵음 구간을 기준으로 분리되어 상기 묵음 구간 전방에 위치하는 전방 세그먼트와 상기 묵음 구간 후방에 위치하는 후방 세그먼트를 포함하며,
    상기 위치 관계 확률 정보는,
    상기 전방 세그먼트가 포함하는 하나 이상의 전방 형태소 유닛과 상기 후방 세그먼트가 포함하는 하나 이상의 후방 형태소 유닛의 위치 관계 확률 정보를 포함하는,
    연속어의 음성 인식을 위한 방법.
  3. 제 2 항에 있어서,
    상기 결정하는 단계는,
    상기 위치 관계 확률 정보가 사전 설정된 임계치 이상인 경우 및 상기 묵음 구간의 길이 정보가 사전 설정된 임계치 이상인 경우, 상기 전방 세그먼트와 상기 후방 세그먼트의 세그먼트 조합되어야 함을 결정하는 단계;
    를 포함하는,
    연속어의 음성 인식을 위한 방법.
  4. 제 3 항에 있어서,
    상기 위치 관계 확률 정보는,
    상기 후방 형태소 유닛이 문장의 첫 부분에 위치할 수 있는 확률에 따라서 비례하는,
    연속어의 음성 인식을 위한 방법.
  5. 제 3 항에 있어서,
    상기 위치 관계 확률 정보는,
    상기 전방 형태소 유닛 뒤에 상기 후방 형태소 유닛이 위치할 확률에 따라서 반비례하는,
    연속어의 음성 인식을 위한 방법.

  6. 제 1 항에 있어서,
    상기 최종 결과 데이터를 생성하는 단계는;
    상기 1차 세그먼트들 중 인접한 세그먼트들을 서로 연결하여 하나의 세그먼트를 생성하는 단계 또는 상기 1차 세그먼트들 중 하나의 세그먼트를 분리하여 복수개의 세그먼트를 생성하는 단계;
    를 포함하는,
    연속어의 음성 인식을 위한 방법.
  7. 연속어 음성 인식 장치에 있어서,
    인식된 연속어 데이터를 묵음 구간에 기초하여 세그먼트화(Segmentation)함으로써 하나 이상의 1차 세그먼트-상기 1차 세그먼트 각각은 하나 이상의 형태소 유닛을 포함함-들을 생성하는 1차 세그먼트 생성모듈;
    상기 1차 세그먼트들로 구성되는 샘플 결과 데이터를 생성하는 샘플 결과 데이터 생성모듈;
    상기 형태소 유닛의 위치 관계 확률 정보 및 상기 묵음 구간의 길이 정보 중 적어도 하나에 기초하여 상기 생성된 결과 샘플 데이터에서의 상기 1차 세그먼트들 간의 세그먼트 조합 여부를 결정하는 조합 결정모듈; 및
    상기 조합 결정모듈에 의한 조합 여부 결정에 기초하여, 상기 1차 세그먼트들을 재세그먼트화(Re-Segmentaion)함으로써 최종 결과 데이터를 생성하는 재세그먼트화 모듈;
    을 포함하는,
    연속어의 음성 인식을 위한 장치.
  8. 하나 이상의 프로세서들에 의해 실행 가능한, 컴퓨터 판독가능 매체에 저장된 컴퓨터 프로그램으로서, 상기 컴퓨터 프로그램은 상기 하나 이상의 프로세서로 하여금 이하의 동작들을 수행하도록 하며, 상기 동작들은:
    인식된 연속어 데이터를 묵음 구간에 기초하여 세그먼트화(Segmentation)함으로써 하나 이상의 1차 세그먼트-상기 1차 세그먼트 각각은 하나 이상의 형태소 유닛을 포함함-들을 생성하는 동작;
    상기 1차 세그먼트들로 구성되는 샘플 결과 데이터를 생성하는 동작;
    상기 형태소 유닛의 위치 관계 확률 정보 및 상기 묵음 구간의 길이 정보 중 적어도 하나에 기초하여 상기 생성된 결과 샘플 데이터에서의 상기 1차 세그먼트들 간의 세그먼트 조합 가능 여부를 결정하는 동작; 및
    상기 1차 세그먼트들 간의 조합 가능 여부 결정에 기초하여, 상기 1차 세그먼트들을 재세그먼트화(Re-Segmentaion)함으로써 최종 결과 데이터를 생성하는 동작;
    을 포함하는,
    하나 이상의 프로세서들에 의해 실행 가능한, 컴퓨터 판독가능 매체에 저장된 컴퓨터 프로그램.

KR1020160033450A 2016-03-21 2016-03-21 연속어의 음성 인식을 위한 장치, 방법 및 컴퓨터 판독가능 매체에 저장된 컴퓨터 프로그램 KR101825940B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160033450A KR101825940B1 (ko) 2016-03-21 2016-03-21 연속어의 음성 인식을 위한 장치, 방법 및 컴퓨터 판독가능 매체에 저장된 컴퓨터 프로그램

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160033450A KR101825940B1 (ko) 2016-03-21 2016-03-21 연속어의 음성 인식을 위한 장치, 방법 및 컴퓨터 판독가능 매체에 저장된 컴퓨터 프로그램

Publications (2)

Publication Number Publication Date
KR20170109728A true KR20170109728A (ko) 2017-10-10
KR101825940B1 KR101825940B1 (ko) 2018-02-09

Family

ID=60190323

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160033450A KR101825940B1 (ko) 2016-03-21 2016-03-21 연속어의 음성 인식을 위한 장치, 방법 및 컴퓨터 판독가능 매체에 저장된 컴퓨터 프로그램

Country Status (1)

Country Link
KR (1) KR101825940B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190069920A (ko) * 2017-12-12 2019-06-20 한국전자통신연구원 동영상 콘텐츠 내의 인물을 인식하는 장치 및 방법
KR20190099988A (ko) * 2018-02-19 2019-08-28 주식회사 셀바스에이아이 기준 화자 모델을 이용한 음성 인식 장치 및 이를 이용한 음성 인식 방법
CN110718235A (zh) * 2019-09-20 2020-01-21 精锐视觉智能科技(深圳)有限公司 异常声音检测的方法、电子设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190069920A (ko) * 2017-12-12 2019-06-20 한국전자통신연구원 동영상 콘텐츠 내의 인물을 인식하는 장치 및 방법
KR20190099988A (ko) * 2018-02-19 2019-08-28 주식회사 셀바스에이아이 기준 화자 모델을 이용한 음성 인식 장치 및 이를 이용한 음성 인식 방법
CN110718235A (zh) * 2019-09-20 2020-01-21 精锐视觉智能科技(深圳)有限公司 异常声音检测的方法、电子设备及存储介质

Also Published As

Publication number Publication date
KR101825940B1 (ko) 2018-02-09

Similar Documents

Publication Publication Date Title
CN106560891B (zh) 使用声学建模的语音识别设备和方法
US9280969B2 (en) Model training for automatic speech recognition from imperfect transcription data
KR102413692B1 (ko) 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치
US11900932B2 (en) Determining a system utterance with connective and content portions from a user utterance
CN110838289A (zh) 基于人工智能的唤醒词检测方法、装置、设备及介质
EP3511931A1 (en) Speech processing device, information processing device, speech processing method, and information processing method
KR101825940B1 (ko) 연속어의 음성 인식을 위한 장치, 방법 및 컴퓨터 판독가능 매체에 저장된 컴퓨터 프로그램
CN110148399A (zh) 一种智能设备的控制方法、装置、设备及介质
CN111435592B (zh) 一种语音识别方法、装置及终端设备
CN110136715B (zh) 语音识别方法和装置
CN109493846B (zh) 一种英语口音识别系统
JP6875819B2 (ja) 音響モデル入力データの正規化装置及び方法と、音声認識装置
CN113793591A (zh) 语音合成方法及相关装置和电子设备、存储介质
CN110503956B (zh) 语音识别方法、装置、介质及电子设备
CN109933773A (zh) 一种多重语义语句解析系统及方法
CN112885335B (zh) 语音识别方法及相关装置
CN112133285B (zh) 语音识别方法、装置、存储介质和电子设备
CN114694637A (zh) 混合语音识别方法、装置、电子设备及存储介质
US20230059882A1 (en) Speech synthesis method and apparatus, device and computer storage medium
EP4024393A2 (en) Training a speech recognition model
CN113053390B (zh) 基于语音识别的文本处理方法、装置、电子设备及介质
CN109346065A (zh) 一种语音识别方法及系统
CN108346424B (zh) 语音合成方法和装置、用于语音合成的装置
CN114783409A (zh) 语音合成模型的训练方法、语音合成方法及装置
CN113342981A (zh) 一种基于机器学习的需求文档分类方法及装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right