KR20130134620A - 디코딩 정보를 이용한 끝점 검출 장치 및 그 방법 - Google Patents

디코딩 정보를 이용한 끝점 검출 장치 및 그 방법 Download PDF

Info

Publication number
KR20130134620A
KR20130134620A KR1020120058249A KR20120058249A KR20130134620A KR 20130134620 A KR20130134620 A KR 20130134620A KR 1020120058249 A KR1020120058249 A KR 1020120058249A KR 20120058249 A KR20120058249 A KR 20120058249A KR 20130134620 A KR20130134620 A KR 20130134620A
Authority
KR
South Korea
Prior art keywords
endpoint
end point
detected
actual
decoding
Prior art date
Application number
KR1020120058249A
Other languages
English (en)
Inventor
정훈
박기영
이성주
이윤근
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020120058249A priority Critical patent/KR20130134620A/ko
Priority to US13/870,409 priority patent/US20130325475A1/en
Publication of KR20130134620A publication Critical patent/KR20130134620A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Abstract

본 발명은 외부로부터 음향 신호를 수신하여, 상기 음향 신호에 포함된 음성 신호의 끝점을 검출하는 끝점 검출기; 상기 음성 신호를 디코딩하여, 디코딩 정보를 생성하는 디코더기; 및 상기 디코딩 정보로부터 실제 끝점 판별의 기준이 되는 기준 정보를 추출하고, 추출된 기준 정보를 근거로 하여 상기 끝점 검출기에서 검출된 끝점이 중에서 실제 끝점을 판별하는 끝점 판별기;를 포함하는 것을 특징으로 하는 디코딩 정보를 이용한 끝점 검출 장치를 제공한다.

Description

디코딩 정보를 이용한 끝점 검출 장치 및 그 방법{APPARATUS AND METHOD FOR DETECTING END POINT USING DECODING INFORMATION}
본 발명은 디코딩 정보를 이용한 끝점 검출 장치 및 그 방법에 관한 것으로, 음성 인식 성능을 향상시킬 수 있는 디코딩 정보를 이용한 끝점 검출 장치와 이를 위한 끝점 검출 방법 방법에 관한 것이다.
종래에 음성 구간을 검출하는 끝점 검출 장치는 디코더와 끝점 검출기가 분리되어 독립적으로 동작한다.
일반적으로, 끝점 검출기는 입력되는 신호로부터 프레임 별 에너지를 측정하고 이 에너지가 기 정의된 값을 넘는 경우 음성 구간으로 간주하고, 그렇지 않은 경우 비 음성 구간으로 간주하게 된다. 이때, 대부분의 끝점 검출기는 발성이 종료되었음을 판별하기 위해 묵음 구간이 일정 시간 동안 지속 되는지를 확인한다. 즉, 끝점 검출기는 묵은 구간이 정의된 구간 동안 지속 되면 발음이 종료되었다고 판단하고, 그렇지 않으면 추가로 음성이 입력되기를 기다리게 된다.
그러나 이러한 종래의 끝점 검출기를 통한 음성 인식 시, 어린이나 노인과 같이 음성 인식 시스템 사용이 익숙하지 않은 사용자의 경우 단어 간의 묵음 구간이 길어지게 된다. 이처럼, 단어 간 묵음 구간이 길어지면 끝점 검출기는 발성이 완료되지 않았음에도 발성이 종료되었다는 오류를 발생시킬 확률이 높아지는 문제점이 있다.
따라서, 한국공개특허 10-2009-0123396호(2009.12.02) "실시간 호출명령어 인식을 이용한 잡음환경에서의 음성구간검출과 연속음성인식 시스템"은 발화자가 호출명령어를 발화하면, 호출명령어를 인식한 후 신뢰도를 측정하여 호출명령어에 연이어 발화되는 음성구간을 연속음성인식엔진에 인가함으로써, 발화자의 음성을 인식하는데, 이러한 연속음성인식 시스템은 음성인식을 수행하기 위하여 미리 호출명령어를 선정하고 인식 네트워크를 구성해야 하는 많은 시간과 비용이 발생되는 문제점이 있다.
상기한 목적을 달성하기 위하여 본 발명의 실시예에 따른 디코딩 정보를 이용한 끝점 검출 장치는 외부로부터 음향 신호를 수신하여, 상기 음향 신호에 포함된 음성 신호의 끝점을 검출하는 끝점 검출기; 상기 음성 신호를 디코딩하여, 디코딩 정보를 생성하는 디코더기; 및 상기 디코딩 정보로부터 실제 끝점 판별의 기준이 되는 기준 정보를 추출하고, 추출된 기준 정보를 근거로 하여 상기 끝점 검출기에서 검출된 끝점이 중에서 실제 끝점을 판별하는 끝점 판별기;를 제공한다.
상기 디코더기는, 연속된 문장의 끝 검출 횟수, 음소 지속 시간 평균, 음소 지속 시간 표준 편차, 최대 음소 지속 시간 및 최소 음소 지속 시간 중에 적어도 하나를 포함하는 디코딩 정보를 생성하는 것을 특징으로 한다.
상기 끝점 판별기는, 상기 기준 정보를 근거로 상기 검출된 끝점이 발음 종료 후에 발생하는 묵음 구간인지를 검출하고, 상기 검출된 끝점이 발음 종료 후에 발생하는 묵음 구간이면 실제 끝점인 것으로 판별하는 것을 특징으로 한다.
상기 끝점 판별기는, 상기 기준 정보를 근거로 상기 검출된 끝점이 단어 간 발생하는 묵음 구간인지를 검출하고, 상기 검출된 끝점이 단어 간 발생하는 묵음 구간이면 실제 끝점이 아닌 것으로 판별하는 것을 특징으로 한다.
상기 끝점 판별기는, 상기 디코딩 정보로부터 연속된 문장의 끝 검출 횟수, 음소 지속 시간 평균, 음소 지속 시간 표준 편차, 최대 음소 지속 시간 및 최소 음소 지속 시간 중에 적어도 하나 이상을 구비하는 기준 정보를 추출하는 특징 추출부를 포함하는 것을 특징으로 한다.
상기 추출된 기준 정보를 근거로 하여, 상기 검출된 끝점이 실제 끝점인지 판별하는 판별부를 포함하는 것을 특징으로 한다.
상기 추출된 기준 정보를 저장하는 저장부를 포함하는 것을 특징으로 한다.
상기한 목적을 달성하기 위하여 본 발명의 실시예에 따른 디코딩 정보를 이용한 끝점 검출 방법은 외부로부터 음향 신호를 수신하는 끝점 검출기에 의해 상기 음향 신호에 포함된 음성 신호의 끝점을 검출하는 단계; 디코더기에 의해 상기 음성 신호를 디코딩하여, 디코딩 정보를 생성하는 단계; 끝점 판별기에 의해, 상기 디코딩 정보로부터 실제 끝점 판별의 기준이 되는 기준 정보를 추출하는 단계; 및 상기 끝점 판별기에 의해, 상기 기준 정보에 근거하여 상기 검출된 끝점 중에서 실제 끝점을 판별하는 단계;를 제공한다.
상기 디코딩 정보를 생성하는 단계에서, 상기 디코더기에 의해 연속된 문장의 끝 검출 횟수, 음소 지속 시간 평균, 음소 지속 시간 표준 편차, 최대 음소 지속 시간 및 최소 음소 지속 시간 중에 적어도 하나를 포함하는 디코딩 정보를 생성하는 것을 특징으로 한다.
상기 실제 끝점 판별의 기준이 되는 기준 정보를 추출하는 단계에서, 상기 끝점 판별기에 의해, 연속된 문장의 끝 검출 횟수, 음소 지속 시간 평균, 음소 지속 시간 표준 편차, 최대 음소 지속 시간 및 최소 음소 지속 시간 중에 적어도 하나를 구비하는 기준 정보를 상기 디코딩 정보로부터 추출하는 것을 특징으로 한다.
상기 실제 끝점을 판별하는 단계는, 상기 끝점 판별기에 의해, 상기 기준 정보를 근거로 상기 검출된 끝점이 발음 종료 후에 발생하는 묵음 구간인지를 검출하는 단계; 및 상기 끝점 판별기에 의해, 상기 검출된 끝점이 발음 종료 후에 발생하는 묵음 구간이면 실제 끝점인 것으로 판별하는 단계를 포함하는 것을 특징으로 한다.
상기 실제 끝점을 판별하는 단계는, 상기 끝점 판별기에 의해, 상기 기준 정보를 근거로 상기 검출된 끝점이 단어 간 발생하는 묵음 구간인지를 검출하는 단계; 및 상기 끝점 판별기에 의해, 상기 검출된 끝점이 단어 간 발생하는 묵음 구간이면 실제 끝점이 아닌 것으로 판별하는 단계를 포함하는 것을 특징으로 한다.
상기와 같은 구성을 갖는 본 발명에 의한 디코딩 정보를 이용한 끝점 검출 장치 및 그 방법은 단어 간 발생하는 묵음 구간과 발음 종료 후에 발생하는 묵음 구간을 디코더의 정보를 이용하여 구분함으로써, 단어 간 묵음 구간은 길게 유지하고 발음 종료 후 발생하는 묵음 구간을 즉시 검출하여 음성 인식 속도를 향상시키는 효과가 있다.
즉, 본 발명은 디코딩 과정에서 발생하는 탐색 공간에 대한 활성화 정보와 음소별 지속 시간 정보 등을 이용하여 단어 간에 발생할 수 있는 묵음 구간은 최대한 허용하고 발음 종료 후 발생하는 묵음 구간은 최소화하여, 부주의한 발생 패턴에 대하여 정확하고 인식 속도가 빠른 음성 인식 시스템을 제공하는 효과가 있다.
도 1은 본 발명의 실시예에 따른 디코딩 정보를 이용한 끝점 검출 장치의 구성을 나타내는 구성도이다.
도 2는 본 발명의 실시예에 따른 디코딩 정보를 이용한 끝점 검출 장치에 채용되는 디코더 기반 끝점 검출기의 세부 구성을 나타내는 세부 구성도이다.
도 3은 본 발명의 실시예에 따른 디코딩 정보를 이용한 끝점 검출 방법의 흐름을 나타내는 흐름도이다.
이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 정도로 상세히 설명하기 위하여, 본 발명의 가장 바람직한 실시예를 첨부 도면을 참조하여 설명하기로 한다. 우선 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
이하, 본 발명의 실시예에 따른 디코딩 정보를 이용한 끝점 검출 장치를 첨부된 도면을 참조하여 상세하게 설명하면 아래와 같다. 도 1은 본 발명의 실시예에 따른 디코딩 정보를 이용한 끝점 검출 장치의 구성을 나타내는 구성도이고, 도 2는 본 발명의 실시예에 따른 디코딩 정보를 이용한 끝점 검출 장치에 채용되는 디코더 기반 끝점 검출기의 세부 구성을 나타내는 세부 구성도이다.
도 1에 도시된 바와 같이, 본 발명에 따른 디코딩 정보를 이용한 끝점 검출 장치(100)는 크게 끝점 검출기(110), 디코더기(120), 끝점 판별기(130)를 포함하여 구성된다.
끝점 검출기(110)는 외부로부터 음향 신호를 수신하여, 음향 신호에 포함된 음성 신호의 끝점을 검출한다. 이때, 끝점 검출기(110)는 끝점 찾기 방식(EPD:End Point Detector)을 이용하여 상기 음성 신호의 시작점 및 끝점을 검출한다. 그리고 끝점 검출기(110)는 수신된 음향 신호의 시간-주파수 영역의 에너지 및 엔트로피 기반의 특징을 이용하여 음향 신호에 포함된 음성 신호의 끝점을 검출하고, VSFR(Voiced Speech Frame Ratio)를 이용하여 음성인지 판단하고 음성의 시작점 및 끝점을 표시하는 음성 마킹 정보를 제공할 수 있다.
여기서, VSFR(Voiced Speech Frame Ratio)는 전체 음성 프레임과 유성음 음성 프레임 비를 나타낸다. 인간의 발성에는 일정구간 이상의 유성음이 반드시 포함되므로, 이러한 특성을 이용하여 입력된 음향 신호의 음성과 비음성을 쉽게 판별할 수 있다.
디코더기(120)는 음성 신호를 디코딩한다. 이때, 디코더기(120)는 디코딩시 탐색 공간의 터미널 노드 도달 여부 및 음소의 음성 프레임 소비 여부를 통해 연속된 문장의 끝 검출 횟수, 음소 지속 시간 평균, 음소 지속 시간 표준 편차, 최대 음소 지속 시간 및 최소 음소 지속 시간 중에 적어도 하나를 포함하는 디코딩 정보를 생성한다. 디코딩 정보를 이용하여 끝점 검출한 결과는 도 3에 도시된 바와 같이 단어 간 묵음 구간을 길지만 발음이 종료 후 묵음 구간을 짧은 것을 알 수 있다. 즉, 디코딩 정보를 이용하면 단어 간 묵음 구간을 길게 유지하고 발음 종료 후 묵음 구간은 즉시 검출할 수 있다.
끝점 판별기(130)는 디코더기(120)로부터 디코딩 정보로부터 실제 끝점 판별의 기준이 되는 기준 정보를 추출하고, 추출된 기준 정보를 근거로 하여 끝점 검출기(110)에서 검출된 끝점 중에서 실제 끝점을 판별한다. 이때, 끝점 판별기(130)는 디코더기와 끝점 검출기가 혼합된 구성으로, 디코더기의 디코딩 정보를 기반으로 끝점 검출기를 이용하여 끝점 검출을 위한 기준 정보를 추출한다.
이를 위해 끝점 판별기(130)는 도 2에 도시된 바와 같이, 특징 추출부(131), 저장부(132), 판별부(133)를 포함한다.
특징 추출부(131)는 디코더기(120)로부터 끝점 검출의 판단 기준이 되는 기준 정보를 추출한다. 즉, 특징 추출부(131)는 디코딩 정보로부터 연속된 문장의 끝 검출 횟수, 음소 지속 시간 평균, 음소 지속 시간 표준 편차, 최대 음소 지속 시간 및 최소 음소 지속 시간 중에 적어도 하나를 구비하는 기준 정보를 추출한다.
상기와 같이 추출된 기본 정보들의 의미는 다음과 같다.
·연속된 문장의 끝 검출 횟수 : 발성이 종료되었다는 것을 검출하기 위해서는 적어도 디코더기(120)에서 탐색하고 있는 인식용 탐색 공간 내에서도 문장의 끝 노드에 도달해 있어야 한다. 따라서, 문장의 끝 노드가 지속적으로 발생해야 발성이 끝났다고 간주할 수 있다.
·음소 지속 시간 평균 : 입력된 음성 신호에 대해 문장을 구성하는 음소들이 점유하는 평균 시간을 말한다.
·음소 지속 시간 표준 편차 : 입력된 음성 신호에 대해 문장을 구성하는 음소들이 점유하는 시간의 표준 편차를 말한다.
·최대 음소 지속 시간 : 음소 중 최대 시간을 점유하는 음소의 시간을 말한다.
·최소 음소 지속 시간 : 음소 중 최소 시간을 점유하는 음소의 시간을 말한다
저장부(132)는 특징 추출부(132)에서 추출된 기본 정보를 저장한다.
판별부(133)는 저장부(132)에 저장된 기본 정보를 근거로 하여 단어 간 발생하는 묵음 구간으로 인한 끝점인지 발음 종료 후에 발생하는 묵음 구간으로 인한 끝점인지를 구분하고, 끝점 검출기(110)에서 검출된 끝점 중에서 실제 끝점을 판별한다. 판별부(133)는 결정 로직을 적용하여 끝점 검출 결과가 맞는지 안 맞는지 여부를 판별한다. 이때, 사용되는 결정 로직으로는 추출된 특징의 임계치 및 경계치를 비교하는 방식, 통계적 모델을 이용하는 GMM(Gaussian Mixture Model) 방식, 인공 지능을 이용하는 MLP(Multi-Layer Perceptron) 방식, CART(Classification and Regression Tree) 방식, LRT(Likelihood Ratio Test) 방식 및 SVM(Support Vector Machine) 방식 중 어느 하나일 수 있다.
판별부(133)는 기준 정보를 근거로 검출된 끝점이 발음 종료 후에 발생하는 묵음 구간인지를 검출하고, 검출된 끝점이 발음 종료 후에 발생하는 묵음 구간이면 실제 끝점인 것으로 판별한다. 한편, 판별부(133)는 기준 정보를 근거로 검출된 끝점이 단어 간 발생하는 묵음 구간인지를 검출하고, 검출된 끝점이 단어 간 발생하는 묵음 구간이면 실제 끝점이 아닌 것으로 판별한다.
이하, 본 발명의 실시예에 따른 디코딩 정보를 이용한 끝점 검출 방법을 첨부된 도면을 참조하여 상세하게 설명하면 아래와 같다. 도 3은 본 발명의 실시예에 따른 디코딩 정보를 이용한 끝점 검출 방법의 흐름을 나타내는 흐름도이다.
도 3에 도시된 바와 같이, 본 발명에 따른 디코딩 정보를 이용한 끝점 검출 방법은 먼저, 끝점 검출기(110)가 외부로부터 음성 및 잡음을 포함하는 음향 신호를 수신한다.(S100)
다음으로, 끝점 검출기(110)에 의해 음향 신호에 포함된 음성 신호의 끝점을 검출한다.(S200) 이때, 끝점 검출기(110)는 끝점 찾기 방식(EPD:End Point Detector)을 이용하여 상기 음향 신호에 포함된 음성 신호의 시작점 및 끝점을 검출한다.
다음으로, 디코더기(120)에 의해 음성 신호를 디코딩하여, 디코딩 정보를 생성한다.(S300) 이때, 디코더기(120)는 디코딩시 탐색 공간의 터미널 노드 도달 여부 및 음소의 음성 프레임 소비 여부를 통해 연속된 문장의 끝 검출 횟수, 음소 지속 시간 평균, 음소 지속 시간 표준 편차, 최대 음소 지속 시간 및 최소 음소 지속 시간 중에 적어도 하나를 포함하는 디코딩 정보를 생성한다.
다음으로, 끝점 판별기(130)에 의해 디코딩 정보로부터 실제 끝점 판별의 기준이 되는 기준 정보를 추출한다,(S400) 이때, 끝점 판별기(130)는 디코딩 정보로부터 연속된 문장의 끝 검출 횟수, 음소 지속 시간 평균, 음소 지속 시간 표준 편차, 최대 음소 지속 시간 및 최소 음소 지속 시간 중에 적어도 하나를 구비하는 기준 정보를 추출한다.
다음으로, 끝점 판별기(130)에 의해 추출된 기준 정보를 근거로 하여, 끝점 검출기(110)에서 검출된 끝점 중에서 실제 끝점을 판별한다.(S500) 이때, 끝점 판별기(130)에 의해, 기준 정보를 근거로 검출된 끝점이 발음 종료 후에 발생하는 묵음 구간인지를 검출하고, 검출된 끝점이 발음 종료 후에 발생하는 묵음 구간이면 실제 끝점인 것으로 판별한다. 한편, 끝점 판별기(130)에 의해, 기준 정보를 근거로 검출된 끝점이 단어 간 발생하는 묵음 구간인지를 검출하고, 검출된 끝점이 단어 간 발생하는 묵음 구간이면 실제 끝점이 아닌 것으로 판별한다.
마지막으로, 끝점 판별기(130)의 판별 결과가 끝점 검출기(110)로부터 검출된 끝점이 실제 끝점이라 판별되면 음성이 종료되었다고 가정하고 음성 인식을 종료한다.
이처럼, 본 발명에 의한 디코딩 정보를 이용한 끝점 검출 장치 및 그 방법은 단어 간 발생하는 묵음 구간과 발음 종료 후에 발생하는 묵음 구간을 디코더의 정보를 이용하여 구분함으로써, 단어 간에 발생할 수 있는 묵음 구간은 최대한 허용하고 발음 종료 후 발생하는 묵음 구간은 최소화하여, 음성 인식 속도를 향상시킬 수 있다.
이상에서 본 발명에 따른 바람직한 실시예에 대해 설명하였으나, 다양한 형태로 변형이 가능하며, 본 기술분야에서 통상의 지식을 가진자라면 본 발명의 특허청구범위를 벗어남이 없이 다양한 변형예 및 수정예를 실시할 수 있을 것으로 이해된다.
100 : 디코딩 정보를 이용한 끝점 검출 장치
110 : 끝점 검출기 120 : 디코더기
130 : 끝점 판별기

Claims (12)

  1. 외부로부터 음향 신호를 수신하여 음성 신호를 추출하고, 상기 음성 신호의 끝점을 검출하는 끝점 검출기;
    상기 음성 신호를 디코딩하는 디코더기; 및
    상기 디코더기의 디코딩 과정에서 생성된 디코딩 정보로부터 실제 끝점 판별의 기준이 되는 기준 정보를 추출하고, 추출된 기준 정보를 근거로 하여 상기 끝점 검출기에서 검출된 끝점 중에서 실제 끝점을 판별하는 끝점 판별기;
    를 포함하는 것을 특징으로 하는 디코딩 정보를 이용한 끝점 검출 장치.
  2. 제 1항에 있어서,
    상기 디코더기는,
    연속된 문장의 끝 검출 횟수, 음소 지속 시간 평균, 음소 지속 시간 표준 편차, 최대 음소 지속 시간 및 최소 음소 지속 시간 중에 적어도 하나를 포함하는 디코딩 정보를 생성하는 것을 특징으로 하는 디코딩 정보를 이용한 끝점 검출 장치.
  3. 제 1항에 있어서,
    상기 끝점 판별기는,
    상기 기준 정보를 근거로 상기 검출된 끝점이 발음 종료 후에 발생하는 묵음 구간인지를 검출하고, 상기 검출된 끝점이 발음 종료 후에 발생하는 묵음 구간이면 실제 끝점인 것으로 판별하는 것을 특징으로 하는 디코딩 정보를 이용한 끝점 검출 장치.
  4. 제 1항에 있어서,
    상기 끝점 판별기는,
    상기 기준 정보를 근거로 상기 검출된 끝점이 단어 간 발생하는 묵음 구간인지를 검출하고, 상기 검출된 끝점이 단어 간 발생하는 묵음 구간이면 실제 끝점이 아닌 것으로 판별하는 것을 특징으로 하는 디코딩 정보를 이용한 끝점 검출 장치.
  5. 제 1항에 있어서,
    상기 끝점 판별기는,
    상기 디코딩 정보로부터 연속된 문장의 끝 검출 횟수, 음소 지속 시간 평균, 음소 지속 시간 표준 편차, 최대 음소 지속 시간 및 최소 음소 지속 시간 중에 적어도 하나 이상을 구비하는 기준 정보를 추출하는 특징 추출부를 포함하는 것을 특징으로 하는 디코딩 정보를 이용한 끝점 검출 장치.
  6. 제 5항에 있어서,
    상기 추출된 기준 정보를 근거로 하여, 상기 검출된 끝점이 실제 끝점인지 판별하는 판별부를 포함하는 것을 특징으로 하는 디코딩 정보를 이용한 끝점 검출 장치.
  7. 제 5항에 있어서,
    상기 추출된 기준 정보를 저장하는 저장부를 포함하는 것을 특징으로 하는 디코딩 정보를 이용한 끝점 검출 장치.
  8. 외부로부터 음향 신호를 수신하여 음성 신호를 추출하는 끝점 검출기에 의해 상기 음성 신호의 끝점을 검출하는 단계;
    디코더기에 의해 상기 음성 신호를 디코딩하는 단계;
    끝점 판별기에 의해, 상기 디코딩기의 디코딩 과정에서 생성된 디코딩 정보로부터 실제 끝점 판별의 기준이 되는 기준 정보를 추출하는 단계; 및
    상기 끝점 판별기에 의해, 상기 기준 정보에 근거하여 상기 검출된 끝점 중에서 실제 끝점을 판별하는 단계;
    를 포함하는 것을 특징으로 하는 디코딩 정보를 이용한 끝점 검출 방법.
  9. 제 8에 있어서,
    상기 디코딩 정보를 생성하는 단계에서,
    상기 디코더기에 의해 연속된 문장의 끝 검출 횟수, 음소 지속 시간 평균, 음소 지속 시간 표준 편차, 최대 음소 지속 시간 및 최소 음소 지속 시간 중에 적어도 하나를 포함하는 디코딩 정보를 생성하는 것을 특징으로 하는 디코딩 정보를 이용한 끝점 검출 방법.
  10. 제 8항에 있어서,
    상기 실제 끝점 판별의 기준이 되는 기준 정보를 추출하는 단계에서,
    상기 끝점 판별기에 의해, 연속된 문장의 끝 검출 횟수, 음소 지속 시간 평균, 음소 지속 시간 표준 편차, 최대 음소 지속 시간 및 최소 음소 지속 시간 중에 적어도 하나를 구비하는 기준 정보를 상기 디코딩 정보로부터 추출하는 것을 특징으로 하는 디코딩 정보를 이용한 끝점 검출 방법.
  11. 제 8항에 있어서,
    상기 실제 끝점을 판별하는 단계는,
    상기 끝점 판별기에 의해, 상기 기준 정보를 근거로 상기 검출된 끝점이 발음 종료 후에 발생하는 묵음 구간인지를 검출하는 단계; 및
    상기 끝점 판별기에 의해, 상기 검출된 끝점이 발음 종료 후에 발생하는 묵음 구간이면 실제 끝점인 것으로 판별하는 단계를 포함하는 것을 특징으로 하는 디코딩 정보를 이용한 끝점 검출 방법.
  12. 제 8항에 있어서,
    상기 실제 끝점을 판별하는 단계는,
    상기 끝점 판별기에 의해, 상기 기준 정보를 근거로 상기 검출된 끝점이 단어 간 발생하는 묵음 구간인지를 검출하는 단계; 및
    상기 끝점 판별기에 의해, 상기 검출된 끝점이 단어 간 발생하는 묵음 구간이면 실제 끝점이 아닌 것으로 판별하는 단계를 포함하는 것을 특징으로 하는 디코딩 정보를 이용한 끝점 검출 방법.
KR1020120058249A 2012-05-31 2012-05-31 디코딩 정보를 이용한 끝점 검출 장치 및 그 방법 KR20130134620A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020120058249A KR20130134620A (ko) 2012-05-31 2012-05-31 디코딩 정보를 이용한 끝점 검출 장치 및 그 방법
US13/870,409 US20130325475A1 (en) 2012-05-31 2013-04-25 Apparatus and method for detecting end point using decoding information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120058249A KR20130134620A (ko) 2012-05-31 2012-05-31 디코딩 정보를 이용한 끝점 검출 장치 및 그 방법

Publications (1)

Publication Number Publication Date
KR20130134620A true KR20130134620A (ko) 2013-12-10

Family

ID=49671327

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120058249A KR20130134620A (ko) 2012-05-31 2012-05-31 디코딩 정보를 이용한 끝점 검출 장치 및 그 방법

Country Status (2)

Country Link
US (1) US20130325475A1 (ko)
KR (1) KR20130134620A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018135743A1 (ko) * 2017-01-17 2018-07-26 삼성전자주식회사 발화 완료 감지 방법 및 이를 구현한 전자 장치
WO2020091187A1 (ko) * 2018-10-31 2020-05-07 삼성전자주식회사 전자 장치 및 그 제어 방법
WO2021010617A1 (ko) * 2019-07-17 2021-01-21 한양대학교 산학협력단 강인한 음성인식을 위한 음향 및 언어모델링 정보를 이용한 음성 끝점 검출 방법 및 장치

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140147587A (ko) * 2013-06-20 2014-12-30 한국전자통신연구원 Wfst를 이용한 음성 끝점 검출 장치 및 방법
US10121471B2 (en) * 2015-06-29 2018-11-06 Amazon Technologies, Inc. Language model speech endpointing
US10134425B1 (en) * 2015-06-29 2018-11-20 Amazon Technologies, Inc. Direction-based speech endpointing
TWI672690B (zh) * 2018-03-21 2019-09-21 塞席爾商元鼎音訊股份有限公司 人工智慧語音互動之方法、電腦程式產品及其近端電子裝置
US11170760B2 (en) 2019-06-21 2021-11-09 Robert Bosch Gmbh Detecting speech activity in real-time in audio signal
CN114898755B (zh) * 2022-07-14 2023-01-17 科大讯飞股份有限公司 语音处理方法及相关装置、电子设备、存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7136811B2 (en) * 2002-04-24 2006-11-14 Motorola, Inc. Low bandwidth speech communication using default and personal phoneme tables
US7219059B2 (en) * 2002-07-03 2007-05-15 Lucent Technologies Inc. Automatic pronunciation scoring for language learning
US8270585B2 (en) * 2003-11-04 2012-09-18 Stmicroelectronics, Inc. System and method for an endpoint participating in and managing multipoint audio conferencing in a packet network
US7756709B2 (en) * 2004-02-02 2010-07-13 Applied Voice & Speech Technologies, Inc. Detection of voice inactivity within a sound stream
KR100845428B1 (ko) * 2006-08-25 2008-07-10 한국전자통신연구원 휴대용 단말기의 음성 인식 시스템
US8762150B2 (en) * 2010-09-16 2014-06-24 Nuance Communications, Inc. Using codec parameters for endpoint detection in speech recognition

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018135743A1 (ko) * 2017-01-17 2018-07-26 삼성전자주식회사 발화 완료 감지 방법 및 이를 구현한 전자 장치
US11211048B2 (en) 2017-01-17 2021-12-28 Samsung Electronics Co., Ltd. Method for sensing end of speech, and electronic apparatus implementing same
WO2020091187A1 (ko) * 2018-10-31 2020-05-07 삼성전자주식회사 전자 장치 및 그 제어 방법
US11893982B2 (en) 2018-10-31 2024-02-06 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method therefor
WO2021010617A1 (ko) * 2019-07-17 2021-01-21 한양대학교 산학협력단 강인한 음성인식을 위한 음향 및 언어모델링 정보를 이용한 음성 끝점 검출 방법 및 장치
US11972751B2 (en) 2019-07-17 2024-04-30 Iucf-Hyu (Industry-University Cooperation Foundation Hanyang University) Method and apparatus for detecting voice end point using acoustic and language modeling information for robust voice

Also Published As

Publication number Publication date
US20130325475A1 (en) 2013-12-05

Similar Documents

Publication Publication Date Title
KR20130134620A (ko) 디코딩 정보를 이용한 끝점 검출 장치 및 그 방법
JP3691511B2 (ja) 休止検出を行う音声認識
US10540979B2 (en) User interface for secure access to a device using speaker verification
TWI659409B (zh) 一種語音端點檢測方法及語音辨識方法
CN108320733B (zh) 语音数据处理方法及装置、存储介质、电子设备
KR100834679B1 (ko) 음성 인식 오류 통보 장치 및 방법
JP6066471B2 (ja) 対話システム及び対話システム向け発話の判別方法
US9286897B2 (en) Speech recognizer with multi-directional decoding
EP3210205B1 (en) Sound sample verification for generating sound detection model
WO2017114201A1 (zh) 一种设定操作的执行方法及装置
KR101417975B1 (ko) 오디오 레코드의 엔드포인트를 자동 감지하는 방법 및 시스템
JP4322785B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP6812843B2 (ja) 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法
US10971149B2 (en) Voice interaction system for interaction with a user by voice, voice interaction method, and program
KR20170073113A (ko) 음성의 톤, 템포 정보를 이용한 감정인식 방법 및 그 장치
JPWO2018078885A1 (ja) 対話装置、対話方法及び対話用コンピュータプログラム
Kitayama et al. Speech starter: noise-robust endpoint detection by using filled pauses.
KR20050049207A (ko) 대화형 연속 음성인식 시스템 및 이를 이용한 음성끝점검출방법
JP2019132997A (ja) 音声処理装置、方法およびプログラム
CN113241059A (zh) 语音唤醒方法、装置、设备及存储介质
KR100597434B1 (ko) 수정된 비터비 알고리즘과 빔폭 및 지속시간을 이용한핵심어 검출기
US11922927B2 (en) Learning data generation device, learning data generation method and non-transitory computer readable recording medium
CN112151070B (zh) 一种语音检测的方法、装置及电子设备
KR100677224B1 (ko) 안티워드 모델을 이용한 음성인식 방법
JPH0997095A (ja) 音声認識装置

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid