KR101197010B1

KR101197010B1 - 음성 처리 장치 및 방법

Info

Publication number: KR101197010B1
Application number: KR1020110028816A
Authority: KR
Inventors: 이근배; 최준휘; 김석환; 김경덕; 이동현
Original assignee: 포항공과대학교 산학협력단
Priority date: 2011-03-30
Filing date: 2011-03-30
Publication date: 2012-11-05
Also published as: KR20120110751A

Abstract

본 발명에 따른 음성 처리는, 사용자의 발화를 인식하여 인식 결과를 문자 형태로 출력하며, 사용자의 발화 의도 판단을 위한 자질 정보를 출력하며, 상기 음성 인식 모듈이 출력하는 자질 정보를 이용해 사용자의 발화 의도가 문자 입력을 위한 발화인지 기 입력된 문자의 수정을 위한 발화인지 판별하고, 판별된 사용자의 발화 의도에 따라 문자 입력을 수행함으로써, 음성만을 통한 입력과 동시에 특별한 수정 명령 없이 시스템이 자동으로 해당 발화가 수정을 위한 발화라는 것을 인지하여 효과적인 입력 수정을 가능케 한다.

Description

음성 처리 장치 및 방법{Speech Processing Apparatus and Method}

본 발명은 음성 처리 및 방법에 관한 것으로, 보다 구체적으로는 음성 워드 프로세서를 구축하는 데 있어 음성을 통한 문장 입력 및 수정을 수행하는 음성 처리 장치 및 방법에 관한 것이다.

최근 스마트폰 등 모바일 기기의 넓은 보급으로 인하여 음성 인식 소프트웨어에 대한 관심이 증대되고 있다.

음성 인식이란 자동적 수단에 의하여 음성으로부터 언어적 의미 내용을 식별하는 것이다. 구체적으로 음성 파형을 입력하여 단어나 단어열을 식별하고 의미를 추출하는 처리 과정이며, 크게 음성 분석, 음소 인식, 단어 인식, 문장 해석, 의미 추출의 5가지로 분류된다. 좁은 의미로는 음성 분석에서 단어 인식까지를 말하는 경우가 많다. 인간-기계 인터페이스 개선의 하나로 음성으로 정보를 입력하는 음성 인식과 음성으로 정보를 출력하는 음성 합성 기술의 연구 개발이 오랫동안 진행되어 왔다. 대형 장치를 필요로 하였던 음성 인식 장치와 음성 합성 장치를 대규모 집적 회로(LSI)의 발달에 따라 가로세로 수 mm 크기의 집적 회로 위에 실현할 수 있게 됨으로써 음성 입출력 장치가 실용화되었다.

현재 전화에 의한 은행 잔액 조회, 증권 시세 조회, 통신 판매의 신청, 신용 카드 조회, 호텔이나 항공기 좌석 예약 등에 사용된다. 그러나 이들 서비스는 제한된 수의 단어를 하나하나 떼어서 발음하는 음성을 인식하는 단어 음성 인식 장치를 사용한다. 음성 인식의 궁극적인 목표는 자연스러운 발성에 의한 음성을 인식하여 실행 명령어로서 받아들이거나 자료로서 문서에 입력하는 완전한 음성?텍스트 변환의 실현이다. 단지 단어를 인식할 뿐 아니라 구문 정보, 의미 정보, 작업에 관련된 정보와 지식 등을 이용하여 연속 음성 또는 문장의 의미 내용을 정확하게 추출하는 음성 이해 시스템을 개발하는 것이다. 이러한 시스템의 연구 개발이 전 세계에서 활발하게 진행되고 있다.

하지만 현재의 음성 인식 기술은 오류율이 낮지 않으며 이를 수정하기 위해서는 직접적인 타이핑이 필요하거나 임의의 수정 명령을 통한 수정만이 가능한 실정이다. 오류는 대체로 오류율에 의하여 원하는 문장과는 일부 다르게 출력이 되는데, 현재의 음성 인식 기술로는 최소 약 10%의 오류율이 발생한다. 즉, 적어도 10 단어로 이루어진 문장에서 한 단어 이상의 오류가 존재한다고 말할 수 있다.

이러한 오류를 수정하기 위하여 직접적인 타이핑을 통하여 수정을 함은 전적으로 음성 입력기만을 통해 입력을 할 수 없다는 것을 의미하고, 수정 명령을 통해 수정을 하게 되면 수정 목표의 선정 과정과 본래 의도한 단어가 무엇인지 결정하는 과정 등이 차례로 이루어져야 하므로 한 문장을 제대로 입력하는 데 적지 않은 시간이 소요되는 문제가 발생한다.

본 발명은 상술한 종래기술의 문제점을 극복하기 위한 것으로, 사용자의 발화 의도가 입력을 위한 것인지 수정을 위한 것인지 자동적으로 판단하고, 이러한 판단에 대한 검증 과정 및 수정 과정을 거치도록 하는, 음성 인식 장치 및 방법을 제공하는 것을 그 목적으로 한다.

본 발명의 일 측면에 따른 음성 처리 장치는, 사용자의 발화를 인식하여 인식 결과를 문자 형태로 출력하며, 사용자의 발화 의도 판단을 위한 자질 정보를 출력하는 음성 인식 모듈, 상기 음성 인식 모듈이 출력하는 자질 정보를 이용해 사용자의 발화 의도가 문자 입력을 위한 발화인지 기 입력된 문자의 수정을 위한 발화인지 판별하는 발화의도 판별 모듈, 및 상기 발화의도 판별 모듈이 출력하는 사용자의 발화 의도에 따라 문자 입력을 수행하는 문자입력 수행 모듈을 포함한다.

상기 음성 처리 장치는, 상기 음성 인식 모듈이 출력한 결과를 수신하고, 인식된 적어도 하나의 문자열 중 어느 부분에 오류가 있는지 예측하여 오류 예측 정보를 출력하는 오류 추출 모듈을 더 포함할 수 있고, 이때, 상기 발화 의도 판별 모듈은 상기 음성 인식 모듈과 더불어 상기 오류 추출 모듈이 출력하는 자질 정보를 이용해 사용자의 발화 의도를 판별할 수 있다.

상기 자질 정보는, 사용자 음성의 볼륨, 사용자 음성의 강세 패턴, 사용자의 발화 길이 중 적어도 하나를 포함하는 훈련 음성 자질, 및 현재 인식된 문장과 이전에 입력된 문장 간 발음열의 유사도, 및 문장 종결 여부 중 적어도 하나를 포함하는 문맥 자질을 포함할 수 있다.

상기 음성 처리 장치는, 수정을 위한 발화와 입력을 위한 발화에 대한 말뭉치 모음을 저장하는 훈련 말뭉치 데이터베이스를 더 포함할 수 있다.

본 발명의 바람직한 일 실시예에 따르면 상기 발화의도 판별 모듈은, 상기 훈련 말뭉치 데이터베이스에 저장된 말뭉치를 이용해 사용자의 발화가 입력 의도를 가진 발화인지 수정 의도를 가진 발화인지 판별 가능하도록 기 훈련된 상태이다.

상기 문자입력 수행 모듈은, 사용자의 수정 발화 의도를 입력받아 입력된 음성의 문맥 자질을 이용해, 기 입력된 적어도 하나의 문자열 중 사용자가 수정을 원하는 부분을 예측하여 설정하는 자동 수정목표 설정부를 포함한다.

사용자가 수정을 원하는 부분을 예측하는 데 사용되는 상기 문맥 자질은, 현재 인식된 문장과 이전에 입력된 문장 간 발음열의 유사도 및 기 입력된 적어도 하나의 문자열 내의 예측된 오류의 존재 여부 중 적어도 하나를 포함할 수 있다,

상기 문자입력 수행 모듈은, 상기 자동 수정목표 설정부에 의해 설정된 수정목표를 검증하고 검증 결과에 따라 입력, 대체, 수정 목표 변경, 수정 문장 변경, 취소의 동작 중 어떤 동작을 수행할 것인지 판단하는 사용자 검증 및 판단부를 더 포함할 수 있다.

상기 문자입력 수행 모듈은, 상기 사용자 검증 및 판단부의 판단에 따라 상기 자동 수정목표 설정부에 의해 설정된 수정목표를 수정하고, 사용자 선택에 따라 수정 목표의 구간 및 수정 목표의 위치 중 적어도 하나를 수정하여 설정 가능한 수동 수정목표 설정부를 더 포함할 수 있다.

상기 문자입력 수행 모듈은 또한, 사용자 검증 및 판단부의 판단에 따라 수정의 대상이 되는 목표 문자열을 수정 문자열로 대체하는 대체부 및 상기 사용자 검증 및 판단부의 판단에 따라 수정 목표의 문자열을 수정 입력된 문자열로 변경하는 수정문장 변경부를 더 포함할 수 있다.

본 발명의 다른 측면에 따른 음성 처리 방법은, 사용자의 발화를 인식하여 인식 결과를 문자 형태로 출력하며, 사용자의 발화 의도 판단을 위한 자질 정보를 출력하는 단계, 상기 사용자의 발화 의도 판단을 위한 자질 정보를 이용해 사용자의 발화 의도가 문자 입력을 위한 발화인지 기 입력된 문자의 수정을 위한 발화인지 판별하는 단계, 및 상기 판별된 사용자의 발화 의도에 따라 문자 입력을 수행하는 단계를 포함한다.

상기 음성 처리 방법은 상기 출력된 사용자의 발화 의도 판단을 위한 자질 정보를 이용해 인식된 적어도 하나의 문자열 중 어느 부분에 오류가 있는지 예측한 정보를 출력하는 단계를 더 포함하고, 상기 사용자의 발화 의도가 문자 입력을 위한 발화인지 기 입력된 문자의 수정을 위한 발화인지 판별하는 단계는, 상기 적어도 하나의 문자열 중 어느 부분에 오류가 있는지 예측한 정보를 상기 판별에 추가적으로 이용한다.

상기 판별된 사용자의 발화 의도에 따라 문자 입력을 수행하는 단계는, 사용자의 수정 발화 의도를 입력받아 입력된 음성의 문맥 자질을 이용해, 기 입력된 적어도 하나의 문자열 중 사용자가 수정을 원하는 부분을 예측하여 수정 목표를 설정하는 단계를 포함할 수 있다.

상기 판별된 사용자의 발화 의도에 따라 문자 입력을 수행하는 단계는, 상기 설정된 수정목표를 검증하고 검증 결과에 따라 입력, 대체, 수정 목표 변경, 수정 문장 변경, 취소 중 어떤 동작을 수행할 것인지 판단하는 단계를 더 포함할 수 있다.

상기 판별된 사용자의 발화 의도에 따라 문자 입력을 수행하는 단계는, 상기 검증 결과 상기 설정된 수정 목표를 변경해야 하는 것으로 판단된 경우, 상기 설정된 수정 목표를 변경하는 단계를 더 포함할 수 있다.

상기 판별된 사용자의 발화 의도에 따라 문자 입력을 수행하는 단계는, 상기 검증 결과 상기 설정된 수정 목표를 입력된 새로운 문자열로 대체해야 하는 것으로 판단된 경우, 수정의 대상이 되는 목표 문자열을 수정 문자열로 대체하는 단계를 더 포함할 수 있다.

상기 판별된 사용자의 발화 의도에 따라 문자 입력을 수행하는 단계는, 상기 검증 결과 상기 설정된 수정 목표가 변경되어야 하는 것으로 판단된 경우, 상기 설정된 수정 목표의 문자열을 사용자에 의해 수정 입력된 문자열로 변경하는 단계를 더 포함할 수 있다.

본 발명의 또 다른 측면에 따른 음성 워드 프로세서는, 사용자의 발화를 인식하여 인식 결과를 문자 형태로 출력하며, 사용자의 발화 의도 판단을 위한 자질 정보를 출력하는 음성 인식 모듈, 상기 음성 인식 모듈이 출력한 결과를 수신하여 인식된 적어도 하나의 문자열 중 어느 부분에 오류가 있는지 예측하여 오류 예측 정보를 출력하는 오류 추출 모듈, 기 저장된 수정 발화와 입력 발화에 대한 훈련 말뭉치를 이용해 사용자의 발화가 입력 의도를 가진 발화인지 수정 의도를 가진 발화인지 판별 가능하도록 훈련된 발화의도 판별 모듈로서, 상기 음성 인식 모듈이 출력하는 사용자의 발화 의도 판단을 위한 자질 정보 및 상기 오류 추출 모듈이 출력하는 오류 예측 정보를 이용해 사용자의 발화 의도를 판별하는 발화의도 판별 모듈, 및 상기 발화의도 판별 모듈이 출력하는 사용자의 발화 의도에 따라 문자 입력을 수행하는 문자입력 수행 모듈을 포함한다.

본 발명은 기존에 음성 인식 장치를 통해 잘못 입력된 문장을 일일이 수동으로 수정하던 것을 개선하고자 하는 것으로, 음성만을 통한 입력과 동시에 특별한 수정 명령 없이 시스템이 자동으로 해당 발화가 수정을 위한 발화라는 것을 인지하여 효과적인 입력 수정을 가능케 한다.

도 1은 본 발명에 따른 음성 인식에 대한 개념을 설명하고 있는 도면.
도 2는 본 발명의 바람직한 일 실시예에 따른 음성 처리 장치의 블록 구성을 나타낸 도면.
도 3은 본 발명의 바람직한 일 실시예에 따른 문자 입력 수행 모듈의 구체적인 블록 구성을 나타낸 도면.
도 4는 본 발명의 바람직한 일 실시예에 따른 음성 인식 및 자동 문자 입력 방법의 순차적인 동작 흐름을 나타낸 도면.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다.

그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

본 명세서에서 사용된 용어 "문자열"은 적어도 하나의 문자가 연속되는 형태의 일반적인 의미로 사용되었으며, 컴퓨터 등에서 다루어지는 데이터로서 일련의 문자 또는 코드로서의 한정적인 의미로 제한되지는 않음을 밝혀둔다.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.

도 1은 본 발명에 따른 음성 인식에 대한 개념을 설명하고 있는 도면이다.

도 1에 도시된 그림을 살펴보면, 본 발명에 따르는 경우 일반적인 음성 인식의 기능에 추가적으로, 특별한 수정명령이 없이 사용자가 입력을 원하는 문장 또는 단어를 그대로 발화하면 해당 발화가 이후 입력을 원하는 발화인지 이전에 입력된 문장에 대해 수정을 원하는 문장인지를 자동으로 판단한다. 판단 이후에는 수정 목표를 설정하는 과정, 본래 의도한 단어를 결정하는 과정이 일괄 처리됨으로써, 번거로운 수작업 없이도 음성으로만 문자 입력을 수행할 수 있다.

즉, 본 발명은 음성 인식 장치를 통해 입력하는 음성 워드 프로세서를 위한 문장 수정을 음성을 통해 효과적으로 해결하기 위한 것으로서, 기존에 음성 인식 장치를 통해 잘못 입력된 문장을 일일이 수동으로 수정하던 것을 개선하고자 하며, 음성만을 통한 입력과 동시에 특별한 수정 명령 없이 시스템이 자동으로 해당 발화가 수정을 위한 발화라는 것을 인지하여 효과적인 입력 수정을 가능케 한다.

보다 구체적으로, 본 발명의 바람직한 일 실시예에 따르면, 사용자의 발화 의도에 대해 이후 입력을 원하는 발화인지 이전 입력된 문장에 대한 수정을 원하는 발화인지를 먼저 판단하여 작업을 수행하도록 한다. 발화 의도 판단을 위해 수정 발화와 입력 발화를 모아 놓은 말뭉치를 통해 사전에 발화의도 판별 모듈을 충분히 학습시킨다. 이후, 해당 작업에 대한 판단이 이루어진 후 사용자에 의한 해당 작업의 검증이 이루어지도록 한다. 본 발명의 또 다른 바람직한 일 실시예에 따르면, 검증 과정에서 작업 수정 및 수정 목표의 수정, 수정 문장의 수정 등이 사용자의 선택 하에 이루어질 수 있도록 한다.

본 발명에 따른 음성 처리 장치는 음성 입력 및 자동 수정이 가능한 음성 워드 프로세서의 형태로 나타날 수 있다.

이하, 무결절적 수정 상태 돌입을 통한 음성 입력 및 수정 방법을 통한 본 발명의 바람직한 일 실시예에 따른 음성 처리 장치를 도 2 및 도 3을 통해 좀더 상세히 살펴보기로 한다.

도 2는 본 발명의 바람직한 일 실시예에 따른 음성 처리 장치의 블록 구성을 나타낸다.

도 2에 나타난 바와 같이, 본 발명의 바림직한 일 실시예에 따른 음성 처리 장치는 음성 인식 모듈(100), 오류 추출 모듈(200), 발화 의도 판별 모듈(300), 훈련 말뭉치 데이터베이스(400), 및 문자입력수행 모듈(500)을 포함하여 구성될 수 있다.

음성 인식 모듈(100)은 사용자의 발화를 입력받아 이를 인식하고, 인식된 문자, 그리고 사용자 의도가 수정인지 입력인지를 파악할 수 있는 자질, 즉 훈련 음성 자질 및 문맥 자질을 함께 결과로 출력한다.

오류 추출 모듈(200)은 음성 인식 모듈(100)이 출력한 결과를 수신하여 문장의 어느 부분에 오류가 있을 것인지 예측하고, 이 정보를 발화의도 판별 모듈(300)로 전달한다.

발화의도 판별 모듈(300)은 바람직하게는, 수정 발화와 입력 발화의 모음으로 구성된 훈련 말뭉치 데이터베이스(400)를 통해 사용자의 발화가 입력 의도를 가진 발화인지 수정 의도를 가진 발화를 판별할 수 있도록 훈련된 상태이다.

훈련 말뭉치 데이터베이스(400)는 입력을 위한 발화에 대한 말뭉치와 수정을 위한 발화에 대한 말뭉치가 구분되도록 훈련 말뭉치를 저장할 수 있다.

여기서, 훈련 음성 자질의 바람직한 실시예로는 사용자 음성의 입력 볼륨, 사용자 강세 패턴, 사용자 발화 길이 등을 들 수 있으며, 훈련 말뭉치를 이용하여 훈련된다. 문맥 자질의 바람직한 실시예로는 현재 인식된 문장과 이전 입력 문장 간의 발음열의 유사도, 문장 종결 여부 및 오류 추출 모듈(200)로부터 출력된 오류 예측 정보 등을 들 수 있다.

예를 들자면, 1차로 인식된 사용자의 발화가 "나는 학교를 간다"로 판정된 경우, 이후에 이어진 사용자의 발화가 "나는 학교에 간다"로 인식된 경우 1차 인식된 발화와 이후의 발화가 매우 유사한 형태를 띄므로, 이후의 발화는 수정을 위한 발화로 판단될 것이다. 또한, 예를 들어 위의 1차적인 사용자의 발화 이후에 이어진 사용자의 발화가 '아! 학교에"라는 형태로 인식되었다면 "아" 등의 감탄사 이후에 이어진 단어를 수정하기 위한 발화로 판단될 수 있다. 뿐만 아니라, 사용자의 톤이 높아지면서 "학교에"를 반복 입력하는 경우 등을 수정을 위한 발화로 판단할 수 있을 것이다.

앞서 언급된 훈련 음성 자질 및 문맥 자질은 음성 인식 모듈(100)과 오류 추출 모듈(200)로부터 출력된다. 발화 의도 판별 모듈(300)은 음성 인식 모듈(100)과 오류 추출 모듈(200)가 출력하는 정보를 종합적으로 판단하여, 수정을 위한 발화인지 입력을 위한 발화인지 판별한다.

문자입력수행 모듈(500)은 발화의도 판별 모듈(300)의 출력, 즉 판별된 발화 의도에 따라 사용자 발화 입력에 따른 문자 입력을 수행하거나 문장 수정 의도에 따른 후속 절차 및 그에 따른 문자 입력을 수행하게 된다. 문자입력수행 모듈(500)과 관련하여서는 아래 도 3을 통해 좀더 자세히 살펴보기로 한다.

도 3은 본 발명의 바람직한 일 실시예에 따른 문자 입력 수행 모듈의 구체적인 블록 구성을 나타낸다.

도 3에 도시된 바와 같이, 본 발명의 바람직한 일 실시예에 따른 문자 입력 수행 모듈은 문자 입력부(510), 자동 수정목표 설정부(520), 사용자 검증 및 판단부(530), 대체부(540), 수동 수정목표 설정부(550), 수정문장 변경부(560)를 포함하여 구성된다.

도 2를 통해 살펴본 발화 의도 판별 모듈(300)이 출력하는 사용자의 발화 의도는 문자 입력부(510) 또는 자동 수정목표 설정부(520)로 입력된다.

발화 의도가 수정이라고 판단된 경우, 수정 발화 의도는 자동 수정목표 설정부(520)로 입력되고, 자동 수정목표 설정부(520)는 앞서 입력된 문장/단어 중 사용자가 어느 부분의 수정을 원하는지 예측을 수행한다.

여기서, 예측하는 데 필요한 자질의 바람직한 실시예로는 발음열 유사도, 예측된 오류의 존재 여부 등을 들 수 있으며, 자동 수정목표 설정부(520)는 이러한 자질을 이용해 사용자가 수정을 의도하는 위치를 자동으로 예측, 설정한다.

사용자 검증 및 판단부(530)에서는 자동 수정목표 설정부(520)에 의해 자동 설정된 수정 목표가 정확한지, 사용자 명령을 통해 다시 한번 확인, 즉, 자동 수정목표 설정 작업이 정확하게 수행되었는지를 검증한다. 바람직하게는, 사용자 검증 및 판단부(530)는 명령을 음성으로 입력받기 위한 명령어 음성 인식기를 포함한다.

이 과정에서 사용자로부터 받을 수 있는 명령으로, 본 발명에서는 크게 5 가지의 바람직한 실시예를 고려한다. 즉, 본 발명에 따른 사용자 명령에 대한 바람직한 실시예로 입력, 대체, 수정 목표 변경, 수정 문장 변경, 취소 명령을 들 수 있다. 사용자 검증 및 판단부(530) 사용자로부터 명령을 수신하면 어떤 명령인지 판단하고, 해당 작업을 수행하는 블록의 동작을 활성화하여 해당 작업을 수행하도록 제어한다.

차례로 설명하자면, 대체부(540)는 사용자 검증부가 수신한 사용자 명령이 문자의 대체라고 판별되었을 때, 수정의 대상이 되는 목표를 수정 문장으로 대체하는 역할을 담당한다.

수동 수정목표 설정부(550)는 자동으로 설정된 수정 목표를 수정하는 역할을 담당하는데, 수정 목표의 구간을 늘리거나 줄이고, 수정 목표의 위치를 앞이나 뒤로 움직이는 기능도 수행할 수 있다. 이러한 기능을 음성으로 해결하기 위해, 바람직하게는 수동 수정목표 설정부(550)는 명령어 인식을 위한 음성 인식기를 포함한다.

수정문장 변경부(560)에서는 수정 목표의 문장 또는 단어를 수정 입력된 문장 또는 단어로 변경하는 역할을 담당한다. 수정 입력을 의도한 것으로 인식된 문장이 올바르지 않은 경우에 수정문장 변경부(560)가 동작을 수행하게 된다. 본 발명의 바람직한 실시예에 따르면, 수정문장 변경부(560)는 수정 문장에 대한 다른 후보를 제시하거나 재발화의 명령을 수행할 수 있고, 재발화를 위한 음성 인식기와 명령을 위한 명령어 음성 인식기가 포함되어 있다.

도 4는 본 발명의 바람직한 일 실시예에 따른 음성 인식 및 자동 문자 입력 방법의 순차적인 동작 흐름을 나타낸다.

즉, 도 4는 본 발명의 바람직한 일 실시예에 따른 음성 처리 장치 또는 음성 워드프로세서가 입력과 수정을 자동으로 판단하고 문장을 입력해 나가는 흐름도를 나타낸다.

본 발명에 따라 음성 워드프로세서를 위한 무결절적 수정 상태 돌입을 통한 음성 입력 및 수정 방법을 수행하기 위해서는 도 4에 나타난 바와 같이, 우선 사용자가 발화한 음성을 입력받고(S401), 발화 의도를 판단한다(S402).

발화 의도란, 사용자가 발화한 문장의 의미를 말한다. 본 발명의 바람직한 일 실시예에 따른 음성 워드프로세서에 대한 입력으로서, 해당 문자열이 그저 입력을 위한 문자열인지 이전에 입력되었던 문자열에 대한 수정을 요구하는 문자열인지를 판별하는 것이다.

입력을 위한 발화라면 문단/문장의 마지막 커서 부분에 문자를 입력하고( S404), 다시 사용자의 발화를 기다린다(S401).

수정을 원하는 발화라고 판단될 시에는(S402의 수정), 사용자에 의한 수정 의도 검증 단계로 넘어간다(S403). 수정 의도에 대한 검증을 하는 이유는, 시스템이 수정을 원하는 발화라고 판단했더라도 그 작업이 틀릴 가능성이 존재하기 때문이다. 이 과정에서 사용자로부터 받을 수 있는 명령으로, 본 발명에서는 크게 5 가지의 바람직한 실시예를 고려한다. 즉, 본 발명에 따른 사용자 명령에 대한 바람직한 실시예로 입력, 대체, 수정 목표 변경, 수정 문장 변경, 취소 명령을 들 수 있다. 사용자로부터 해당 명령을 수신하면, 해당 작업의 과정으로 넘어가 사용자 명령에 따른 다양한 작업을 처리하게 된다.

차례대로 살펴보자면, 우선 사용자 검증 결과 발화 의도가 문자 입력 의도 혹은 취소인지 판단한다(S403). 사용자로부터 "취소"라는 명령을 받은 경우에는 (S403의 취소), 즉시 수정 작업을 취소하고 다시 사용자의 발화를 기다린다(S401).

반대로, 입력이라는 명령을 받았다면 입력을 위한 발화라고 판단한 것과 동일한 작업(S404)을 수행한 후 다시 사용자의 발화를 기다린다(S401).

입력 의도도 아니고 취소도 아닌 경우(S403의 아니오)에는, 수정 문장 또는 수정 목표를 변경하고자 하는 의도인지 판단한다(S405). 판단 결과, 사용자가 수정 문장 또는 수정 목표를 변경하고자 하는 것으로 판단한 경우(S405의 예), 수정 문장 또는 수정 목표를 변경하고(S407), 수정 문장/목표를 변경한 후에는 다시 검증 과정으로 돌아간다(S403).

수정 문장 또는 수정 목표를 변경하고자 하는 것이 아니라고 판단한 경우(S405의 아니오)에는, 사용자로부터 "대체"라는 명령을 받은 것으로 판단하여 새로이 입력된 문자로 기존의 문자를 대체하여 입력한(S406) 후, 다시 사용자의 발화를 기다린다(S401).

도 4를 통해 상술한 과정을 진행하며 사용자는 본 발명에 따른 음성 워드프로세서에 대한 입력을 지속할 수 있다.

도 4에서는 도시의 편의상 사용자 명령을 판단하는 동작 흐름을 시간 순서에 따라 단계적으로 설명하고 있으나, 사용자 명령에 의한 수정 의도 검증 작업 후, 검증 결과에 따라 입력, 대체, 수정 목표 변경, 수정 문장 변경, 및 취소 중 하나의 명령이 택일적으로 이루어질 수 있음은 물론이다.

상술한 바와 같이, 본 발명은 기존의 음성 입력기를 통한 음성 입력에서 발생한 오류에 대해서 그를 수정하기 위한 발화와 이어지는 입력을 원하는 발화를 구별할 수 있다.

이와 같이 본 발명은, 직접적인 타이핑이나 수정 명령을 통한 수정이 아닌 본래의 입력을 하는 발화와 동일한 발화를 함으로써 편리하게 문장을 수정할 수 있다. 지속적으로 입력을 원하는 발화를 함으로써 어떤 문장을 수정할 것인가, 어떻게 수정할 것인가에 대한 직접적인 지시 없이 효과적으로 원하는 문장을 입력할 수 있는 것이다. 이 과정에서 자동적으로 수정 목표를 선정할 수 있고, 어떤 문장으로 수정할 것인지를 한 번에 확정할 수 있다. 이후 사용자가 작업에 대한 검증과정을 통하여 시스템의 신뢰도를 높일 수 있다.

이상 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

Claims

사용자의 발화를 인식하여 인식 결과를 문자 형태로 출력하며, 사용자의 발화 의도 판단을 위한 자질 정보를 출력하는 음성 인식 모듈;
상기 음성 인식 모듈이 출력하는 자질 정보를 이용해 사용자의 발화 의도가 문자 입력을 위한 발화인지 기 입력된 문자의 수정을 위한 발화인지 판별하는 발화의도 판별 모듈; 및
상기 발화의도 판별 모듈이 출력하는 사용자의 발화 의도에 따라 문자 입력을 수행하는 문자입력 수행 모듈을 포함하되,
상기 자질 정보는, 사용자 음성의 볼륨, 사용자 음성의 강세 패턴, 사용자의 발화 길이 중 적어도 하나를 포함하는 훈련 음성 자질, 및 현재 인식된 문장과 이전에 입력된 문장 간 발음열의 유사도, 및 문장 종결 여부 중 적어도 하나를 포함하는 문맥 자질을 포함하는, 음성 처리 장치.
청구항 1에 있어서,
상기 음성 인식 모듈이 출력한 결과를 수신하고, 인식된 적어도 하나의 문자열 중 어느 부분에 오류가 있는지 예측하여 오류 예측 정보를 출력하는 오류 추출 모듈을 더 포함하며,
상기 발화 의도 판별 모듈은 상기 음성 인식 모듈이 출력하는 자질 정보 및 상기 오류 추출 모듈이 출력하는 오류 예측 정보를 이용해 사용자의 발화 의도를 판별하는, 음성 처리 장치.
삭제
청구항 1에 있어서,
수정을 위한 발화와 입력을 위한 발화에 대한 말뭉치 모음을 저장하는 훈련 말뭉치 데이터베이스를 더 포함하는, 음성 처리 장치.
청구항 4에 있어서,
상기 발화의도 판별 모듈은,
상기 훈련 말뭉치 데이터베이스에 저장된 말뭉치를 이용해 사용자의 발화가 입력 의도를 가진 발화인지 수정 의도를 가진 발화인지 판별 가능하도록 기 훈련된 상태인 것을 특징으로 하는, 음성 처리 장치.
청구항 1에 있어서,
상기 문자입력 수행 모듈은,
사용자의 수정 발화 의도를 입력받아 입력된 음성의 문맥 자질을 이용해, 기 입력된 적어도 하나의 문자열 중 사용자가 수정을 원하는 부분을 예측하여 설정하는 자동 수정목표 설정부를 포함하는, 음성 처리 장치.
청구항 6에 있어서,
상기 문맥 자질은,
현재 인식된 문장과 이전에 입력된 문장 간 발음열의 유사도 및 기 입력된 적어도 하나의 문자열 내의 예측된 오류의 존재 여부 중 적어도 하나를 포함하는 음성 처리 장치.
청구항 6에 있어서,
상기 문자입력 수행 모듈은,
상기 자동 수정목표 설정부에 의해 설정된 수정목표를 검증하고 검증 결과에 따라 입력, 대체, 수정 목표 변경, 수정 문장 변경, 취소의 동작 중 어떤 동작을 수행할 것인지 판단하는 사용자 검증 및 판단부를 더 포함하는, 음성 처리 장치.
청구항 8에 있어서,
상기 문자입력 수행 모듈은,
상기 사용자 검증 및 판단부의 판단에 따라 상기 자동 수정목표 설정부에 의해 설정된 수정 목표를 수정하고, 사용자 선택에 따라 수정 목표의 구간 및 수정 목표의 위치 중 적어도 하나를 수정하여 설정 가능한 수동 수정목표 설정부를 더 포함하는, 음성 처리 장치.
청구항 8에 있어서,
상기 문자입력 수행 모듈은,
상기 사용자 검증 및 판단부의 판단에 따라 수정의 대상이 되는 목표 문자열을 수정 문자열로 대체하는 대체부; 및
상기 사용자 검증 및 판단부의 판단에 따라 수정 목표의 문자열을 사용자에 의해 수정 입력된 문자열로 변경하는 수정문장 변경부를 더 포함하는, 음성 처리 장치.
사용자의 발화를 인식하여 인식 결과를 문자 형태로 출력하며, 사용자의 발화 의도 판단을 위한 자질 정보를 출력하는 단계;
상기 사용자의 발화 의도 판단을 위한 자질 정보를 이용해 사용자의 발화 의도가 문자 입력을 위한 발화인지 기 입력된 문자의 수정을 위한 발화인지 판별하는 단계; 및
상기 판별된 사용자의 발화 의도에 따라 문자 입력을 수행하는 단계를 포함하되,
상기 자질 정보는, 사용자 음성의 볼륨, 사용자 음성의 강세 패턴, 사용자의 발화 길이 중 적어도 하나를 포함하는 훈련 음성 자질, 및 현재 인식된 문장과 이전에 입력된 문장 간 발음열의 유사도, 및 문장 종결 여부 중 적어도 하나를 포함하는 문맥 자질을 포함하는, 음성 처리 방법.
청구항 11에 있어서,
상기 출력된 사용자의 발화 의도 판단을 위한 자질 정보를 이용해 인식된 적어도 하나의 문자열 중 어느 부분에 오류가 있는지 예측한 정보를 출력하는 단계를 더 포함하고,
상기 사용자의 발화 의도가 문자 입력을 위한 발화인지 기 입력된 문자의 수정을 위한 발화인지 판별하는 단계는, 상기 적어도 하나의 문자열 중 어느 부분에 오류가 있는지 예측한 정보를 상기 판별에 추가적으로 이용하는 것을 특징으로 하는, 음성 처리 방법.
삭제
청구항 11에 있어서,
상기 판별된 사용자의 발화 의도에 따라 문자 입력을 수행하는 단계는,
사용자의 수정 발화 의도를 입력받아 입력된 음성의 문맥 자질을 이용해, 기 입력된 적어도 하나의 문자열 중 사용자가 수정을 원하는 부분을 예측하여 수정 목표를 설정하는 단계를 포함하는, 음성 처리 방법.
청구항 14에 있어서,
상기 문맥 자질은,
현재 인식된 문장과 이전에 입력된 문장 간 발음열의 유사도 및 기 입력된 적어도 하나의 문자열 내의 예측된 오류의 존재 여부 중 적어도 하나를 포함하는, 음성 처리 방법.
청구항 14에 있어서,
상기 판별된 사용자의 발화 의도에 따라 문자 입력을 수행하는 단계는,
상기 설정된 수정 목표를 검증하고 검증 결과에 따라 입력, 대체, 수정 목표 변경, 수정 문장 변경, 취소의 동작 중 어떤 동작을 수행할 것인지 판단하는 단계를 더 포함하는, 음성 처리 방법.
청구항 16에 있어서,
상기 판별된 사용자의 발화 의도에 따라 문자 입력을 수행하는 단계는,
상기 검증 결과 상기 설정된 수정 목표를 변경해야 하는 것으로 판단된 경우, 상기 설정된 수정 목표를 변경하는 단계를 더 포함하는, 음성 처리 방법.
청구항 16에 있어서,
상기 판별된 사용자의 발화 의도에 따라 문자 입력을 수행하는 단계는,
상기 검증 결과 상기 설정된 수정 목표를 입력된 새로운 문자열로 대체해야 하는 것으로 판단된 경우, 수정의 대상이 되는 목표 문자열을 수정 문자열로 대체하는 단계를 더 포함하는, 음성 처리 방법.
청구항 16에 있어서,
상기 판별된 사용자의 발화 의도에 따라 문자 입력을 수행하는 단계는,
상기 검증 결과 상기 설정된 수정 목표가 변경되어야 하는 것으로 판단된 경우, 상기 설정된 수정 목표의 문자열을 사용자에 의해 수정 입력된 문자열로 변경하는 단계를 더 포함하는, 음성 처리 방법.
사용자의 발화를 인식하여 인식 결과를 문자 형태로 출력하며, 사용자의 발화 의도 판단을 위한 자질 정보를 출력하는 음성 인식 모듈;
상기 음성 인식 모듈이 출력한 결과를 수신하여 인식된 적어도 하나의 문자열 중 어느 부분에 오류가 있는지 예측하여 오류 예측 정보를 출력하는 오류 추출 모듈;
기 저장된 수정 발화와 입력 발화에 대한 훈련 말뭉치를 이용해 사용자의 발화가 입력 의도를 가진 발화인지 수정 의도를 가진 발화인지 판별 가능하도록 훈련된 발화의도 판별 모듈로서, 상기 음성 인식 모듈이 출력하는 사용자의 발화 의도 판단을 위한 자질 정보 및 상기 오류 추출 모듈이 출력하는 오류 예측 정보를 이용해 사용자의 발화 의도를 판별하는 발화의도 판별 모듈; 및
상기 발화의도 판별 모듈이 출력하는 사용자의 발화 의도에 따라 문자 입력을 수행하는 문자입력 수행 모듈을 포함하는 음성 워드프로세서.