KR102091684B1

KR102091684B1 - 음성 인식 텍스트 수정 방법 및 이 방법을 구현한 장치

Info

Publication number: KR102091684B1
Application number: KR1020150141751A
Authority: KR
Inventors: 김민철
Original assignee: 네이버 주식회사
Priority date: 2015-10-08
Filing date: 2015-10-08
Publication date: 2020-03-23
Also published as: KR20160000449A

Abstract

본 발명에 따른 음성 인식 텍스트 수정 방법은 수정 목표 텍스트를 입력하는 단계와, 수정 목표 텍스트가 표시되는 단계와, 사용자의 수정 명령에 따라 상기 수정 목표 텍스트와 음성 인식에 의하여 상기 수정 목표 텍스트 이전에 입력된 텍스트와의 연관성을 계산하는 단계와, 상기 연관성 계산 단계에서의 연관성 계산 결과 연관성 계산 점수가 설정된 조건을 만족하는 상기 수정 목표 텍스트 이전에 입력된 텍스트가 수정 후보 텍스트로 선정되고,　수정 후보 텍스트가 수정 목표 텍스트로 치환 입력되는 단계를 포함한다. 상기 수정 목표 텍스트 입력 단계에서는 수정 목표 텍스트가 사용자에 의한 수정 대상 텍스트의 선택 없이 입력된다. 상기 수정 목표 텍스트 표시 단계에서는 수정 목표 텍스트가 이전에 입력된 텍스트에 연이어 표시된다. 상기 연관성 계산 단계에서는 발음 유사에 기반한 연관성 점수 계산 단계가 포함되고,　수정 목표 텍스트의 단어 개수에 기반하여 연관성 계산 범위가 설정되고,　설정된 범위 내에서 한 단어 또는 둘 이상의 연속된 단어의 조합인 텍스트가 수정 목표 텍스트와 대비가 실행된다.

Description

음성 인식 텍스트 수정 방법 및 이 방법을 구현한 장치{VOICE RECOGNITION TEXT CORRECTION METHOD AND A DEVICE IMPLEMENTING THE METHOD}

본 발명은 음성 인식에 의하여 사용자가 음성으로 구술한 정보를 텍스트화 하는 기술에 관련된다.　

최근 스마트폰에서는 애플의 시리(Siri), 구글 보이스, 삼성전자 S보이스 등 음성 인식 기술이 대중화되고 있으며, 스마트워치나 구글 글래스와 같은 웨어러블 장치에서는 음성 인식을 가장 주요한 문자 입력 수단으로 활용할 것으로 예상된다. 음성 인식 기술은 오래 전부터 개발되어 온 기술임에도 불구하고, 정확한 음성 인식을 통하여 텍스트로 치환되어 입력되는데 있어서 아직도 오류가 다수 발생하고 있다.

음성 인식으로 입력을 행하면, 텍스트로 치환되어 이것이 사용자에게 보여지게 되는데, 인식된 텍스트가 의도와 다르거나 오류가 있는 경우에 이를 수정해야 하고 현재 다음과 같은 방법으로 수정 동작을 진행한다. 첫째, 키보드 입력 모드로 전환하여 기존 키보드 입력 수정 방법과 동일하게 백스페이스 키를 통하거나 커서 이동을 통하여 입력된 텍스트의 일부를 수정한다. 둘째, 음성 인식 모드상에서 삭제 버튼을 눌러 구술된 단위로 한번에 입력된 텍스트 전체를 삭제하고, 구술을 다시 행하여 재입력하는 방법으로 이전의 오류를 수정한다.

이러한 수정 동작에 있어서, 키보드 입력으로 복귀하는 방법은 작은 크기의 터치 스크린 상에서 정확한 커서 이동 동작을 수행하거나 백스페이스 키를 복수회로 눌러 입력하여 이미 입력된 텍스트를 지우고 다시 입력하는 등 번거로운 동작이 수반될 수 밖에 없다. 또한, 구술된 단위로 다시 입력하는 것은 잘못 인식된 텍스트 뿐만 아니라 인식에 문제가 없는 부분까지 다시 입력해야 하는 측면에서 비효율적이다.

구술을 다시 반복하여 전체 텍스트를 다시 인식하여야 하는 것이 아니라 음성 인식된 텍스트 중 일부 텍스트를 수정하는 기술로 한국 전자통신 연구원의 한국 특허출원 제10-2010-0113825호가 있다.　　이 기술에서는 음성 인식된 텍스트 중 일부를 터치하면 장치가　수정 후보들을 사용자에게 보여주고　표시된 수정후보 중 어느 하나를 선택하면 수정 입력이 되는 방식이다.　　이 기술에서는 수정 후보를 표시함에 있어서 사용자의 의도에 최대한 근접한 후보들을 선정하는 것이 중요하다.　　사용자가 실제 입력을 의도한 텍스트가 장치가 추천한 수정 후보들에 존재하지 않으면,　이 방식으로는 수정이 불가능하다.　　이러한 경우,　사용자는 키보드 입력 모드로 전환하여 인식 오류가 난 텍스트로 커서를 이동시키고,　이를 삭제한 후 재입력하는 번거로운 방식을 사용해야 한다.

또 다른 종래기술로 포항공과대학의 한국 등록특허 10-1197010호가 있다. 이 기술은 사용자의 음성 구술을 인식하여 인식 결과를 텍스트로 출력하는 보이스 인식 기술이며, 사용자의 음성 구술이 텍스트 추가 입력을 위한 것인지, 아니면 이미 입력된 텍스트의 수정을 위한 것인지를 판단하는 정보를 출력하는데 특징이 있다. 이 기술은 특별한 수정 명령 없이 시스템이 자동으로 음성 인식에 의하여 입력된 텍스트의 수정을 가능케 하는 것을 목적으로 한다. 이 기술에서는 나름의 방식으로 텍스트 수정을 위한 사용자의 음성 구술을 텍스트 추가 입력을 위한 음성 구술과 구별하고 있지만, 이러한 구별의 정확성은 현실적으로 만족스럽지 못하다. 구별의 정확성이 떨어져서 텍스트 수정을 위한 입력이 텍스트 추가 입력으로 인식된다던가 그 역의 경우에는 오히려 수정되어야 하는 텍스트가 늘어나는 결과가 초래되어 사용자 불편이 매우 커지는 큰 문제가 있다.

본 발명은 상술한 바와 같은 종래기술의 문제점을 인식한 것에서 출발한다.　　본 발명은 상기 포항공과대학의 기술에서와 달리 사용자가 수정 명령을 직접 내리는 방식을 택하여 텍스트 수정의 경우와 텍스트 추가 입력의 경우를 오류 없이 명확히 구분하면서, 수정 명령에 따른 수정 동작에 있어서 사용자의 편의성을 최대한으로 할 수 있는 수정 방법 및 이 방법을 구현한 장치를 제공하는 것을 목적으로 한다.

본 발명에 따른 음성 인식 텍스트 수정 방법은 구체적으로 다음의 경우를 포함한다.

먼저,　음성 인식으로 입력 중인 텍스트를 키보드 입력에 의하여 수정하는 방법이다. (제1 케이스)

다음으로,　음성 인식으로 입력 중인 텍스트를 음성 인식에 의하여 수정하는 방법이다. (제2 케이스)

마지막으로,　키보드로 입력 중인 텍스트를 음성 인식에 의하여 수정하는 방법이다. (제3 케이스)

키보드로 입력 중인 텍스트를 키보드 입력에 의하여 수정하는 것은 수정 대상 텍스트와 수정 목표 텍스트 중 어느 것도 음성 인식에 의하여 입력되지 않으므로 본 발명의 범주에서 제외한다.　　

즉,　본 발명은 수정 대상 텍스트와 수정 목표 텍스트 중 어느 하나 또는 둘 모두를 음성 인식에 의하여 입력하는 것을 대상으로 한다.　　

본 명세서에서 사용되는 수정 대상 텍스트란 용어는 음성 인식 또는 키보드 입력에 의하여 장치에 입력된 텍스트이면서 사용자의 의도와 달리 입력된 오류,　즉 수정되어야 할 대상을 포함하는 텍스트를 의미한다.　　본 명세서에서 사용되는 수정 목표 텍스트란 용어는 상기 수정되어야 할 대상,　즉 수정 대상 텍스트의 원래 사용자 의도에 맞는 텍스트 형태로서,　사용자의 수정 의도에 따라 입력된 텍스트이면서, 본 발명에 따라 수정 대상 텍스트와 치환되는 텍스트이다.

먼저,　수정 대상 텍스트가 음성 인식으로 입력된 경우의 본 발명에 따른 제1 수단에 대해 설명한다. 수정 대상 텍스트가 음성 인식으로 입력된 경우, 수정 목표 텍스트는 음성 인식 또는 키보드 입력으로 입력될 수 있다. 즉, 상기 제1 및 제2 케이스가 이에 해당한다.

제1 및 제2 케이스에 해당하는 본 발명의 음성 인식 텍스트 수정 방법은 수정 목표 텍스트를 입력하는 단계와,　수정 목표 텍스트가 표시되는 단계와,　사용자에 의한 수정 명령에 따라 상기 수정 목표 텍스트와 음성 인식에 의하여 상기 수정 목표 텍스트 이전에 입력된 텍스트와의 연관성을 계산하는 단계와,　상기 연관성 계산 단계에서의 연관성 계산 결과 연관성 계산 점수가 설정된 조건을 만족하는 상기 수정 목표 텍스트 이전에 입력된 텍스트가 수정 후보 텍스트로 선정되고,　수정 후보 텍스트가 수정 목표 텍스트로 치환 입력되는 단계를 포함한다.

*상기 수정 목표 텍스트 입력 단계에서는 음성 인식에 의해 이미 장치에 입력된 텍스트 중 어떤 텍스트를 수정하고자 하는 지에 대한 사용자에 의한 지정이 이루어지지 않은 채 음성 인식 또는 키보드로 수정 목표 텍스트의 입력이 이루어진다.

상기 수정 목표 텍스트의 표시 단계에서 수정 목표 텍스트는 이미 장치에 입력된,　오류를 포함한 텍스트에 연이어서 표시될 수 있다.

상기 연관성 계산 단계에서는 발음 유사에 기반한 연관성 점수 계산 단계가 포함되고,　수정 목표 텍스트의 단어 수 또는 음절 수를 포함하는 텍스트 단위화 기준에 기반하여 연관성 계산 범위가 설정된다.　　이러한 범위 설정 방식은, 후술하는 실시예에서 구체적으로 설명되듯이,　수정 목표 텍스트의 단어 개수와 동일한 개수의 단어로 이루어진 또는 수정 목표 텍스트의 음절 개수와 동일한 음절 개수의 음절로 이루어진 범위를 의미하는 것이 아니다.　　수정 목표 텍스트의 단어 개수　또는 음절 개수 +-1,　또는　+-2,　또는 그 이외의 적절한 범위의 단어 개수 또는 음절 개수로 이루어진 이미 입력된 텍스트의 연속된 단어 또는 음절로 이루어진 부분 집합인 텍스트가 수정 목표 텍스트와의 대비 대상으로 선정된다.　　그 이후,　설정된 범위 내에서 하나 또는 연속된 둘 이상의 단어 또는 음절의 조합인 텍스트가 수정 목표 텍스트와 대비가 실행된다.

*다음으로,　수정 대상 텍스트가 키보드로 입력된 경우의 본 발명에 따른 수단에 대해서 설명한다. 수정 대상 텍스트가 키보드로 입력된 경우, 수정 목표 텍스트는 음성 인식으로 입력된다. 즉, 상기 제3 케이스가 이에 해당한다.

이 경우에는 수정 대상 텍스트가 음성 인식으로 입력되는 상술한 제1 및 제2 케이스와 대비하여,　연관성 판단 방식에서 차이가 있다.　　수정 대상 텍스트가 키보드로 입력된 경우이기 때문에,　연관성 판단 방법에 있어서 키보드 배치를 고려한 연관성 판단 방식이 포함되어야 한다.　　그 외의 구성은 동일하며,　결과적으로 다음과 같은 구성으로 구현된다.

먼저,　수정 목표 텍스트를 입력하는 단계가 포함된다.　　다음으로,　수정 목표 텍스트가 표시되는 단계와,　사용자에 의한 수정 명령에 따라 상기 수정 목표 텍스트와 키보드 입력에 의하여 상기 수정 목표 텍스트 이전에 입력된 텍스트와의 연관성을 계산하는 단계와,　상기 연관성 계산 단계에서의 연관성 계산 결과 연관성 계산 점수가 설정된 조건을 만족하는 상기 수정 목표 텍스트 이전에 입력된 텍스트가 수정 후보 텍스트로 선정되고,　수정 후보 텍스트가 수정 목표 텍스트로 치환 입력되는 단계를 포함한다.

상기 수정 목표 텍스트 입력 단계에서는 키보드 입력에 의해 이미 장치에 입력된 텍스트 중 어떤 텍스트를 수정하고자 하는 지에 대한 사용자에 의한 지정이 이루어지지 않은 채 음성 인식으로 수정 목표 텍스트의 입력이 이루어진다.

상기 연관성 계산 단계에서는 키보드 배치에 기반한 연관성 점수 계산 단계가 포함되고,　수정 목표 텍스트의 단어 수 또는 음절 수를 포함하는 텍스트 단위화 기준에 기반하여 연관성 계산 범위가 설정된다.　　수정 목표 텍스트의 단어 수 또는 음절 수에 기반한다는 의미는 후술하는 실시예에서 구체적으로 설명되듯이,　수정 목표 텍스트의 단어 개수 또는 음절 개수와 동일한 개수의 단어 또는 음절로 이루어진,　이미 입력된 텍스트의 부분 집합인 텍스트가 수정 목표 텍스트와 대비되는 것을 의미하는 것이 아니다.　　수정 목표 텍스트의 단어 또는 음절 개수　+-1,　또는　+-2,　또는 그 이외의 적절한 범위의 단어 또는 음절 개수로 이루어진 이미 입력된 텍스트의 연속된 단어 또는 음절로 이루어진 부분 집합인 텍스트가 수정 목표 텍스트와의 대비 대상으로 선정된다.　　이로써,　설정된 범위 내에서 하나 또는 연속된 둘 이상의 단어 또는 음절의 조합인 텍스트가 수정 목표 텍스트와 대비가 실행된다

이상에서, 제1 및 제2 케이스의 연관성 판단의 경우 발음 유사에 기반한 연관성 판단 방식이 기본이 되며, 제3 케이스의 연관성 판단의 경우 키보드 배치에 기반한 연관성 판단 방식이 기본이 되는 것으로 기술하였으나, 모든 케이스에 있어서 연관성 판단 방식이 오로지 이것만을 포함하는 것으로 이해되어서는 안 된다. 즉, 제1 및 제2 케이스의 경우에 연관성 판단의 정확성을 높이기 위하여, 다른 판단 방식, 예컨대 음파에 기반한 연관성 판단 방식이 추가적으로 포함될 수 있으며, 이는 제3 케이스에 대해서도 마찬가지이다.

위에 기술한 바와 같은 수정 목표 텍스트와 수정 대상 텍스트와의 연관성 판단에 의한 치환 방식의 수정을 기반으로 하면 텍스트의 추가 및 삭제가 편리하게 이루어질 수 있다.

이 방식은 기본적으로 수정 목표 텍스트와 수정 대상 텍스트 사이의 연관성 판단 또는 대비 판단 결과 공통된 텍스트들을 추출해 내는 것으로부터 시작한다. 공통된 텍스트들은 장치에 의해 기준 텍스트로 인식된다. 만일 수정 목표 텍스트가 공통된 기준 텍스트 이외의 추가 텍스트를 포함하면, 장치는 수정 목표 텍스트의 입력이 텍스트의 추가를 목적으로 이루어진 것으로 인식한다.

이러한 추가 텍스트가 없는 경우 장치는 수정 목표 텍스트의 입력이 텍스트의 삭제를 목적으로 이루어진 것으로 인식할 수 있다. 또한, 추가 텍스트가 없으며, 수정 대상 텍스트에서 기준 텍스트들 사이에 텍스트가 존재하는 것으로 판단되는 것을 기반으로 장치가 수정 목표 텍스트의 입력이 텍스트의 삭제를 목적으로 이루어진 것으로 인식하는 것도 가능하다.

이러한 텍스트 추가 또는 삭제 목적의 인식 이후, 장치는 텍스트 추가로 인식된 경우 기준 텍스트를 기준점 삼아 수정 목표 텍스트에 추가로 포함되어 있는 텍스트를 수정 대상 텍스트에 추가하는 수정을 실행한다. 또한, 텍스트 삭제의 목적이 인식된 경우, 장치는 수정 대상 텍스트에서 기준 텍스트들 사이에 존재하는 텍스트를 삭제하는 수정을 실행한다.

나아가, 본 발명에 따라 수정을 목적으로 재구술된 텍스트, 즉 수정 목표 텍스트의 정확한 인식을 위한 기술이 제안된다.

수정 목표 텍스트에 상응하는 음성 파형에 사용자가 입력을 원하는 수정 목표 텍스트 이외에 다른 텍스트들이 후보군으로서 할당되어 있을 수 있다. 수정 목표 텍스트의 발음 이후 수정 명령이 내려지거나 수정 명령 이후 수정 목표 텍스트의 발음이 이루어지면, 장치는 수정 목표 텍스트에 상응하는 음성 파형에 할당된 후보 텍스트들을 디스플레이 상에 표시하여 사용자로 하여금 의도에 부합하는 텍스트를 선택하도록 할 수 있다. 또한, 수정 명령이 내려진 후 수정 대상 텍스트가 입력되는 경우에는 수정 명령 전후하여 동일한 음성 파형에 할당된 텍스트가 존재함을 인식함에 따라 수정 목표 텍스트를 동일한 음성 파형에 할당된 다른 텍스트로 인식 및 표시되도록 할 수 있다. 이러한 방식을 구현하기 위한 본 발명의 기술수단은 다음과 같이 구성될 수 있다.

본 발명은 음성 인식에 의하여 수정 목표 텍스트를 입력하는 단계와, 사용자의 수정 명령에 따라 상기 음성 인식에 의하여 입력된 수정 목표 텍스트와 음성 인식에 의하여 상기 수정 목표 텍스트 이전에 입력된 텍스트와의 연관성을 계산하는 단계와, 상기 연관성 계산 단계에서의 연관성 계산 결과 연관성 계산 점수가 설정된 조건을 만족하는 수정 대상 텍스트 또는 수정 대상 텍스트의 부분 텍스트가 수정 후보 텍스트로 선정되고,　수정 후보 텍스트가 수정 목표 텍스트로 치환 입력되는 단계를 포함할 수 있다. 여기서, 상기 음성 인식에 의한 수정 목표 텍스트 입력 단계에서는 발음된 음성 파형에 할당된 복수의 후보 텍스트들이 선택 가능하도록 디스플레이 상에 표시될 수 있다.

또한, 본 발명은 음성 인식에 의하여 수정 목표 텍스트를 입력하는 단계와, 사용자의 수정 명령에 따라 상기 음성 인식에 의하여 입력된 수정 목표 텍스트와 음성 인식에 의하여 상기 수정 목표 텍스트 이전에 입력된 텍스트와의 연관성을 계산하는 단계와, 상기 연관성 계산 단계에서의 연관성 계산 결과 연관성 계산 점수가 설정된 조건을 만족하는 수정 대상 텍스트 또는 수정 대상 텍스트의 부분 텍스트가 수정 후보 텍스트로 선정되고,　수정 후보 텍스트가 수정 목표 텍스트로 치환 입력되는 단계를 포함할 수 있다. 여기서, 상기 음성 인식에 의한 수정 목표 텍스트 입력 단계에서 발음된 음성 파형에 할당된 복수의 후보 텍스트들 중 어느 하나가 수정 대상 텍스트에 존재하는 경우, 수정 목표 텍스트의 입력 시에는 수정 대상 텍스트에 존재하는 후보 텍스트를 제외하고 입력이 이루어지도록 할 수 있다.

한편, 본 발명에 따르면 수정 목표 텍스트의 입력 및 수정 명령에 따라 치환 방식에 의한 수정이 이루어진 경우를 장치가 학습하도록 하여 사용자의 언어 사용 습관에 최적화된 텍스트 인식을 위한 기술 수단이 추가적으로 제공될 수 있다.

이 기술은 동일한 음성 파형에 할당된 후보 텍스트들 간의 우선 순위를 사용자의 수정 이력을 반영하여 조정하는 것을 기반으로 한다. 동일한 음성 파형에 할당된 후보 텍스트들 중에서 어느 특정 후보 텍스트가 다른 특정 후보 텍스트로 치환되는 방식으로 수정이 이루어지는 경우, 치환 후 존재하는 텍스트에는 우선 순위를 상승시킬 수 있는 연산을 행하고, 치환에 의하여 삭제되는 텍스트에는 우선 순위를 하강시킬 수 있는 연산을 행한다.

사용자의 언어 사용 습관에 최적화된 텍스트 인식을 추구하는데 있어서는, 치환 수정되는 당해 텍스트의 선후 텍스트를 고려하여 동일한 음성 파형에 할당된 후보 텍스트들 간의 우선 순위를 조정할 수도 있다. 이러한 전후 텍스트는 직전 및 직후 텍스트 뿐만 아니라 치환 수정되는 당해 텍스트의 이전 N(N은 2이상)단어 및 이후 N(N은 2이상)단어를 고려하도록 실시될 수도 있다. 이러한 방식을 구현하기 위한 본 발명의 기술수단은 다음과 같이 구성될 수 있다.

본 발명은 음성 인식에 의하여 수정 목표 텍스트를 입력하는 단계와, 사용자의 수정 명령에 따라 상기 음성 인식에 의하여 입력된 수정 목표 텍스트와 음성 인식에 의하여 상기 수정 목표 텍스트 이전에 입력된 텍스트와의 연관성을 계산하는 단계와, 상기 연관성 계산 단계에서의 연관성 계산 결과 연관성 계산 점수가 설정된 조건을 만족하는 수정 대상 텍스트 또는 수정 대상 텍스트의 부분 텍스트가 수정 후보 텍스트로 선정되고,　수정 후보 텍스트가 수정 목표 텍스트로 치환 입력되는 단계를 포함할 수 있다. 여기서, 상기 치환 입력이 이루어지면 상기 수정 후보 텍스트 및 수정 목표 텍스트에 공통되는 음성 파형에 할당된 후보 텍스트로서 상기 수정 후보 텍스트와 동일한 후보 텍스트의 우선 순위를 낮추는 연산을 행하고, 상기 수정 목표 텍스트와 동일한 후보 텍스트의 우선 순위를 높이는 연산을 행할 수 있다.

또한, 본 발명은 음성 인식에 의하여 수정 목표 텍스트를 입력하는 단계와, 사용자의 수정 명령에 따라 상기 음성 인식에 의하여 입력된 수정 목표 텍스트와 음성 인식에 의하여 상기 수정 목표 텍스트 이전에 입력된 텍스트와의 연관성을 계산하는 단계와, 상기 연관성 계산 단계에서의 연관성 계산 결과 연관성 계산 점수가 설정된 조건을 만족하는 수정 대상 텍스트 또는 수정 대상 텍스트의 부분 텍스트가 수정 후보 텍스트로 선정되고,　수정 후보 텍스트가 수정 목표 텍스트로 치환 입력되는 단계를 포함할 수 있다. 여기서, 상기 치환 입력이 이루어지면 치환 입력이 이루어진 상태에서 상기 수정 목표 텍스트의 전후에 존재하는 텍스트를 수정 목표 텍스트와 연관지어 데이터베이스에 저장하고, 이를 고려하여 동일한 음성 파형에 할당된 후보 텍스트들 간의 우선 순위를 조정할 수 있다.

보다 구체적인 방법들은 이하의 실시예에서 기술하기로 한다. 이상 기술한 사항 이외에도,　본 발명의 기술적 사상에 따라 다른 구성이 더 제공될 수도 있다.

본 발명에 따르면,　음성 인식에 의한 텍스트 입력 시 사용자의 의도와는 다른 텍스트가 입력되었을 때,　사용자의 구술 단위에서 전체 텍스트의 재입력 없이 오류가 발생한 단어들만 수정할 수 있으므로,　음성 인식을 기반으로 한 텍스트 입력의 오류 수정 효율성이 대폭 향상된다.　　

한편,　이미 입력된 오류를 포함한 텍스트 중 일부 텍스트를 사용자가 선택하게 함으로써 당해 텍스트를 수정하는 방식이 아니므로 사용자의 선택을 위한 과정이 생략될 수 있다. 따라서, 보다 편리한 오류의 수정이 가능할 뿐만 아니라,　사용자의 수정 대상 텍스트의 선택에 이은 수정 목표 텍스트의 장치에 의한 추천이 이루어지지 않고 사용자가 직접 수정 목표 텍스트를 입력하는 방식이므로 추천의 정확성에 기대지 않고 언제나 정확하게 사용자의 의도에 부합하는 수정을 행할 수 있다.

또한, 사용자가 직접 수정 명령을 내리므로, 수정 의도를 추정하여 수정을 행하는 기술에 비하여 수정 정확성을 높일 수 있으면서도 연관성 판단 방식에 의한 치환이라는 고유의 기술수단으로써 사용자의 편리를 도모할 수 있다.

본 발명 특유의 수정 방법을 바탕으로 하면, 음성 입력에 의한 텍스트 인식에 있어서 텍스트의 추가 및 삭제를 간편하게 할 수 있으며, 텍스트 수정을 위한 음성 구술 시 사용자의 의도에 부합하는 텍스트가 입력될 가능성을 대폭 향상시킬 수 있다. 나아가 본 발명 특유의 수정 방식이 행해질수록 사용자에 의한 음성 구술을 텍스트로 변환 시 사용자 개개인의 언어 사용 습관을 학습에 의하여 반영할 수 있어서 변환의 정확성이 향상될 수 있는 유리한 작용효과가 달성된다.

도1은 수정을 목적으로 한 구술 시 텍스트 인식의 정확성을 높이기 위하여 당해 음성 파형에 할당된 후보 텍스트들을 디스플레이 상에 표시함으로써 사용자가 선택 가능하도록 하는 실시예를 도시하는 도면이다.

[수정 목표 텍스트와 수정 대상 텍스트 간의 연관성 체크에 의한 치환 방식의 설명을 위한 실시예]

먼저,　수정 대상 텍스트가 음성인식으로 입력된 경우의 실시예에 대하여 기술한다.

사용자는 "Seoul is 10 degree in Celsius."의 입력을 의도하였는데 실제 음성 인식 텍스트 입력은　"Seoul is 10 degree is say use."로 되었다.　　본 발명에 따라 이를 수정하는 방식은 크게 두 가지이다.　　첫째는 사용자가　"say use"가　"Celsius"로 치환 입력되어야 하는 것을 목표로　"Celsius"를 키보드로 입력하는 것이다.　　둘째는 사용자가　"say use"가　"Celsius"로 치환 입력되어야 하는 것을 목표로　"Celsius"를 구술하는 것이다.　　그 중 수정 목표 텍스트인　"Celsius"를 키보드로 입력하는 경우에 대해 먼저 설명한다.　

사용자는 가상 키보드 상에서 터치를 통하여　"Celsius"를 입력한다.　　사용자의 입력에 따라 화면에는　"Celsius"가 표시된다.　　이로써,　사용자의 전체 입력은　"Seoul is 10 degree is say use. Celsius"가 되었다.　　이 상태에서 수정 명령을 내리면,　장치는　"Celsius"를 수정 목표 텍스트로 인식하고,　수정 목표 텍스트의 입력 이전에 입력된 텍스트인　"Seoul is 10 degree is say use."　즉 수정 대상 텍스트와의 연관성 검토를 개시한다.　　　

연관성 검토에 있어서 가장 선행되어야 하는 판단은 연관성 검토 대상인 텍스트의 범위이다.　

음성 입력의 경우 위 예제의 경우처럼 사용자가 실제로 입력 의도한 것은 한 단어(Celsius)이나,　이것이 발음이 유사한 연이은 복수의 단어로 입력되는 현상이 발생할 수 있다.　　또한,　위 예제에서는 연이은 두 단어(say use)로 입력되었으나,　그 수가 반드시　2개에 한정되지도 않는다.　　따라서 경우에 따라서는 세 개 또는 네 개의 연이은 단어까지도 그 비교 범위에 포함시킬 필요가 있다.　　기본적으로 수정 목표 텍스트의 단어의 수　+-2의 숫자의 연이은 단어까지 연관성 검토 범위로 설정하는 것이 적절하다는 것이 본 발명자의 연구를 통하여 발견되었으나,　반드시　+-2에 한정되어야 하는 것은 아니다.

여기서, -인 경우는 수정 목표 텍스트가 여러 단어로 구성될 수 있다는 것을 고려한 것이다.　　즉,　사용자가 음성 인식 도중 복수의 단어로 인식되어야 하는 텍스트를 구술하였으나,　이것이 더 작은 수의 유사한 발음의 단어로 인식되어 텍스트 입력되는 경우가 발생할 수 있기 때문이다.　　이러한 연관성 검토의 범위를 위 예제에 대해서 적용하여 보겠다.

한편, 연관성 검토 대상인 텍스트의 범위를 단어 수가 아닌 음절 수로 정하는 것도 가능하다. 예제의 "Celsius"는 한 단어이며 세 음절이다. 단어 단위로 검토 대상 텍스트 범위를 정할 경우 +-2의 범위를 적용한다면 한 단어로 이루어진 텍스트에서 세 단어로 이루어진 텍스트까지가 검토 대상 텍스트의 범위로 결정된다. 음절 단위로 검토 대상 텍스트 범위를 정할 경우 역시 +-2의 범위를 적용한다면 한 음절로 이루어진 텍스트(-2가 적용)에서 다섯 음절로 이루어진 텍스트(+2가 적용)까지가 검토 대상 텍스의 범위로 결정될 수 있다. 단어 단위로 텍스트 범위를 정하는 경우와 음절 단위로 텍스트 범위를 정하는 경우 수정 목표 텍스트의 단어 수 또는 음절 수에 어느 정도 숫자를 가감한 범위를 택할 것이냐는 다르게 실시될 수 있다.

이와 같이, 단어 수 또는 음절 수에 따른 연관성 검토 대상인 텍스트의 범위의 설정이 모두 가능하지만, 이하에서는 설명의 편의를 위하여 단어 수에 따라 연관성 검토 대상인 텍스트의 범위를 정하는 것에 대해서 설명하기로 한다.

제시된 예제에서, 수정 대상 텍스트는　"Seoul is 10 degree in say use."이고,　사용자는 이의 수정을 위하여 키보드를 통한 텍스트 입력으로　"Celsius"를 입력하고 수정 명령을 내렸다.

이 상태에서,　장치는 먼저　수정 목표 텍스트인　"Celsius"와 수정 대상 텍스의 한 단어로 이루어진 부분 텍스트와의 대비를 실행한다.

즉, 1차 연관성 검토 단계에서　Seoul, is, 10, degree, in, say, use의　7개 단어가 각각　수정 목표 텍스트인　"Celsius"와 대비된다.　　그런데,　수정 목표 텍스트인　"Celsius"와 수정 대상 텍스트 중 하나의 단어로 이루어진　7개 부분 텍스트와의 대비 결과,　연관성 있는 대상이 없다는 결과가 나왔다.　　이 때 실행되는 발음 유사에 기반한 연관성 판단 방법에 대해서는 후술하기로 한다.　

그러면,　장치는 범위를 확장하여　2차 연관성 판단 단계로 넘어간다.　　1차 연관성 검토 단계에서 한 단어로 이루어진 부분 텍스트와의 대비가 실행되었으므로,　이번 단계에서는 연속된 두 단어로 이루어진 부분 텍스트와의 대비가 실행된다.　　이 때 추출되는 대비 대상은 아래의 총　6개 부분 텍스트이다.　

Seoul is

is 10

10 degree

degree in

in say

*say use

이 연속된 두 단어 사이의 스페이스는 무시하고,　연속된 두 단어를 하나의 단위로 삼아 수정 목표 텍스트인　Celsius와의 대비가 실행된다.　　그 결과　"sayuse"라는 원래는 두 단어로 이루어진 텍스트 단위의 발음이　Celsius와 연관성 있는 것으로 판단된다.　　그러면,　장치는 이 부분 텍스트를 수정 후보로 인식하고 수정 후보 데이터 베이스에 저장한다.

이러한 방식으로 미리 설정된 범위까지의 연관성 검토가 이루어진다.　　예컨대,　연관성 판단 대상의 범위가 수정 목표 텍스트의 단어 수　+-1로 설정된 경우라면,　수정 목표 텍스트인　"Celsius"가 한 단어로만 이루어져 있으므로 범위를 -로 확장할 수는 없으므로,　연관성 판단 범위는 수정 목표 텍스트와 동일한 단어 수의 부분 텍스트 및 수정 목표 텍스트의 단어 수　+1인 연속된 단어로 이루어진 부분 텍스트이다.　　그런데,　그 범위 내에서 검토를 실행한 결과,　즉 연이은 두 단어로 이루어진 부분 텍스트까지를 검토한 결과, "sayuse"가　"Celsius"와 발음이 유사한 것으로 판단되어 수정 후보는　"sayuse"로 선택된다.　　다른 수정 후보는 없다.　　그러면,　장치는 여기서 연관성 판단을 종료하고, "say use"를　"Celsius"로 치환하여 입력하면서 수정 과정은 종료된다.　

만일,　연관성 판단 대상 범위를 수정 목표 텍스트의 단어 수　+-2로 설정한 경우라면, 2차 연관성 검토 단계에서 수정 후보가 검색되었더라도 중단하지 않고　3차 연관성 검토까지 이루어져야 한다.　　이 때 수정 목표 텍스트인　"Celsius"와 대비되는 것은 연이은 세 개의 단어로 이루어진 수정 대상 텍스트의 부분 텍스트이고,　위 예제의 경우 다음의　5개이다.

Seoul is 10

is 10 degree

10 degree in

degree in say

in say use

이 단어들 사이의 스페이스는 무시하고,　연속된 세 단어를 하나의 단위로 삼아 수정 목표 텍스트인　Celsius와의 대비가 실행된다.　　그 결과 발음 유사로 판단된 것이 없으므로 여기서 대비 과정은 종료된다.　　여기까지의 대비에서 수정 후보로 선택된 것은　2차 연관성 판단에서 검색된 "sayuse"가 유일하다.　　따라서 "sayuse"를　"Celsius"로 치환입력하며 수정 과정은 종료된다.

한편, 위에 기술한 바와 같은 연관성 판단 대상 설정 방식 외에 다른 방식도 가능하다. 예컨대, a, b, c, d, e의 다섯 개의 단어가 입력되어 있는 상태에서 수정 목표 단어가 입력되고 수정 명령이 내려지면,

e,

d, de

c, de ,cde

b, bc, bcd

a, ab, abc

의 순서로 연관성 판단이 수행되는 식으로 구현될 수도 있다.

본 예제의 경우와 달리,　만일 수정 후보가 복수인 경우 다음 방식으로 처리가 가능하다.

먼저,　수정 후보가 복수인 경우의 처리에 관한 제1　실시예이다.　　이 실시예에서는 복수의 수정 후보 중 늦게 입력된 텍스트,　즉 수정 목표 텍스트와 가까운 거리에 위치한 텍스트를 먼저 치환한다.　　치환 결과는 디스플레이 상에 표시되므로 사용자는 치환된 결과가 본인이 의도한 수정 결과인지를 판단할 수 있다.　　만일　1차 치환된 대상이 사용자가 원하는 치환대상이 아니라면 사용자가 수정 명령을 재차 입력하거나 수정 후보를 차회의 것으로 바꾸어 수정을 실행하라는 별도의 명령을 입력한다.　　그러면 장치는 수정 후보를 다음의 것으로,　즉 그것보다 먼저 입력된 텍스트를 치환한 결과를 사용자에게 디스플레이한다.　　차회의 수정 명령 또는 수정 후보 이동 명령이 없으면 장치는 수정을 완료한다.　　수정 후보 이동 시　1차 수정 명령에 의해 치환된 텍스트는 원래대로 복귀되어야 한다.

다음으로,　수정 후보가 복수인 경우의 처리에 관한 제2　실시예이다.　　수정 후보가 복수로 검색되더라도,　연관성 계산 점수 상 연관성이 높은 순서가 존재한다.　　본 실시예에서는 제1　실시예와 달리 수정 후보로 선택된 텍스트의 입력 순서에 상관없이 연관성이 높은 순서대로 치환을 실행한다.　　그런데,　연관성 계산 점수가 가장 높은 수정 후보 텍스트일지라도 실제 사용자가 치환,　즉 수정을 원하는 텍스트가 아닐 수도 있다.　　이 경우 제1　실시예에서와 같이 수정 명령을 재차 입력하거나 별도의 수정 후보 이동 명령을 입력하는 것에 의하여 연관성　계산 점수가 그 다음으로 높은 텍스트를 치환하고, 1차 수정 명령에 의해 치환된 텍스트는 원래대로 복귀하는 방식으로 다른 수정 후보 텍스트에 대한 수정을 실행할 수 있다.

다음으로,　발음 유사에 기반한 연관성 판단 방법에 대하여 설명하겠다.　　본 발명의 완성일 기준으로 현재까지 알려진 발음 유사 판단 알고리즘에는 여러가지가 있다.　　이 알고리즘들은 공통적으로 단어를 어떻게 변형해서 발음의 유사성이 있는 단어를 찾기 쉽게 만드느냐의 목표 아래 다양한 세부 방식들을 제안해 왔다.　　이러한 알고리즘의 발전 역사를 개략적으로 기술하면,　제일 처음에　SoundEx라는 알고리즘이 개발된 이후에,　NYSIIS, Metaphone이라는 이름의 알고리즘이 개발되었다.　　현재는　Metaphone이라는 알고리즘이 공개 라이브러리화 되어 있을 뿐만 아니라 사용하기 쉽게 설계되어 있어서 본 발명자는 본 발명의 방식이 구현된 음성 인식 수정 소프트웨어의 프로토타입을　　Metaphone　알고리즘 기반으로 구현한 바 있다.　　이와 같이,　본 발명은 발음 유사에 기반한 연관성 판단 알고리즘 자체를 개발한 것이 아니다.　　본 발명 특유의 방식에 의한 수정을 구현하는 데 있어서 위에 언급한 발음 유사에 기반한 연관성 판단 알고리즘만이 사용되는 것은 아니며,　발음 유사에 기반한 연관성 판단을 수행할 수 있는 한,　그 어떠한 알고리즘도 사용 가능하다는 점이 반드시 이해되어야 한다.

다음으로,　수정 대상 텍스트가 음성 인식으로 입력되었고,　그 중 부분 텍스트를 수정하기 위하여 입력되는 수정 목표 텍스트도 음성 인식 방식으로 입력되는 경우에 대하여 설명하기로 한다.　　즉,　사용자가　"Seoul is 10 degree in Celsius."의 입력을 의도한 상태에서 음성 인식 텍스트 입력이　"Seoul is 10 degree is say use."로 되었는데,　이의 수정을 위하여 수정 목표 텍스트인　"Celsius"를 음성으로 구술하여 장치가 인식하도록 하는 경우에 대하여 설명한다.

이 경우,　연관성 판단 방식 및 검색 범위를 설정하는 방식은 수정 목표 텍스트인　"Celsius"를 키보드로 입력할 때와 동일하다.　　다만,　본 실시예에서는 수정 목표 텍스트가 음성으로 입력된다는 특수성이 있다.　　이 때 고려 대상이 되어야 할 것은 수정 목표 텍스트의 입력 시에도 잘못된 인식이 발생할 가능성이 앞선 실시예보다 높다는 것이다.　　수정 목표 텍스트가 키보드로 입력되는 경우,　사용자가 수정 명령을 내리기 전에 키보드 입력의 수정을 행할 수 있으므로 수정 목표 텍스트의 입력은 비교적 쉽고 정확하게 이루어질 수 있다.　　그런데,　수정 목표 텍스트의 음성 입력은 키보드 입력의 경우에 비하여 입력의 정확성이 떨어질 수 있다.

이 문제를 해결하기 위하여 본 실시예에서는 수정 명령을 내리는 방식과 수정 목표 텍스트의 입력을 행하는 방식에 있어서 앞선 실시예와 다른 방식을 취한다.

그것은 수정 명령을 입력하기에 앞서 수정 목표 텍스트의 정확한 입력이 확인될 때까지 사용자가 음성 인식에 의한 수정 목표 텍스트의 입력을 반복하여 행할 수 있도록 하는 것이다.

그 구체적인 방식에 있어서 본 발명자는 두 가지 형태의 실시를 행한 바 있다.　　첫째는 별도의 수정 목표 텍스트 입력 대기 명령이 없는 것이고,　둘째는 수정 명령과 별도로 그 이전에 입력되는 수정 목표 텍스트 입력 대기 명령을 실행하는 경우이다.

첫번째 실시예에서는　"Seoul is 10 degree in say use."의 입력 이후 사용자가 수정 의도를 가지고 연이어　"Celsius"를 발음하여 입력한다.　　그런데,　수정 목표 텍스트인　"Celsius"가 한번에 올바르게 인식되지 않고,　또 다시　say use로 인식되어 입력이　"Seoul is 10 degree in say use. say use"가 되었다.　　이 입력 형태에서 뒤에 입력한　"say use"와 수정 대상 텍스트는 디스플레이 상에 연이어 입력되어 있으므로 그들 사이에 표시 상 구별은 없으나, 장치는　1회 구술의 단위에 의하여 입력된 텍스트의 범위를 기억하고 있다.　　따라서 수정 목표 텍스트로서 잘못 입력된　"say use"만을 삭제 버튼을 누르는 방식 등으로 삭제가 가능하다.　　본 실시예에서는 수정 목표 텍스트로서 잘못 입력된　"say use"를 삭제하고 사용자로 하여금 다시　"Celsius"를 발음하여 입력하도록 한다.　　위와 같은 과정을 반복하다가 마침내　"Celsius"가 정확하게 인식되어 입력된 상태에서 사용자는 수정 명령을 내리게 된다.　　그러면,　수정 목표 텍스트를 키보드로 입력하는 실시예에서와 동일한 방식으로 연관성 판단 및 이에 따른 수정 후보 텍스트의 선정 및 수정 목표 텍스트와의 치환이 실행될 수 있다.

두번째 실시예에서는　"Seoul is 10 degree in say use."의 입력 이후 사용자가 오류를 인지하고,　수정 목표 텍스트를 구술하여 입력하겠다는 신호를 장치에 입력한 이후 수정 목표 텍스트의 구술이 이루어진다.

즉,　수정 목표 텍스트 입력 대기 명령이 사용자에 의해 내려진다.　　명령이 내려지면 장치는 차후의 음성 인식에 의한 텍스트 입력이 일반 텍스트 입력이 아니라 수정을 위한 텍스트 입력임을 인식하고 대기 상태에 들어간다.　　이 상태에서 사용자는 음성으로 텍스트를 구술하고,　구술한 텍스트는 디스플레이에 표시된다.　　사용자는 디스플레이에 표시된 수정 목표 텍스트를 보고 수정 목표 텍스트가 정확히 입력됨을 확인하면 수정 명령을 내린다.　　그러면, 수정 목표 텍스트와 음성 인식에 의하여 그 이전에 입력된 텍스트,　즉 수정 대상 텍스트 중 부분 텍스트와의 연관성 판단이 이루어지고,　연관성 계산 점수가 소정 조건을 만족하는 부분 텍스트가 수정 후보로 선택되어,　수정 후보가 곧바로,　또는 수정 후보 중 하나의 선택에 따라(수정 후보가 복수인 경우),　수정 대상 텍스트로 치환되어 수정 목표 텍스트 입력 대기 상태가 종료된다.

만일,　수정 목표 텍스트가 정확히 입력되어 있지 않으면 사용자는 다시 텍스트를 구술한다.　　그러면 이전에 입력된 수정 목표 텍스트는 지워지고 다시 구술한 텍스트가 디스플레이에 표시된다.　　이러한 반복 입력 과정을 거쳐 사용자가 수정 목표 텍스트가 정확히 입력된 것으로 확인한 후 수정 명령을 내리면 연관성 판단 과정을 거쳐 치환이 이루어지고 수정 목표 텍스트 입력 대기 상태가 종료된다.　

이러한 수정 목표 텍스트 입력 대기 명령을 별도로 마련함으로써 몇 가지 장점이 달성될 수 있다.　　첫째,　수정 목표 텍스트 입력 시의 변화된 사용자 구술 방식에 맞추어 보다 적합한 인식 알고리즘을 사용할 수 있다.　　본 발명에 따라 수정 목표 텍스트를 입력할 때는 대개 한 단어 또는 두 단어의 짧은 텍스트를 발음하게 되고,　대개의 경우 이 때의 발음은 긴 문장 전체를 구술하는 경우와 다소 다른 방식으로 사용자에 의해 구술된다.　　예컨대,　"Seoul is 10 degree in Celsius."의 문장 속의 한 단어인　"Celsius"를 발음할 때와　"Celsius"만을 따로 발음할 때와 사용자의 구술 방식은 발음의 정확성,　구술의 속도 등에서 차이가 날 수 있다.　　극단적으로,　수정 목표 텍스트 입력 대기 명령을 하게 되면,　앞선 문장의 구술 방식과 완전히 다른 방식,　예컨대 사용자가 알파벳 하나하나를 별개로 구술하는 방식으로 한 단어를 명확히 인식시키는 방식도 사용 가능하다.　　수정 목표 텍스트 입력 대기 명령 이후의 구술에 대해서는 이러한 변화된 방식에 맞는 최적의 알고리즘을 적용함으로써 인식의 정확도를 높일 수 있다.　　둘째,　장치가 차회의 입력이 수정 목표 텍스트의 입력이라는 점을 인식하고 있음으로 해서,　수정 목표 단어를 인식하고 표시하는 정확성을 높이려는 별개의 수단을 추가할 수 있는 여지가 생긴다.　　예컨대,　수정 목표 단어 입력 대기 명령 이후에 입력된 텍스트는 이전에 입력된 텍스트를 이루는 부분 텍스트들과 어떤 식으로든 연관이 있는 텍스트일 것이다.　　그러므로,　장치가　"Celsius"라는 수정 목표 단어의 사용자의 구술을 받아 이를 수정 목표 단어로 인식하고 디스플레이 상에 표시하는 과정에서 처리되는 여러 가지 가능성 있는 후보군들 간의 장치 내부 알고리즘에 의한 선택 과정에 있어서 이전에 입력된 텍스트를 참조하여 이와 연관성 있는 것에 대하여 가중치를 두는 방식 등으로 수정 목표 단어의 인식 정확성을 높일 수 있을 것이다.

다음으로,　수정 대상 텍스트가 키보드 입력에 의해 이루어지고,　이의 수정을 위한 수정 목표 텍스트의 입력이 음성 인식에 의하여 이루어지는 경우에 대하여 기술한다.　

수정을 위한 텍스트 입력이 음성인식에 의한 텍스트 입력으로 이루어진다는 점에서는 앞선 실시예와 동일하다.　　그러므로,　음성 인식 수정을 위한 수정 목표 텍스트 입력 대기 명령을 별도로 하거나 하지 않고,　수정 명령을 내리는 앞선 실시예와 동일한 방식이 그대로 적용 가능하다.　

본 실시예가 앞선 실시예들과 다른 점은 연관성 판단 방법이다.　　앞선 실시예들에서는　수정 대상인 텍스트 입력이 음성 인식으로 이루어졌기 때문에 연관성 판단 시 발음 유사에 기반한 계산이 이루어졌다.　　그런데,　본 실시예에서는 수정 대상인 텍스트 입력이 키보드로 이루어졌으므로 자판 배치를 고려한 연관성 판단 방식에 의하여 연관성 점수 계산이 이루어져야 한다.　　이러한 연관성 계산은 본 발명자가 한국 특허 출원 제10-2013-0137964로 출원하여 특허결정 받은 알고리즘을 통해 이루어질 수 있다.　

즉,　수정 후보 텍스트를 수정 목표 텍스트로 변환함에 있어서 어떠한 수정 동작들이 이루어져야 하는 지를 판단하고,　각 수정 동작에 특정 점수를 부여하고,　필요한 수정 동작에 해당하는 점수들을 합산한 후 기준 점수와 대비함으로써 자판 배치를 고려한 연관성 점수 계산 및 이에 따른 연관성 판단이 이루어질 수 있다.　　연관성 판단의 범위는 어떻게 설정하는지,　수정 후보가 복수인 경우에 어떻게 처리하는지 등은 앞선 실시예들과 동일하게 구현이 가능하다.

[연관성 판단에 의한 치환 방식의 수정을 기반으로 한 텍스트의 추가 및 삭제에 관한 실시예]

이하에서는 상술한 바와 같은 기술적 사상을 기반으로 하여 음성 인식에 의한 텍스트 입력 방식에서 단어의 삽입과 삭제를 편리하게 행할 수 있는 기술이 설명된다. 이하에 설명되는 기술은 앞서 설명한 본 발명 특유의 재구술된 텍스트를 수정 목표 텍스트로 삼아 이전에 입력된 텍스트와의 연관성 체크를 거쳐서 치환 입력하는 방식에 기반한 것으로서 그 대상을 보다 넓게 확장한 것이다.

"hi. nice to meet you. how are you"라는 텍스트를 구술 인식에 의한 텍스트 입력한 상황을 가정하자. 이 상태에서 사용자는 "nice to meet you"의 부분 텍스트를 "very nice to meet you"로 바꾸고 싶다. 종래기술에서는 이러한 경우 버추얼 키보드를 통한 입력 모드로 전환하여 커서를 "nice" 앞으로 옮기고 "very"를 타이핑하거나, 구술에 의해 입력된 전체 텍스트를 취소하고 다시 구술하여야 하였다. 그런데, 본 발명에서는 다시 입력하고자 하는 부분 텍스트만 다시 구술하는 방식으로 수정이 이루어진다. 즉, 사용자는 "very nice"만 다시 구술하고 수정 명령을 내린다. 앞서 기술한 바와 같이, 수정 명령이 수정 목표 텍스트인 "very nice"의 입력 이전에 내려지도록 하는 구현도 가능하다.

그러면, 장치는 수정 명령 바로 이전 또는 바로 이후 발음된 음성 파형에 해당하는 것으로 인식된 텍스트인 "very nice"를 수정 목표 텍스트로 인식하고, 그 이전에 입력된 텍스트와의 대비를 실행한다. 대비 실행 결과 "nice"가 공통되는 단어 단위 텍스트라는 점을 인식하고, 이 단어 단위 텍스트를 기준 텍스트로 인식한다. 그런데, 이와 같이 수정 목표 텍스트 중에서 기준이 되는 공통 단어 단위 텍스트 이전에 "very"라는 또 다른 단어 단위 텍스트가 추가적으로 존재하므로, 장치는 이 사실을 기반으로 사용자의 단어 추가 의도를 인지하고, "very"를 "nice" 이전에 추가하는 수정 작업을 실행한다. 이로써, 애초에 사용자의 구술에 의하여 인식 및 표시된 텍스트는 "hi. nice to meet you. how are you"로부터 "hi. very nice to meet you. how are you"로 수정된다.

동일한 기술이 텍스트의 삭제에도 적용될 수 있다. 사용자는 "hi. nice to meet you. how are you. see you again"을 구술하여 장치가 인식하도록 하였으나, 중간의 "nice to meet you"를 삭제하여 "hi. how are you. see you again"으로 수정하고자 한다. 종래기술에서는 이러한 경우 버추얼 키보드를 통한 입력 모드로 전환하여 커서를 "nice to meet you"의 "you" 바로 뒤로 옮기고 백스페이스 키를 복수 회 입력하여 "nice to meet you"를 모두 삭제하거나, 구술에 의해 입력된 전체 텍스트를 취소하고 다시 구술하여야 하였다. 그런데, 본 발명에서는 다시 입력하고자 하는 부분 텍스트만 다시 구술하는 방식으로 수정이 이루어진다.

보다 구체적으로, 사용자는 지우고자 하는 텍스트의 전후 텍스트를 연이어 구술한다. 예제에서는 "hi. how are you"이다. 그 이후 수정 명령을 내린다. 앞서 기술한 바와 같이, 수정 명령은 수정 목표 텍스트인 "hi. how are you"의 입력 이전에 내려질 수도 있다.

그러면, 장치는 수정 명령 바로 이전 또는 바로 이후 발음된 음성 파형에 해당하는 것으로 인식된 텍스트인 "hi. how are you"를 수정 목표 텍스트로 인식하고, 그 이전에 입력된 텍스트와의 대비를 실행한다. 대비 실행 결과, 위에 기술한 텍스트의 추가 시와는 달리 수정 목표 텍스트와 그 이전에 입력된 텍스트에서 공통되는 텍스트는 "hi. how are you"이며, 이전에 입력된 텍스트 이외의 추가 텍스트가 존재하지 않는다는 점이 인식된다. 수정 대상 텍스트 중 인식된 공통 텍스트들 사이에 다른 텍스트가 존재한다는 점도 추가적으로 인식될 수 있다. 그러면, 장치는 공통되는 텍스트인 "hi. how are you"를 기준 텍스트로 인식함과 동시에, 텍스트 추가 작업이 아니라 텍스트 삭제 작업을 수행하여야 한다는 점을 인식한다.

이에 따라 장치는 수정 목표 텍스트 이전에 입력된 텍스트인 "hi. nice to meet you. how are you. see you again" 중에서 기준이 되는 공통 텍스트들(볼드체로 표시된 텍스트들) 사이에 위치된 "nice to meet you"를 삭제할 텍스트로 인식하여 삭제를 행한다. 이로써, 애초에 사용자의 구술에 의하여 인식 및 표시된 텍스트는 "hi. nice to meet you. how are you. see you again"으로부터 "hi. how are you. see you again"으로 수정된다. 이 예제에서는 "hi. how are you"가 수정을 위한 목적으로 재구술되었으나, "hi. how"만 재구술되는 경우에도 수정 목표 텍스트와 수정 목표 텍스트 이전에 입력된 수정 대상 텍스트 사이에 공통되는 단어 단위 텍스트인 "hi" 및 "how" 사이에서 삭제되어야 하는 텍스트인 "nice to meet you"가 인식될 수 있어서 보다 간편하게 "hi. how"만 재구술하는 방식으로도 동일한 수정을 실행할 수 있음이 이해되어야 한다.

[수정을 목적으로 재구술된 텍스트의 정확한 인식을 위한 기술의 실시예]

이하에서는 상술한 바와 같은 기술적 사상을 기반으로 하되 수정을 목적으로 재구술된 텍스트의 인식을 보다 정확히 할 수 있도록 하는 기술이 설명된다.

"Hey this is typing at all correction" 이라는 텍스트가 음성인식에 의하여 입력되었으나, 사용자가 실제로 입력을 의도한 텍스트는 "Hey this is typing error correction"이다.

사용자는 상술한 본 발명 특유의 보이스 입력 수정 방식에 따라 전체 텍스트를 재구술하지 않고, 오류가 있는 부분인 error 만 다시 입력한다. 그리고, 수정 명령과 이에 따른 연관성 체크에 따라 연관성이 소정 정도를 넘는 "at all"이 "error"로 치환되어 수정이 완료될 수 있다.

그런데, 앞서 설명한 바와 같이, 사용자가 수정을 위하여 입력한 텍스트, 즉 수정 목표 텍스트(위 예제에서는 "error")는 수정을 위한 구술 입력 시에도 이전과 동일하게 입력될 가능성이 존재한다. 실제로 "at all"과 "error"는 발음된 음성 파형 또는 발음 데이터가 동일 또는 유사하여 이와 같은 경우가 발생할 가능성이 높다.

실제로 음성 인식은 각 음성 파형에 대응하여 순위가 매겨진 소정 개수의 텍스트 후보를 파악하고 있다가 language 모델을 고려한 연산의 결과 가장 적합하다고 판단된 텍스트 후보를 출력하는 방식으로 이루어지고 있다.

그런데, 만일 "at all" 및 "error"에 상응하는 발음된 음성 파형에 대해서 "at all"이 1순위 텍스트 후보로, "error"가 2순위로 텍스트 후보로 지정되어 있고 이 상태의 변경이 이루어지지 않으면, 아무리 language 모델을 고려한다고 해도 "error"로의 수정을 위한 발음이 이루어지더라도 인식된 음성 파형에 상응하는 것으로 출력되는 텍스트가 "at all"로 이루어지는 가능성이 높을 것이다.

본 발명에서는 이러한 문제를 해결하기 위하여 다음과 같은 방식이 제안된다.

본 발명의 연관성 체크에 이은 치환 방식의 수정 방법에 있어서 수정 명령을 먼저 내리고 수정 목표 텍스트를 구술하는 것과 수정 목표 텍스트를 구술한 후에 수정 명령을 내리는 것 모두에 대해서 기술하였다. 이 중에서 먼저, 수정 명령을 내린 후 수정 목표 텍스트를 구술하는 경우의 해결 방식에 대하여 기술한다.

수정 명령을 먼저 내리는 방식에서는 "Hey this is typing at all correction"의 구술에 의한 텍스트 변환 이후 사용자가 "at all"이 "error"로 치환되어야 하는 것을 발견한 이후 이러한 의도로 수정 명령을 내린다. 그 이후 "error"에 상응하는 음성 파형을 발음하게 된다. 그러면, 장치는 이 발음된 음성 파형을 인식하고 표시함에 있어서 이전의 동일한 음성 파형이 "at all"로 인식되어 텍스트 입력된 것을 인식한다. 수정 명령 전후에 동일한 음성 파형이 존재하고, 수정 명령 이전의 음성 파형이 "at all"로 인식되었으므로, 장치는 수정 명령 이후에 사용자에 의하여 발음된 음성 파형은 동일한 음성 파형에 할당된 텍스트 후보 중 "at all"이 아닌 다른 텍스트 후보로 인식 및 표시한다.

당해 음성 파형에 있어서, 위에 기술한 바와 같이, 1순위 텍스트 후보는 "at all"이고 2순위 텍스트 후보는 "error"이다. 따라서, 수정 명령 이전에 입력된 1순위 텍스트 후보를 제외한 그 다음의 텍스트 후보인 "error"가 수정 목표 텍스트로 인식되고 표시된다.

다음으로는 수정 명령의 선후에 관계없이 모두 적용될 수 있는 방식이 기술된다. 이 방식은 도1과 연관되어 설명된다.

"Hey this is typing at all correction"의 구술에 의한 텍스트 변환 이후 사용자가 "at all"이 "error"로 치환되어야 하는 것을 발견하였다. 그 이후 수정 명령을 내린 후 "at all" 및" error"에 상응하는 음성 파형을 발음하거나 수정 명령을 내리지 않고(수정 명령이 수정 목표 텍스트의 입력 이후에 이루어지는 경우) 동일한 음성 파형을 발음한다. 그러면 장치는 바로 이전에 서술한 방식과 달리 일단 발음된 음성 파형에 할당된 복수 개의 텍스트 후보들을 순서대로 디스플레이 상에 표시한다.

도1에는 수정 의도로 발음된 음성 파형에 할당된 세 개의 후보 텍스트가 우선 순위에 따라 디스플레이 상에 표시된 것이 도시되었고, 이들 세 개의 후보 텍스트는 "at all", "error", "I don't know"이다. 1순위 후보 텍스트는 "at all"이고 2순위 후보 텍스트는 "error"이고 3순위 후보 텍스트는 "I don't know"이다.

이와 같이 수정 의도로 발음된 음성 파형에 할당된 후보 텍스트들이 표시된 상태에서 사용자는 이 중 하나를 선택할 수 있다.

발음된 음성 파형에 할당된 후보 텍스트들이 디스플레이 상에 표시되는 위치는 도1에 도시된 것에 국한되지 않고 사용자의 선택이 가능하게 하는 한 디스플레이 상 어디에나 표시될 수 있다.

이상 기술된 방식들에 의하여 수정 목표 텍스트(예제에서는 "error")와 수정 대상 텍스트(예제에서는 "at all")이 동일한 음성 파형에 할당된 텍스트인 경우에도 수정 의도를 갖고 재차 발음을 행할 경우에 원하는 수정 목표 텍스트의 정확한 입력이 가능하게 된다.

[본 발명의 수정 이벤트가 발생한 경우를 장치가 학습하도록 하여 사용자의 언어 사용 습관에 최적화한 텍스트 인식을 위한 기술의 실시예]

다음으로, 본 발명에 따른 보이스 텍스트 입력의 수정 방법에 있어서 장치가 사용자의 입력 및/또는 발음 습관을 학습하여 보다 정확한 텍스트 인식을 행할 수 있게 하는 기술에 대하여 설명한다. 이 기술을 간단히 요약하면 동일한 음성 파형에 할당된 후보 텍스트들 간의 우선순위를 사용자의 수정 이력을 반영하여 조정하는 것이다. 이하에서 보다 구체적으로 기술한다.

먼저, 사용자가 타이핑에 의한 수정 목표 텍스트를 입력하여 수정을 행한 경우이던, 음성 인식에 의한 수정 목표 텍스트를 입력하여 수정을 행한 경우이던, 장치는 본 발명 특유의 연관성 판단에 의한 텍스트 치환 방식의 수정이 이루어지면, 수정된 텍스트에 해당하는 음성 파형에 할당된 정보에 변경을 가한다.

예컨대, 특정 음성 파형에 대해 N개의 우선순위가 서로 다른 후보 텍스트들이 있다고 하고, 이 N이 5라고 할 때, 각각의 후보 텍스트에 할당된 점수가 10, 8, 6, 4 등으로 부여될 수 있다. 여기서, 점수가 높을수록 우선순위가 높다.

"Hey this is typing at all correction"라는 음성 구술에 의한 텍스트가 본 발명 특유의 수정 방식인 "error"의 입력에 이은 연관성 판단에 의한 치환 방식으로 "Hey this is typing error correction"로 수정되는 이벤트가 발생하면, 해당 음성 파형 또는 발음 데이터에 할당된 후보 텍스트들 중 "at all"에 대해서는 -1점, "error"에 대해서는 +1점을 부여하고 저장한다. 이런 결과로 해당 음성 파형에 할당된 후보 텍스트들의 점수는 예컨대 아래와 같이 변경될 수 있다.

"at all"에 부여된 점수: 10

"error"에 부여된 점수: 8

[수정 이벤트 발생 전]

"at all"에 부여된 점수: 9

"error"에 부여된 점수: 9

[수정 이벤트 1회 발생 후]

"at all"에 부여된 점수: 8

"error"에 부여된 점수:10

[수정 이벤트 2회 발생 후]

이러한 방식으로 음성 파형에 할당된 후보 텍스트들의 우선순위에 관련된 점수의 연산이 이루어짐으로써, 후보 텍스트들 간의 우선순위가 조정될 수 있다. 위 예제에서, 수정 이벤트 2회 발생 이후에는 "at all"에 부여된 점수보다 "error"에 부여된 점수가 높아지므로, 이후의 해당 음성 파형의 발음이 인식되는 경우 장치는 "at all"에 우선하여 "error"를 인식된 텍스트로 출력하게 된다. 우선순위를 정하는 점수가 동일한 경우(예컨대 위 예제에서 수정 이벤트 1회 발생 후)에는 최근에 점수가 상승한 후보 텍스트에 소정 가산점을 부여하는 방식으로 처리하여 최근에 점수가 상승한 후보 텍스트가 인식 및 표시되게 할 수도 있고, 동점 후보 존재의 경우 사용자가 선택할 수 있도록 디스플레이 상에 동점 후보들을 표시하는 방식으로도 구현 가능하다.

다음으로, 후보 텍스트의 우선 순위 조정에 있어서 전후 단어의 맥락을 파악하여 인식의 정확도를 높이는 기술에 대하여 설명한다.

"Hey this is typing at all correction"이라는 구술에 의하여 인식되어 표시된 텍스트가 "error"의 재구술 및 연관성 연관성 판단 방식에 의하여 "Hey this is typing error correction"으로 수정되었다고 하자.

이 기술에서는 수정이 이루어진 단어 단위의 텍스트 전후의 단어 단위의 텍스트를 장치의 데이터베이스에 저장한다. 위 예제에서 "at all"이 "error"로 치환되면서 수정되었으므로 그 전후의 단어 단위 텍스트인 "typing"과 "correction"이 데이터베이스에 저장된다. 데이터 베이스에 저장될 때, 각각의 전후 단어 단위 텍스트, 즉 "typing"과 "correction"은 치환 수정된 텍스트인 "error"와 연관지어진다.

"typing"이 "error"와 연관됨에 있어서, "typing"이라는 단어 단위 텍스트 이후에 위치되는 텍스트로서 "error"에는 +1의 가산점을 부여하게 된다. 마찬가지로, "correction"이 "error"와 연관됨에 있어서, "correction"이라는 단어 단위 텍스트 이전에 위치되는 텍스트로서 "error"에는 +1의 가산점을 부여하게 된다.

따라서, 위 예제에서와 같은 치환 수정 이벤트가 발생한 이후에 사용자가 "typing error"라는 텍스트를 음성 인식에 의하여 입력하고자 할 때 "error"에 상응하는 음성 파형을 인식하고 표시함에 있어서 동일한 음성 파형에 할당된 후보 텍스트들이 "at all", "error", "I don't know" 등으로 복수가 존재할 때 그 바로 앞에 위치한 텍스트로서 "typing"이 존재하면 이에 연관된 "error"라는 텍스트에 대하여 +1의 가산점을 부여하는 연산을 하게 되어 설령 당시의 후보 텍스트의 순위 상 "at all"이 "error"보다 높더라도 우선 순위의 조정이 발생하여 "error"를 표시해 줄 수 있도록 한다. 이러한 방식에서 "error"에 부여하는 가산점은 +1로 예시하였으나 실제 적용하는 환경에 따라 가산점의 크기는 변경될 수 있다.

만일 사용자가 "typing error correction"이라는 텍스트를 음성 인식에 의하여 입력하고자 할 때 "error"에 상응하는 음성 파형을 인식하고 표시함에 있어서 동일한 음성 파형에 할당된 후보 텍스트들이 "at all", "error", "I don't know" 등으로 복수가 존재할 때 그 바로 앞에 위치한 텍스트로서 "typing"이 존재할 뿐만 아니라 그 바로 뒤에 위치한 텍스트로서 "correction"이 존재하면, 이에 연관된 "error"라는 텍스트에 대하여 +2의 가산점("typing"에 의해 +1, "correction"에 의하여 +1)을 부여하는 연산을 하게 되어 우선 순위의 조정에 따라 복수의 수정 후보 텍스트들 중 사용자에 의도에 부합하는 "error"가 인식되고 표시될 가능성이 보다 높아진다.

상기 예제에서는 치환 방식에 의한 수정이 발생한 단어 단위 텍스트 바로 이전과 바로 이후의 텍스트만 고려하는 우선 순위 조정 방식에 대하여 설명하였지만, 실제 구현이 이에 한정되는 것은 아니다. 장치의 연산 능력을 고려하여 N개(N은 2이상)의 단어 단위 텍스트로까지 확장하는 것은 당연히 본 발명의 범주에 포함된다. 이때 적용되는 알고리즘, 즉 처리방식은 앞서 기술한 방식과 동일한 방식에 기반한다.

이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항과 한정된 실시예에 의하여 설명되었으나,　이는 본 발명의 보다 전반적인 이해를 돕기 위하여 제공된 것일 뿐,　본 발명이 상기 실시예에 한정되는 것은 아니며,　본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변경을 꾀할 수 있다. 특히, 본 실시예에 기재된 연관성 판단 방법, 즉 발음 유사에 기반한 연관성 판단 방법이나 키보드 배치를 고려한 연관성 판단 방법만이 사용되는 것으로 이해되어서는 안된다. 본 발명은 연관성 판단의 정확성을 높이기 위하여 다른 연관성 판단 방법, 예컨대 음파에 기반한 연관성 판단 방법이 함께 사용되는 것을 결코 배제하고 있지 않다.

본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며,　후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.

Claims

전자 장치에 의해 수행되는 음성 인식 텍스트 수정 방법에 있어서,
이전에 입력된 수정 대상 텍스트를 수정하기 위해 기 입력 받은 수정 목표 텍스트가 의도된 대로 입력된 것이 아닌 경우, 상기 기 입력 받은 수정 목표 텍스트를 사용자로부터 수정 명령이 수신되기 전이며 상기 사용자로부터 수정 목표 텍스트 입력 대기 명령이 수신된 후에 상기 사용자로부터의 음성 인식에 의하여 입력 받은 수정용 수정 목표 텍스트에 기반하여 변경함으로써, 상기 수정 대상 텍스트를 수정하기 위한 수정 목표 텍스트를 결정하는 단계와,
상기 수정 명령이 수신되면, 상기 결정된 수정 목표 텍스트와 상기 수정 대상 텍스트와의 연관성을 계산하는 단계와,
상기 연관성을 계산하는 단계에서의 연관성 계산 결과에 기반하여, 연관성 계산 점수가 설정된 조건을 만족하는 상기 수정 대상 텍스트 또는 상기 수정 대상 텍스트의 부분 텍스트를 수정 후보 텍스트로 선정하고,　상기 수정 후보 텍스트를 상기 결정된 수정 목표 텍스트로 치환 입력하는 단계를 포함하는 음성 인식 텍스트 수정 방법.
제1항에 있어서,
상기 수정 목표 텍스트를 결정하는 단계는,
상기 사용자로부터 음성 인식에 의하여 제1 수정 목표 텍스트를 입력 받는 단계와,
상기 제1 수정 목표 텍스트를 입력 받은 후, 상기 사용자로부터 상기 수정 목표 텍스트 입력 대기 명령을 수신하는 단계와,
상기 수정 목표 텍스트 입력 대기 명령이 수신되고 상기 사용자로부터 상기 수정 명령이 수신되기 전에, 상기 사용자로부터 음성 인식에 의해 적어도 한 번의 제2 수정 목표 텍스트를 상기 수정용 수정 목표 텍스트로서 입력 받는 단계와,
상기 제2 수정 목표 텍스트로 상기 제1 수정 목표 텍스트를 대체함으로써 상기 수정 대상 텍스트를 수정하기 위한 수정 목표 텍스트를 결정하는 단계
를 포함하는 음성 인식 텍스트 수정 방법.
제1항에 있어서,
상기 사용자로부터 음성 인식에 의해 수정 목표 텍스트가 입력되면 입력된 수정 목표 텍스트에 대응하는 음성 파형에 할당된 복수의 후보 텍스트들이 디스플레이 상에서 선택 가능하게 표시되는 음성 인식 텍스트 수정 방법.
제1항에 있어서,
상기 결정된 수정 목표 텍스트에 대응하는 음성 파형에 할당된 복수의 후보 텍스트들 중 어느 하나가 수정 대상 텍스트에 존재하는 경우, 상기 치환 입력하는 단계에 있어서, 상기 수정 대상 텍스트에 존재하는 후보 텍스트는 상기 수정 후보 텍스트를 상기 결정된 수정 목표 텍스트로 치환 입력함에 있어서 고려되지 않는 음성 인식 텍스트 수정 방법.
제1항에 있어서,
상기 치환 입력하는 단계가 수행된 후, 상기 수정 후보 텍스트 및 상기 결정된 수정 목표 텍스트에서 공통되는 음성 파형에 할당된 후보 텍스트로서, 상기 수정 후보 텍스트와 동일한 후보 텍스트에 대해서는 우선 순위를 낮추는 연산을 수행하고, 상기 결정된 수정 목표 텍스트와 동일한 후보 텍스트에 대해서는 우선 순위를 높이는 연산을 수행하는 음성 인식 텍스트 수정 방법.
제1항에 있어서,
상기 치환 입력하는 단계가 수행된 후, 상기 수정 대상 텍스트에서 상기 치환 입력된 수정 후보 텍스트의 전후에 존재하는 텍스트를 상기 치환 입력되는 결정된 수정 목표 텍스트의 적어도 일부와 연관지어 데이터베이스에 저장하고, 이를 고려하여 동일한 음성 파형에 할당된 후보 텍스트들 간의 우선 순위를 조정하는 음성 인식 텍스트 수정 방법.
음성 인식 텍스트 수정을 위한 전자 장치에 있어서,
이전에 입력된 수정 대상 텍스트를 수정하기 위해 기 입력 받은 수정 목표 텍스트가 의도된 대로 입력된 것이 아닌 경우, 상기 기 입력 받은 수정 목표 텍스트를 사용자로부터 수정 명령이 수신되기 전이며 상기 사용자로부터 수정 목표 텍스트 입력 대기 명령이 수신된 후에 상기 사용자로부터의 음성 인식에 의하여 입력 받은 수정용 수정 목표 텍스트에 기반하여 변경함으로써, 상기 수정 대상 텍스트를 수정하기 위한 수정 목표 텍스트를 결정하고,
상기 수정 명령이 수신되면, 상기 결정된 수정 목표 텍스트와 상기 수정 대상 텍스트와의 연관성을 계산하고,
상기 연관성의 계산 결과에 기반하여, 연관성 계산 점수가 설정된 조건을 만족하는 상기 수정 대상 텍스트 또는 상기 수정 대상 텍스트의 부분 텍스트를 수정 후보 텍스트로 선정하고,　상기 수정 후보 텍스트를 상기 결정된 수정 목표 텍스트로 치환 입력하는 전자 장치.