WO2015163684A1

WO2015163684A1 - 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체

Info

Publication number: WO2015163684A1
Application number: PCT/KR2015/004010
Authority: WO
Inventors: 김민철
Original assignee: 주식회사 큐키
Priority date: 2014-04-22
Filing date: 2015-04-22
Publication date: 2015-10-29
Also published as: CN105210147B; JP2016521383A; US10395645B2; CN110675866B; CN110675866A; US20170032778A1; CN105210147A

Abstract

본 발명은 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체에 관한 것이다. 본 발명에 따르면, 적어도 하나의 의미 유닛의 집합을 음성이나 텍스트를 이용하여 개선할 수 있게 된다.

Description

적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체

본 발명은 적어도 하나의 의미론적 유닛(이하에서는, 간략히 "의미 유닛"이라고도 칭하기로 함)의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체에 관한 것이다.

[연관 출원의 상호 참조]

본 출원은 본 발명자의 연관 발명에 관한 특허출원인 한국특허출원 제10-2014-0048315호 및 제10-2014-0077056호와 상호 참조의 관계에 있다. 여기서, 상기 출원들의 명세서는 그 전체로서 편입된 것으로 간주되어야 한다.

사람의 음성을 인식하여 이를 보다 표준적인 의미 유닛의 집합(즉, 의미론적인 유닛을 적어도 하나 포함하는 집합)으로 변환하기 위한 시도가 다수 행하여진 바 있다. 이러한 의미 유닛 집합은 특정 언어에 해당하는 디지털 음성으로 출력되거나 특정 언어의 텍스트로 표기될 수 있는 것이기도 하다. 전자의 경우, 의미 유닛 집합은 광의의 음성 인식 중 하나인 아날로그 음성의 분석에 따른 결과인 디지털 음성일 수 있고, 후자의 경우, 의미 유닛 집합은 협의의 음성 인식에 따른 결과인 음성 인식 텍스트일 수 있다.

그러나, 위와 같은 시도에 따라 획득되는 의미 유닛 집합은 품질의 측면에 있어서 어느 정도 한계가 있었다. 예컨대, 사람마다 무수히 다양한 발화 습관이나 일부 인물의 불명료한 발음, 사전에 없는 어휘나 방언의 사용, 주변의 잡음 등은 음성 인식 기술에 의존하여 의미 유닛의 집합을 도출하는 작업에 실질적인 어려움을 부과하는 것이었다.

따라서, 본 발명자는 적어도 하나의 의미 유닛의 집합을 개선용 음성(즉, 개선을 위하여 따로 발화되는 음성)을 이용하여 개선하여, 결과적으로 더 우수한 품질의 의미 유닛 집합이 획득되도록 하기 위한 새로운 기술을 여기서 제시하는 바이다.

한편, 개선용 음성에 의한 개선의 대상이 되는 의미 유닛 집합이 반드시 음성 인식 기술에 의하여 획득된 것에 한정되어야 하는 것도 아니다. 예컨대, 개선의 대상이 되는 의미 유닛 집합은 사용자에 의하여 애초에 텍스트로서 입력된 것일 수도 있다(즉, 음성 인식 기술에 의하여 획득된 것이 아닐 수도 있다).

그리고, 역으로, 개선의 대상이 되는 의미 유닛 집합이 음성 인식 기술에 의하여 획득된 것이고, 이것을 개선하기 위하여, 개선용 음성이 아닌 개선용 텍스트가 사용되는 경우까지도 상정할 수 있다.

본 발명자는 위와 같은 여러 경우에 있어서 사용될 수 있는 새로운 기술도 여기서 함께 제시하는 바이다.

본 발명은 전술한 종래 기술의 문제점을 모두 해결하는 것을 그 목적으로 한다.

본 발명은 적어도 하나의 의미 유닛의 집합을 음성이나 텍스트를 이용하여 개선하는 것을 다른 목적으로 한다.

본 발명은 음성 인식의 결과를 용이하게 그리고 정확하게 개선하는 것을 또 다른 목적으로 한다.

본 발명은 텍스트 입력의 결과를 용이하게 그리고 정확하게 개선하는 것을 또 다른 목적으로 한다.

적어도 하나의 의미 유닛을 포함하는 집합은, 그것이 소정의 전자 장치(미도시됨)를 통하여 사람의 아날로그적인 음성을 인식한 결과물로서의 디지털 음성이나 텍스트인지, 아니면 소정의 전자 장치(미도시됨)를 통하여 입력된 후에(예를 들면, 키보드나 키패드에 의하여 입력된 후에) TTS(Text To Speech) 기술에 의하여 출력되는 디지털 음성이나 마찬가지로 입력된 후에 화면 상에서 디스플레이되는 텍스트인지를 가리지 아니 하고, 아래에서 설명되는 본 발명에 따라 개선용 음성에 의하여 개선될 수 있다. 이러한 개선의 양태로서, 음성 인식 결과의 수정, 입력되어 디스플레이된 텍스트에 있어서의 오타의 수정 등을 들 수 있다.

한편, 적어도 하나의 의미 유닛을 포함하는 집합은, 그것이 소정의 전자 장치(미도시됨)를 통하여 사람의 아날로그적인 음성을 인식한 결과물로서의 디지털 음성이나 텍스트인 경우, 아래에서 설명되는 본 발명에 따라 개선용 텍스트에 의하여 개선될 수도 있다. 이러한 개선의 양태로서, 음성 인식 결과의 수정을 들 수 있다.

위와 같은 관점에서 상기 목적을 달성하기 위한 본 발명의 대표적인 구성은 다음과 같다.

본 발명의 일 태양에 따르면, 적어도 하나의 의미 유닛을 포함하는 집합 - 상기 적어도 하나의 의미 유닛을 포함하는 상기 집합은 포착된 의미 유닛 집함임 - 을 개선하기 위한 방법으로서, 사용자의 발화에 따라 개선용 음성을 수신하는 단계, 상기 개선용 음성에 기초하여 개선용 의미 유닛 집합을 특정하는 단계, 상기 개선용 의미 유닛 집합과의 연관성에 기초하여, 상기 포착된 의미 유닛 집합 내에서 실제적인 개선의 대상이 되는 의미 유닛 집합을 매칭된 의미 유닛 집합으로서 특정하는 단계, 및 상기 포착된 의미 유닛 집합 내의 상기 매칭된 의미 유닛 집합을 상기 개선용 의미 유닛 집합으로 교체하는 단계를 포함하는 방법이 제공된다.

이 외에도, 본 발명을 구현하기 위한 다른 방법, 다른 장치 및 상기 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체가 더 제공된다.

본 발명에 의하면, 적어도 하나의 의미 유닛의 집합을 음성이나 텍스트를 이용하여 개선할 수 있게 된다.

본 발명에 의하면, 음성 인식의 결과를 용이하게 그리고 정확하게 개선할 수 있게 된다.

본 발명에 의하면, 텍스트 입력의 결과를 용이하게 그리고 정확하게 개선할 수 있게 된다.

도 1은 본 발명의 일 실시예에 따른 의미 유닛 개선 장치의 외양을 개략적으로 나타내는 도면이다.

도 2는 본 발명의 일 실시예에 따른 의미 유닛 개선 장치의 내부 구성을 개념적으로 나타내는 블록도이다.

도 3은 본 발명의 실시예에 따른 매칭 방법에 관한 예시적인 흐름도이다.

도 4는 본 발명의 실시예에 따른 의미 유닛 개선 방법에 관한 예시적인 흐름도이다.

도 5는 본 발명의 일 실시예에 따른 디지털 음성 비교 방법에 관하여 도시하는 흐름도이다.

도 6은 본 발명의 일 실시예에 따른 텍스트 비교 방법에 관하여 도시하는 흐름도이다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이러한 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 본 명세서에 기재되어 있는 특정 형상, 구조 및 특성은 본 발명의 정신과 범위를 벗어나지 않으면서 일 실시예로부터 다른 실시예로 변경되어 구현될 수 있다. 또한, 각각의 실시예 내의 개별 구성요소의 위치 또는 배치도 본 발명의 정신과 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 행하여지는 것이 아니며, 본 발명의 범위는 특허청구범위의 청구항들이 청구하는 범위 및 그와 균등한 모든 범위를 포괄하는 것으로 받아들여져야 한다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 구성요소를 나타낸다.

이하에서는, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 여러 바람직한 실시예에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.

[본 발명의 바람직한 실시예]

장치의 구성

도 1에 도시된 바와 같이, 의미 유닛 개선 장치(100)는, 사용자에게 각종 의미 유닛 집합 등에 관한 시각적인 정보를 디스플레이하여 주는 디스플레이부(110)(예를 들면, 디스플레이 패널), 의미 유닛 개선 장치(100)의 종류에 따라 사용자가 누르거나 만지면 소정의 기능이 수행되도록 할 수 있는 버튼부(120)(예를 들면, 스마트 폰의 홈 버튼), 의미 유닛 개선 장치(100)에서 발생되는 음성이나 음향을 출력할 수 있는 음 출력부(130)(예를 들면, 스피커), 음향 센서(많은 경우, 버튼부(120)의 아래 부근에 배치되는 마이크)(미도시됨), 기타 공지의 전기전자 부품(미도시됨) 등을 포함할 수 있다. 도 1에서 의미 유닛 개선 장치(100)가 스마트 폰인 것처럼 도시되었으나, 의미 유닛 개선 장치(100)가 이에 제한되는 것은 전혀 아니고, 데스크탑 컴퓨터, 노트북 컴퓨터, 워크스테이션, PDA, 웹 패드, 이동 전화기(스마트 폰이 아닌 것), 각종 스마트 웨어러블 디바이스(예를 들면, 스마트 워치, 스마트 밴드, 스마트 글래스, 스마트 링 등) 등과 같이 메모리 수단을 구비하고 마이크로 프로세서를 탑재하여 연산 능력을 갖춘 디지털 기기라면 얼마든지 본 발명에 따른 의미 유닛 개선 장치(100)로서 채택될 수 있다.

한편, 디스플레이부(110)는 공지의 터치 패널로서 작용하여 사용자의 텍스트 입력을 수신하기 위한 기능을 더 수행할 수 있다. 이때, 사용자의 텍스트 입력은 터치 패널과 연동하여 소프트웨어적으로 제공되는 터치 패널 상의 키보드(미도시됨)나 키패드(미도시됨)에 의하여 이루어질 수 있다. 다만, 의미 유닛 개선 장치(100)는 별도의 하드웨어 키보드/키패드(미도시됨)를 포함하여 사용자의 텍스트 입력을 수신할 수도 있다.

아래에서는, 의미 유닛 개선 장치(100)의 내부 구성에 관하여 도 2를 참조하여 자세하게 살펴보기로 한다. 도 2는 본 발명의 일 실시예에 따른 의미 유닛 개선 장치의 내부 구성을 개념적으로 나타내는 블록도이다.

도 2에 도시된 바와 같이, 본 발명의 일 실시예에 따른 의미 유닛 개선 장치(100)는 음성 감지부(210), 음성 처리부(220), 의미 유닛 개선부(230), 데이터베이스(250) 및 제어부(260)를 포함할 수 있다. 본 발명의 일 실시예에 따르면, 음성 감지부(210), 음성 처리부(220), 의미 유닛 개선부(230), 데이터베이스(250) 및 제어부(260)는 그 중 적어도 일부가 소정의 연산을 수행하거나 다른 하드웨어 구성요소나 소프트웨어 구성요소를 관리하거나 이러한 구성요소와 통신하기 위한 프로그램 모듈일 수 있다.　 이러한 프로그램 모듈은 운영 시스템, 응용 프로그램 모듈 또는 기타 프로그램 모듈의 형태로 의미 유닛 개선 장치(100)에 포함될 수 있고, 물리적으로는 여러 가지 공지의 기억 장치에 저장될 수 있다.　 또한, 이러한 프로그램 모듈은 의미 유닛 개선 장치(100)와 통신 가능한 원격 기억 장치(미도시됨)나 심지어 외부의 연산 장치(미도시됨)에 저장될 수도 있다. 따라서, 의미 유닛 개선 장치(100)의 기능의 적어도 일부는 당업자의 자유로운 선택에 따라 외부 연산 장치 등에 의하여 실행될 수도 있다. 한편, 이러한 프로그램 모듈은 본 발명에 따라 후술할 특정 업무를 수행하거나 특정 추상 데이터 유형을 실행하는 루틴, 서브루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포괄하지만, 이에 제한되지는 않는다.

먼저, 본 발명의 일 실시예에 따른 음성 감지부(210)는, 사용자 등에 의하여 발화되는 음성, 즉, 개선의 대상이 되는 적어도 하나의 의미 유닛의 집합을 포함하는 더 큰 의미 유닛 집합에 해당하는 아날로그 음성이나, 위와 같은 개선을 위하여 사용자에 의하여 따로 더 발화될 수 있는 개선용 음성을 감지하는 기능을 수행할 수 있다.

이를 위하여, 음성 감지부(210)는 전술한 바와 같은 음향 센서를 그 일부로서 포함하거나 적어도 이러한 음향 센서와 통신할 수 있다. 이와 같은 음향 센서의 예에는, 마이크와 같은 일반적인 음향 센서는 물론, 진폭이 작은 음성 신호도 감지할 수 있는 소음 센서와 진동 센서, 초음파 센서 등이 포함될 수 있다.

음향 센서는 의미 유닛 개선 장치(100)의 음성 감지부(210), 섀시(chassis), 메인 보드(미도시됨), PCB(Printed Circuit Board)(미도시됨), 인클로저(enclosure)(미도시됨) 등 중에서 적어도 어느 한 부분에 배치될 수 있다.

그리고, 음성 감지부(210)는 감지된 음성의 아날로그 신호를 후술하는 바와 같은 음성 처리부(220)로 전달할 수 있다.

다음으로, 본 발명의 일 실시예에 따른 음성 처리부(220)는 음성 감지부(210)로부터 전달 받은 아날로그 음성 신호를 디지털 신호로 변환하는 기능을 수행할 수 있다.

음성 처리부(220)는 공지의 아날로그-디지털 컨버터를 포함할 수 있다. 따라서, 음성 처리부(220)는 표본화(sampling), 양자화(quantization) 및 부호화(encoding)의 프로세스 중 적어도 하나를 수행함으로써, 개선의 대상이 되는 의미 유닛 집합을 포함하는 더 큰 의미 유닛 집합에 해당하는 음성이나 개선용 음성의 신호를 아날로그 신호로부터 디지털 신호로 변환할 수 있다.

또한, 음성 처리부(220)는, 필요에 따라, 음성 신호를 증폭시키거나, 음성 신호로부터 소음을 제거하거나, 특정 주파수 대역의 음성 신호만을 선별적으로 수신하거나, 음성 신호의 파형을 변경하거나 할 수 있다. 이를 위하여, 음성 처리부(220)는 공지의 증폭기, 소음 필터, 밴드패스/밴드리젝트 필터, 칼만(Kalman) 필터, EMA 필터, 사비츠키-골레이(Savitzky-Golay) 필터 등을 포함할 수 있다. 또한, 음성 처리부(220)는 시간 도메인의 음성 신호를 주파수 도메인의 것으로 변환하는 처리나 그 역의 처리를 수행할 수도 있다.

그리고, 음성 처리부(220)는 처리의 결과물인 디지털 음성 신호를 후술하는 바와 같은 의미 유닛 개선부(230)로 전달할 수 있다.

다음으로, 본 발명의 일 실시예에 따른 의미 유닛 개선부(230)는 음성 처리부(220)로부터 전달 받은 디지털 음성 신호에 따른, 개선의 대상이 되는 특정 의미 유닛 집합을 포함하는 더 큰 의미 유닛 집합을 포착할 수 있다. 이것은 물리적으로는 해당 디지털 음성 자체이거나 그 텍스트로의 변환 결과일 수 있다. 후자의 경우나 후술하는 바와 같은 다른 음성 인식 니즈를 위하여, 의미 유닛 개선부(230)는 공지의 음성 인식 모듈을 포함하거나 이와 연동할 수 있다. 이하에서는, 위와 같은 의미 유닛 집합을 "포착된 의미 유닛 집합"이라고 칭하기로 한다.

한편, 의미 유닛 개선부(230)는 역시 음성 처리부(220)로부터 전달 받은 디지털 음성 신호에 따른 개선용 음성을 특정할 수 있다. 이하에서는, 위와 같이 특정된 개선용 음성에 해당하는 의미 유닛 집합을 "개선용 의미 유닛 집합"이라고 칭하기로 한다. 이것 역시 물리적으로는 해당 디지털 음성 자체이거나 그 텍스트로의 변환 결과일 수 있다.

또 한편, 의미 유닛 개선부(230)에서 다루어지는 포착된 의미 유닛 집합은 반드시 디지털 음성 신호로부터 유래할 필요도 없다. 즉, 예를 들어, 아날로그적이거나 디지털적인 음성의 발생과는 무관하게, 사용자의 키 입력, 광학 문자 판독 등에 의하여 획득된 텍스트에 해당하는 의미 유닛 집합 역시 상기와 같은 포착된 의미 유닛 집합이 될 수 있다.

또 한편, 소정의 개선용 텍스트가 개선용 의미 유닛 집합을 구성할 수도 있다. 예를 들면, 사용자가 키보드에 의하여 입력한 텍스트가 바로 개선용 의미 유닛 집합이 될 수도 있다.

요약하면, 본 발명의 실시예들에 따른 포착된 의미 유닛 집합과 개선용 의미 유닛 집합의 대응 관계에 관한 경우의 수는 다음의 표 1에서와 같을 수 있다.

표 1

그리고, 의미 유닛 개선부(230)는 포착된 의미 유닛 집합과 개선용 의미 유닛 집합을 비교하여, 포착된 의미 유닛 집합으로부터 개선용 의미 유닛 집합과 높은 연관성을 나타내는, 실제적인 개선의 대상이 되는 의미 유닛 집합을 추출할 수 있다. 이러한 추출을 개선의 대상이 되는 의미 유닛 집합과 개선용 의미 유닛 집합 사이의 "매칭"이라고도 칭할 수 있다. 이러한 매칭을 위하여 수행되는 상기 비교는 디지털 음성 간의 비교일 수도 있고, 텍스트 간의 비교일 수도 있으며, 디지털 음성과 텍스트 간의 비교일 수도 있다(다만, 이 경우에는, 디지털 음성과 텍스트 중 하나가 다른 하나와 같은 형식의 것으로 사전에 변환되는 것이 필요할 수 있다). 매칭된 개선 대상 의미 유닛 집합은 편의상 "매칭된 의미 유닛 집합"이라고 칭하기로 한다. 이것은 하나의 포착된 의미 유닛 집합 내에 하나만 존재할 수도 있지만, 복수 개 존재할 수도 있다.

한편, 의미 유닛 개선부(230)는 매칭을 위하여 사용자의 입력(즉, 개선용 음성의 발화나 개선용 텍스트의 입력 외의 다른 입력)에 의한 정보를 더 활용할 수도 있다. 예를 들어, 비교적 높은 연관성의 의미 유닛 집합이 복수 개 추출되면, 사용자가 이 중 적어도 일부를 수동적으로 선택하도록 함으로써 매칭된 의미 유닛 집합을 결정할 수도 있다.

본 발명에 따른 매칭에 관하여는 아래에서 더 상술하기로 한다.

다음으로, 의미 유닛 개선부(230)는 포착된 의미 유닛 집합을 개선용 의미 유닛 집합에 의하여 개선할 수 있다. 즉, 매칭된 의미 유닛 집합이 개선용 의미 유닛 집합으로 교체될 수 있다. 이러한 교체는 포착된 의미 유닛 집합 내에 존재하던 매칭된 의미 유닛 집합을 삭제하고, 대신 그 자리에 개선용 의미 유닛 집합을 삽입하는 것일 수 있다. 그 결과물은 포착된 의미 유닛 집합이 물리적 형식은 유지하되 그 품질은 개선된 것일 수 있다. 이러한 결과물은 물리적으로는 디지털 음성이거나 텍스트일 수 있다.

본 발명에 따른 의미 유닛 집합의 개선에 관하여는 아래에서 더 상술하기로 한다.

다음으로, 본 발명의 일 실시예에 따른 데이터베이스(250)에는, 포착된 의미 유닛 집합, 개선용 의미 유닛 집합 그리고 매칭에 관한 정보가 저장될 수 있다. 비록 도 2에서 데이터베이스(250)가 의미 유닛 개선 장치(100)에 포함되어 구성되는 것으로 도시되어 있지만, 본 발명을 구현하는 당업자의 필요에 따라, 데이터베이스(250)는 의미 유닛 개선 장치(100)와 별개로 구성될 수도 있다. 한편, 본 발명에서의 데이터베이스(250)는, 컴퓨터 판독 가능한 기록 매체를 포함하는 개념으로서, 협의의 데이터베이스뿐만 아니라 파일 시스템에 기반을 둔 데이터 기록 등을 포함하는 광의의 데이터베이스일 수도 있으며, 단순한 로그의 집합이라도 이를 검색하여 데이터를 추출할 수 있다면 본 발명에서의 데이터베이스(250)가 될 수 있다.

마지막으로, 본 발명의 일 실시예에 따른 제어부(260)는 음성 감지부(210), 음성 처리부(220), 의미 유닛 개선부(230) 및 데이터베이스(250) 간의 데이터의 흐름을 제어하는 기능을 수행할 수 있다. 즉, 본 발명에 따른 제어부(260)는 의미 유닛 개선 장치(100)의 각 구성요소 간의 데이터 흐름을 제어함으로써, 음성 감지부(210), 음성 처리부(220), 의미 유닛 개선부(230) 및 데이터베이스(250)에서 각각 고유 기능을 수행하도록 제어할 수 있다.

매칭

아래에서는, 도 3을 참조하여, 위에서 약술한 바와 같은 매칭에 관하여 자세하게 살펴보기로 한다. 도 3은 본 발명의 실시예에 따른 매칭 방법에 관한 예시적인 흐름도이다.

먼저, 의미 유닛 개선부(230)는 개선용 의미 유닛 집합을 특정하는 단계(S1)를 수행할 수 있다.

일 실시예에 따르면, 의미 유닛 개선부(230)는 음성 처리부(220)로부터 전달 받은 디지털 음성 신호 중에서 사용자의 소정의 지시의 전이나 후에(또는, 직전이나 직후에) 전달 받은 디지털 신호의 음성을 개선용 음성으로서, 즉, 개선용 의미 유닛 집합으로서 특정할 수 있다(위와 같은 지시는 사용자의 미리 약속된 단어의 발화나 미리 약속된 키의 입력일 수 있다).

예를 들어, 사용자가 "I can correct typing at all without backspace error"에 해당하는 음성을 발화하고 나서 소정의 지시를 내린 경우, "error"에 해당하는 디지털 음성이나 그것이 음성 인식에 의하여 변환된 텍스트가 개선용 의미 유닛 집합으로서 특정될 수 있다. 이러한 특정은 "error"에 해당하는 음성 부분(즉, 개선용 음성)과 그 앞의 음성 부분(즉, "backspace"에 해당하는 음성 부분이나 "without backspace"에 해당하는 음성 부분) 사이의 시간 간격이 소정의 임계치 이상이라는 점에 근거할 수 있다. 한편, 이 예에서는, "I can correct typing at all without backspace"에 해당하는 디지털 음성이나 그것이 음성 인식에 의하여 변환된 텍스트가 포착된 의미 유닛 집합이 될 수 있다.

다른 실시예에 따르면, 의미 유닛 개선부(230)는, 예를 들어, 사용자가 "I can correct typing at all without backspace"와 같은 텍스트(즉, 포착된 의미 유닛 집합)가 화면에 디스플레이된 것에 대하여 개선을 하는 것을 의도하여 소정의 지시를 내리면서 그 전이나 후에(또는, 직전이나 직후에) "error"를 발화한 경우에도, 이에 해당하는 디지털 음성에 기초하여 개선용 의미 유닛 집합을 특정할 수 있다.

또 다른 실시예에 따르면, 의미 유닛 개선부(230)는, 예를 들어, 사용자가 "I can correct typing at all without backspace"에 해당하는 음성을 발화하고 나서, 이것이 화면에 디스플레이된 것을 본 후 이에 관한 개선을 의도하여 소정의 지시를 내리면서 그 전이나 후에(또는, 직전이나 직후에) "error"와 같은 개선용 텍스트를 키보드에 의하여 입력한 경우에도, 이에 기초하여 개선용 의미 유닛 집합을 특정할 수 있다.

다음으로, 의미 유닛 개선부(230)는, 특정된 개선용 의미 유닛 집합에 근거하여, 포착된 의미 유닛 집합 내에서 실제적인 개선의 대상이 되는 의미 유닛 집합을 특정하는 단계(S2)를 수행할 수 있다.

상기 단계의 수행 전에, 전술한 바와 같이, 실제적인 개선의 대상이 되는 특정 의미 유닛 집합을 포함하는 더 큰 의미 유닛 집합이 포착되어 있을 수 있다. 이러한 포착된 의미 유닛 집합은, 위에서 예시된 바와 같은, "I can correct typing at all without backspace"의 의미 유닛 집합일 수 있다.

의미 유닛 개선부(230)는 포착된 의미 유닛 집합 내의 유닛 간의 시간 간격이나 스페이스 그리고/또는 개선용 의미 유닛 집합의 길이(예를 들면, 그에 해당하는 디지털 음성 신호의 지속 시간, 텍스트의 길이, 어절의 수, 단어의 수, 음절의 수, 글자의 수, 어소의 수 등)에 기초하여, 포착된 의미 유닛 집합을, 예를 들면, "I can", "can correct", "correct typing", "typing at", "at all", "all without", "without backspace" 등의 부분들과 같이, 나누고 확장한 후에, 각 부분을 개선용 의미 유닛 집합과 비교하여 볼 수 있다. 물론, "I", "can", "correct", "typing", "at", "all", "without", "backspace" 등의 부분들과 같이 나누거나, "correct"가 아닌 "cor", "rect" 등과 같이 나누는 것도 또한 가능하다. 이러한 경우, 각 부분은 그 중 하나 이상이 함께, 개선용 의미 유닛 집합과 비교될 수 있다. 이상에서 그리고 이하에서, 포착된 의미 유닛 집합을 개선용 의미 유닛 집합과의 비교를 위하여 나누거나 확장하는 것에 관하여 설명하지만, 포착된 의미 유닛 집합의 부분이 개선용 의미 유닛 집합과 비교될 수 있는 이상, 포착된 의미 유닛 집합의 부분들로의 분리(나눔)나 부분들의 확장(즉, 부분들의 배열이 중첩적으로 되도록 하는 것) 외의 다른 방식도 얼마든지 채택될 수 있다.

이러한 비교는, 디지털 음성 간의 비교인 경우에는, 시간 도메인이나 주파수 도메인에서의 디지털 음성의 특징의 비교일 수 있다. 이러한 음성 특징 중에서 전형적으로 사용되는 것은 디지털 음성 신호의 파(wave)에 있어서의 특징점일 수 있다. 즉, 동일한 재생 시간 구간 내에서 두 디지털 음성 신호 간에 더 많은 공통의 특징점이 발견될수록, 두 디지털 음성이 서로 더 높은 연관성을 갖는 것으로 볼 수 있다. 다만, 디지털 음성 간의 비교를 위하여는 다양한 알고리즘이 사용될 수 있으므로, 고려 대상이 되는 디지털 음성의 특징(특성)은 아래의 것들 중 하나 이상을 자유롭게 포함할 수 있다.

(1) 시간 도메인에서의 음성 신호의 특성

최대 진폭, 평균 진폭, 평균 주파수, 평균치, 표준 편차, 전체적인(overall) 진폭에 의하여 노멀라이징된 표준 편차, 분산(variance), 스큐니스(skewness), 커토시스(Kurtosis), 합, 절대 합, 실효치(Root Mean Square; RMS), 크레스트 팩터, 분산(dispersion), 엔트로피(entropy), 파워 섬(power sum), 질량 중심(center of mass), 변동 계수(coefficients of variation), 상호 상관성(cross correlation), 제로 크로싱(zero-crossings), 반복성(seasonality), DC 바이어스, 또는 상기 음성 신호의 1차, 2차, 3차 또는 그 이상의 차수의 데리버티브(derivative)에 대해 계산된 위와 같은 특성

(2) 주파수 도메인에서의 음성 신호의 특성

스펙트럴 센트로이드(spectral centroid), 스펙트럴 덴시티(spectral density), 구면 조화 함수(spherical harmonics), 총 평균 스펙트럴 에너지(total average spectral energy), 매 옥타브에서의 대역 에너지 비율(band energy ratio for every octave), 로그 스펙트럴 대역 비율(log spectral band ratio), 선형 예측 기반의 셉스트럴 계수(Linear Prediction-based Cepstral Coefficients; LPCC), 지각 선형 예측(Perceptual Linear Prediction; PLP) 셉스트럴 계수, 멜-주파수 셉스트럴 계수, 주파수 위상, 또는 상기 음성 신호의 주파수 도메인 표현의 1차, 2차, 3차 또는 그 이상의 차수의 데리버티브에 대해 계산된 위와 같은 특성

한편, 위와 같은 비교는 텍스트 간의 비교일 수도 있다. 이 경우, 텍스트는 그 어절, 단어, 음절, 글자 및 어소 중 적어도 한 가지에 관하여 비교될 수 있다. 이러한 비교를 위하여 공지의 텍스트 비교 알고리즘이 하나 이상 채용될 수 있다. 예를 들어, 음절마다의 순차적인 유사도(예를 들면, 음가나 스펠링의 유사도)가 높은 두 개의 텍스트는 상호 간에 높은 연관성을 갖는 텍스트로 규정될 수 있다.

비교의 결과, 의미 유닛 개선부(230)는 포착된 의미 유닛 집합 내에서 개선용 의미 유닛 집합과 높은 연관성을 나타내는 부분을 매칭된 의미 유닛 집합으로 결정할 수 있다. 위의 예에서는 결국, "at all" 부분에 해당하는 디지털 음성이나 텍스트가 매칭된 의미 유닛 집합으로 결정될 수 있다.

구체적인 비교 방법

여기에서는 의미 유닛 개선부(230)에 의하여 수행되는 위와 같은 비교의 방법에 관하여 더 구체적으로 살펴보기로 한다. 여기서 예시되는 다양한 연관성 점수 연산 방법은, 포착된 의미 유닛 집합의 부분과 개선용 의미 유닛 집합 사이의 최선의 비교를 위하여, 그 적어도 하나 이상이 당업자에 의하여 자유롭게 채택될 수 있음에 유의하여야 한다.

의미 유닛 개선부(230)는 위에서 설명된 경우 1 내지 8 중 어느 경우에 있어서나 결국 디지털 음성 간의 비교나 텍스트 간의 비교를 수행하게 된다. 왜냐하면, 디지털 음성과 텍스트 사이에서 비교를 수행하게 되는 때에도, 본격적인 비교 전에, 두 가지 의미 유닛 집합의 형식을 디지털 음성과 텍스트 중 하나로 통일하게 되기 때문이다. 이를 위하여, 의미 유닛 개선부(230)는 공지의 음성 인식 모듈 및/또는 공지의 TTS 모듈을 포함하거나 적어도 이것과 연동할 수 있다.

먼저, 디지털 음성 간의 비교가 수행되는 경우에 관하여 도 5를 참조하여 살펴보기로 한다. 도 5는 본 발명의 일 실시예에 따른 디지털 음성 비교 방법에 관하여 도시하는 흐름도이다.

단계 501에서는, 의미 유닛 개선부(230)가 개선용 의미 유닛 집합에 해당하는 디지털 음성의 길이를 측정할 수 있다. 이러한 길이의 단위는 보통 시간(초)일 수 있다.

단계 502에서는, 의미 유닛 개선부(230)가 포착된 의미 유닛 집합을 상기 길이 또는 상기 길이에 소정의 길이가 가산되거나 감산된 길이에 따라 여러 부분으로 나누고 확장할 수 있다. 예를 들면, 포착된 의미 유닛 집합이 재생 시간이 10초인 디지털 음성이고 개선용 의미 유닛 집합이 재생 시간이 1초인 디지털 음성이라면, 포착된 의미 유닛 집합은 해당 재생 시간 구간이 0초 내지 1초, 0.1초 내지 1.1초, … , 8.9초 내지 9.9초, 및 9초 내지 10초인 91개의 부분들로 나누어지고 확장될 수 있다. 의미 유닛 개선부(230)나 의미 유닛 개선 장치(100)의 성능에 따라, 위와 같은 부분들의 개수는 적절하게 조절될 수 있다.

단계 503에서는, 의미 유닛 개선부(230)가 포착된 의미 유닛 집합의 각 부분을 개선용 의미 유닛 집합과 비교할 수 있다. 비교의 본질은 디지털 음성 신호의 특성의 비교일 수 있다. 이러한 비교는 바람직하게는 소정의 연관성 점수 연산을 포함할 수 있다. 예를 들면, 서로 대응되는 시간 구간 내에서, 두 디지털 음성 신호 간에 동일하거나 거의 유사한 특징점이 발견되는 때마다, 연관성 점수가 누적적으로 증가하게끔 할 수 있다. 이에 따라 결정되는 연관성 점수는 포착된 의미 유닛 집합의 해당 부분에 대하여 부여될 수 있다. 물론, 당업자의 선택에 따라, 전술한 바와 같은 여러 다른 특성(주파수 도메인에서의 특성을 포함함)의 일치성 여부나 일치성 정도가 연관성 점수 연산의 근거가 될 수도 있다.

이러한 단계 503은 필요에 따라 반복적으로 수행될 수도 있다. 즉, 사용자가 같은 취지의 개선용 음성을 2회 이상 발화하도록 유도된 뒤에, 의미 유닛 개선부(230)가 포착된 의미 유닛 집합의 부분들의 전부 또는 이미 소정의 연관성 점수가 부여되어 있는 일부에 관하여 디지털 음성 비교에 의한 연관성 점수 연산을 2회 이상 반복적으로 수행할 수 있다. 반복적인 연관성 점수 연산 후에 가장 높은 연관성 점수(누적 점수 또는 평균 점수)를 부여 받은 포착된 의미 유닛 집합 부분이 매칭된 의미 유닛 집합으로 결정될 수 있다.

다음으로, 텍스트 간의 비교가 수행되는 경우에 관하여 도 6을 참조하여 살펴보기로 한다. 도 6은 본 발명의 일 실시예에 따른 텍스트 비교 방법에 관하여 도시하는 흐름도이다.

단계 601에서는, 의미 유닛 개선부(230)가 개선용 의미 유닛 집합에 해당하는 텍스트의 길이를 측정할 수 있다. 이러한 텍스트의 길이는 보통 어절, 단어, 음절, 글자, 어소 등의 개수로 표현될 수 있다. 예를 들면, 개선용 의미 유닛 집합에 해당하는 텍스트는 "error"일 수 있는데, 이것은 두 개의 음절이라는 길이를 갖는다.

단계 602에서는, 의미 유닛 개선부(230)가 포착된 의미 유닛 집합을 상기 길이 또는 상기 길이에 소정의 길이가 가산되거나 감산된 길이에 따라 여러 부분으로 나누고 확장할 수 있다. 예를 들면, 포착된 의미 유닛 집합이 "I can correct typing at all without backspace"와 같은 텍스트라면, 포착된 의미 유닛 집합의 나누어지고 나서 확장된 부분은 "I", "can", "correct", "I can", "can correct", "I can correct", "cor", "rect" 등을 다양하게 포함할 수 있다(위의 포착된 의미 유닛 집합의 다른 부분들에 관하여도 마찬가지이다). 다만, 가장 바람직하게 나누어지고 나서 확장된 부분들은 "I can", "can cor", "correct", "rect ty", "typing", "ping at", "at all", "all with", "without", "out back", "backspace" 등과 같이 두 개의 음절을 갖는 것들이 될 수 있을 것이다. 의미 유닛 개선부(230)나 의미 유닛 개선 장치(100)의 성능에 따라, 위와 같은 부분들의 개수는 적절하게 조절될 수 있다.

단계 603에서는, 의미 유닛 개선부(230)가 포착된 의미 유닛 집합의 각 부분을 개선용 의미 유닛 집합과 비교할 수 있다. 비교는, 텍스트 간의, 어절, 단어, 음절, 글자 및 어소 중 적어도 한 가지에 관한 순차적인 비교일 수 있다. 이러한 비교는 바람직하게는 소정의 연관성 점수 연산을 포함할 수 있다. 예를 들면, 서로 대응되는 위치에서, 두 개의 텍스트 간에 동일하거나 거의 유사한 음절이 발견되는 때마다, 연관성 점수가 누적적으로 증가하게끔 할 수 있다. 이에 따라 결정되는 연관성 점수는 포착된 의미 유닛 집합의 해당 부분에 대하여 부여될 수 있다. 여기서, 두 개의 텍스트 사이에서 거의 유사한 것으로 판단되는 것은 스펠링이 유사한 음절일 수도 있지만, 오히려 음가가 유사한 음절일 수도 있다. 예를 들면, 포착된 의미 유닛 집합의 하나의 부분에 해당하는 텍스트가 "at all"이고 개선용 의미 유닛 집합에 해당하는 텍스트가 "error"인 경우, 같은 유음인 "l"과 "r"을 각각 포함하는 음절들인 "all"과 "or"이 서로 거의 유사한 것으로 판단될 수 있다. 이것은 필연적으로 포착된 의미 유닛 집합의 부분들 중에서 "at all" 부분의 연관성 점수의 증가를 야기할 수 있다.

한편, 비교는, 텍스트 간의, 의미적인 연관 관계에 기초한 전체적인 비교일 수도 있다. 이러한 연관 관계는 두 개의 텍스트에 각각 해당하는 두 개의 단어가 동일한 카테고리에 속하는 것인지, 사실상 유사한 의미를 나타내는 것인지 등에 따라 발견될 수 있다(이와 같은 단어의 카테고리나 의미에 관한 참조는 공지의 어학적인 라이브러리에 대하여 이루어질 수 있다). 예를 들어, 포착된 의미 유닛 집합이 "I can do it this Saturday"의 텍스트이고, 개선용 의미 유닛 집합의 텍스트가 "may"이거나 "Friday"인 경우, 개선용 의미 유닛 집합 "may"는 포착된 의미 유닛 집합의 부분인 "can"과 의미적인 연관 관계(즉, 영어 조동사)를 갖는 것으로 파악될 수 있고(비록 음가나 스펠링이 전혀 다름에도 이러함), 개선용 의미 유닛 집합 "Friday"는 포착된 의미 유닛 집합의 부분인 "Saturday"와 의미적인 연관 관계(즉, 요일 카테고리)를 갖는 것으로 파악될 수 있다(비록 음가나 스펠링이 앞 부분에 있어서 전혀 다름에도 이러함). 발견되는 연관 관계는 그에 해당하는 포착된 의미 유닛 집합의 부분의 연관성 점수를 증가시키는 요인이 될 수 있다.

또 한편, 비교는, 텍스트 간의, 키 위치 연관 관계에 기초한 비교일 수도 있다. 이러한 비교는 포착된 의미 유닛 집합에 속하는 한 부분의 텍스트의 스펠링과 개선용 의미 유닛 집합의 텍스트의 스펠링을 순차적으로 비교하되, 비교 결과, 서로 같은 스펠링이 발견된 경우뿐만 아니라, 서로 다른 스펠링이 키보드 상에서 서로 인접하여 있던 것으로 판단된 경우에도, 연관성 점수를 상기 부분에 대하여 부여하는 비교일 수 있다. 예를 들면, QWERTY 키보드가 사용된 경우, 포착된 의미 유닛 집합 내의 한 부분의 텍스트일 수 있는 "wyw"는 그 음가나 스펠링이 전혀 다른 개선용 의미 유닛 집합의 텍스트 "eye"에 관하여 높은 연관성 점수를 갖는 것으로 판단될 수 있다.

이러한 단계 603은 필요에 따라 반복적으로 수행될 수도 있다. 즉, 사용자가 같은 취지의 개선용 음성을 2회 이상 발화하도록 유도된 뒤에, 의미 유닛 개선부(230)가 포착된 의미 유닛 집합의 부분들의 전부 또는 이미 소정의 연관성 점수가 부여되어 있는 일부에 관하여 텍스트 비교에 의한 연관성 점수 연산을 2회 이상 반복적으로 수행할 수 있다. 반복적인 연관성 점수 연산 후에 가장 높은 연관성 점수(누적 점수 또는 평균 점수)를 부여 받은 포착된 의미 유닛 집합 부분이 매칭된 의미 유닛 집합으로 결정될 수 있다.

본 발명의 일 실시예에 따르면, 연관성 점수를 보다 합리적으로 도출하기 위하여, 필요에 따라, 전술한 바와 같은 연관성 점수 연산 방법이 두 가지 이상 함께 채택될 수 있다. 이러한 경우, 한 가지의 방법에 따른 연관성 점수와 해당 가중치가 곱하여진 값이, 다른 한 가지의 방법에 따른 연관성 점수와 해당 가중치가 곱하여진 값과 합산될 수 있다. 이에 따라 도출된 연관성 점수는 복합적인 연관성 점수가 될 수 있다. 이 경우 역시, 복합적인 연관성 점수가 높은, 포착된 의미 유닛 집합의 하나의 부분 또는 몇 개의 부분들이 매칭된 의미 유닛 집합이 될 수 있다.

한 가지의 방법에 따른 연관성 점수에 대하여 곱하여지는 가중치는 의미 유닛 개선 장치(100)가 처한 환경이나 사용자의 의도에 따라 다르게 결정될 수 있다. 예를 들면, 사용자가 개선용 의미 유닛 집합을 생성하기 위하여 개선용 음성을 반복적으로 발화한 경우, 디지털 음성 비교에 의한 연관성 점수에 대하여 보다 높은 가중치가 부여될 수 있다. 또는, 사용자가 포착된 의미 유닛 집합에 해당하는 텍스트를 작성하되, 오타가 나기 쉬운 작은 터치 패널에 의하여 작성한 경우, 텍스트 비교에 의한 연관성 점수 중에서도 키보드 상의 키 인접 관계를 고려한 연관성 점수에 보다 높은 가중치가 부여될 수 있다.

의미 유닛 집합의 개선

아래에서는, 도 4를 참조하여, 위에서 약술한 바와 같은 의미 유닛 집합의 개선에 관하여 자세하게 살펴보기로 한다. 도 4는 본 발명의 실시예에 따른 의미 유닛 개선 방법에 관한 예시적인 흐름도이다.

먼저, 의미 유닛 개선부(230)는 매칭된 의미 유닛 집합을 개선용 의미 유닛 집합으로 교체하는 단계(단계 T1)를 수행할 수 있다. 이 경우, 교체의 결과물은 포착된 의미 유닛 집합이 매칭된 의미 유닛 집합 대신에 개선용 의미 유닛 집합을 포함하게 된 것일 수 있다. 이러한 교체의 결과물은 개선된 음성 인식 결과일 수도 있고 개선된 텍스트일 수도 있다. 위의 예에 따르면, 개선된 음성 인식 결과 내지 텍스트는 "I can correct typing error without backspace"가 될 수 있다. 이는 사용자의 원래의 의도에 정확히 부합하는 결과일 수 있다.

다음으로, 의미 유닛 개선부(230)는 개선 후에 대용될 포착된 의미 유닛 집합에 해당하는 디지털 음성을 사용자에게 들려 주거나 그에 해당하는 텍스트를 디스플레이하여 주는 단계(단계 T2)를 수행할 수 있다. 따라서, 위의 예에 따르면, 사용자에게 들리거나 디스플레이되는 것은 "I can correct typing error without backspace"의 의미 유닛 집합에 해당하는 디지털 음성이나 텍스트가 될 수 있다.

그런데, 경우에 따라, 개선용 음성은 충분한 개선을 담보하지 못할 수 있다(개선용 텍스트의 경우에는 이런 문제가 거의 없다). 이는 사용자에게 내재된 문제(예를 들면, 발음의 부정확, 방언의 사용 등)로 인하여 개선용 음성의 품질이 애초에 충분히 높지 않아서 그것이 다른 의미 유닛 집합에 해당하는 것으로 오인식되거나, 환경적인 문제(예를 들면, 잡음이 개입되는 환경, 의미 유닛 개선 장치(100)의 낮은 사양 등)로 인하여 개선용 음성의 품질이 그다지 낮지 않음에도 불구하고 그 특정 과정에서 그것이 다른 의미 유닛 집합에 해당하는 것으로 오인식되기 때문일 수 있다. 이와 같은 경우, 사용자에게 들리거나 디스플레이되는 것은, 개선 시도 후에도, 예를 들면, "I can correct typing error without backspace"의 의미 유닛 집합에 해당하는 디지털 음성이나 텍스트가 아니라, 여전히 "I can correct typing at all without backspace"의 의미 유닛 집합에 해당하는 디지털 음성이나 텍스트가 되거나 "I can correct typing era without backspace"의 의미 유닛 집합에 해당하는 디지털 음성이나 텍스트가 될 수 있다. 이는 사용자에게 상당히 실망스러운 결과일 수 있다.

따라서, 본 발명의 일 실시예에 따르면, 아래와 같은 부가적인 단계가 더 수행될 수 있다.

전형적으로는 단계 T2의 수행 후에, 대안적으로는 단계 T1의 수행 후 단계 T2의 수행 전이나 단계 T1의 수행 전에, 개선용 음성과 함께 소정의 부가 정보가 더 사용되면, 의미 유닛 개선부(230)가 이에도 기초하여 개선용 음성에 해당하는 의미 유닛 집합을 더 정교하게 특정할 수 있다. 아래에서는 이것이 가능하게 하는 부가 정보의 여러 가지 예에 관하여 살펴보기로 한다.

1-1. 부분 스펠링

예를 들어, 사용자는 위의 예에서 개선용 음성에 해당하는 "error" 외에 "e", "r" 및 "r"을 순차적으로 더 발화할 수 있다. 이 경우, 의미 유닛 개선부(230)는 사전 설정(즉, 소정의 개수의 알파벳 글자가 연속으로 발화되고 나서 해당 알파벳 글자와 순차적으로 일치하는 앞 부분을 갖는 개선용 의미 유닛 집합에 해당하는 개선용 음성이 발화되면 상기 알파벳 글자는 모두 개선용 의미 유닛 집합의 부분 스펠링으로 간주하는 설정)이나 기타 머신 러닝 기법에 기초하여, "e", "r" 및 "r"이 사실은 개선용 의미 유닛 집합을 더 정교하게 특정하기 위한 부분 스펠링에 해당함을 파악할 수 있다. 이는 자명하게도 개선용 의미 유닛 집합의 정교한 특정을 담보하는 것이 될 수 있다.

1-2. 군용 음성 알파벳

예를 들어, 사용자는 위의 예에서 개선용 음성에 해당하는 "error" 외에 "echo", "romeo" 및 "romeo"를 순차적으로 더 발화할 수 있다. 이 경우, 의미 유닛 개선부(230)는 사전 설정(즉, 소정의 개수의 군용 음성 알파벳이 연속으로 발화되고 나서 해당 알파벳의 글자와 순차적으로 일치하는 앞 부분을 갖는 개선용 의미 유닛 집합에 해당하는 개선용 음성이 발화되면 상기 알파벳 글자는 모두 개선용 의미 유닛 집합의 부분 스펠링으로 간주하는 설정)이나 기타 머신 러닝 기법에 기초하여, "echo", "romeo" 및 "romeo"가 사실은 개선용 의미 유닛 집합을 더 정교하게 특정하기 위한 부분 스펠링에 해당함을 파악할 수 있다.

한편, 위와 같은 부분 스펠링 기법은, 한국어에 있어서는, 특정이 어려운 편인 복모음 글자의 풀이식 발화(예를 들면, "계발"이라는 개선용 의미 유닛 집합을 위한 "여" 및 "이"의 순차적인 발화)에 의하여 실행될 수도 있고, 일본어에 있어서는, 한자의 변에 관한 발화(예를 들면, "嶋田"(しまだ)라는 개선용 의미 유닛 집합이 자칫 "島田"(しまだ)로 오인되지 않도록 하기 위한 "山編"(やまへん)의 추가 발화)에 의하여 실행될 수도 있다.

2. 힌트 단어

예를 들어, 사용자는 위의 예에서 개선용 음성에 해당하는 "error" 외에 "of" 및 "erroneous"를 순차적으로 더 발화할 수 있다. 이 경우, 의미 유닛 개선부(230)는 사전 설정(즉, 개선용 음성이 발화되는 부분에서 "of"가 발화되면 그 뒤의 음성에 해당하는 단어를 힌트 단어로 간주하는 설정)이나 기타 머신 러닝 기법에 기초하여, "erroneous"가 사실은 개선용 의미 유닛 집합을 더 정교하게 특정하기 위한 힌트 단어(즉, 적어도 그 일부에 있어서 옳은 개선용 의미 유닛 집합의 단어와 동일하거나 유사한 스펠링을 갖는 단어)에 해당함을 파악할 수 있다. 이는 자명하게도 개선용 의미 유닛 집합의 정교한 특정을 담보하는 것이 될 수 있다. 여기서, 예약어에 해당한다고 볼 수 있는 "of"는 "like" 등과 같이 사용자가 이해하기 쉽고 오인식률이 낮은 다른 단어로 대체될 수도 있다.

한편, 위의 예 외에도, 사용자가 개선용 음성으로서 "Zoe"를 발화하였으나 그것이 "Joe"로 인식되어 잘못된 개선이 이루어진 경우, 사용자는 "Zoe"를 다시 한 번 발화하면서, "Z of Zebra"와 같이, 옳은 개선용 의미 유닛 집합에 포함되어야 하는 알파벳을 강조하기 위한 힌트 단어를 해당 알파벳 및 예약어와 함께 더 발화할 수 있다. 이에 따라, 의미 유닛 개선부(230)는 개선용 의미 유닛 집합을 상기 힌트 단어의 상기 알파벳을 포함하도록, 즉, "Zoe"가 되도록 정정할 수 있다.

한국어의 경우에도, "안쪽의"가 "안쪽에"로 오인식된 경우, 사용자가 다시 한 번 "안쪽의"를 발화하면서 "의자의 의"를 더 발화하면, 의미 유닛 개선부(230)가 이에 따라 개선용 의미 유닛 집합을 힌트 단어 "의자"의 글자 "의"를 포함하도록, 즉, "안쪽의"가 되도록 정정할 수 있다.

일본어의 경우에도, "感じ"(かんじ)가 "漢字"(かんじ)로 오인식된 것을 정정하기 위하여, "感動の感"(かんどうのかん)이 추가 발화될 수 있도록 하거나, "買いに"(かいに)가 "海に"(かいに)로 오인식된 것을 정정하기 위하여, "買い物の買い"(かいもののかい)가 추가 발화될 수 있도록 할 수 있다.

한편, 언어와 무관하게, 옳은 개선용 의미 유닛 집합과 의미가 유사한 단어가 추가 발화될 수 있도록 하거나(예를 들면, "error"가 개선용 의미 유닛 집합이 되도록 하기 위하여 예약어인 "like"와 함께 유의어인 "mistake"가 추가 발화될 수 있도록 하거나), 상하위 관계에 있는 단어가 추가 발화될 수 있도록 하거나(예를 들면, "Kia"가 개선용 의미 유닛 집합이 되도록 하기 위하여 예약어인 "like"와 함께 관계어인 "car company"가 추가 발화될 수 있도록 하거나), 연상어가 추가 발화될 수 있도록 할 수도 있다(예를 들면, "개집"이 개선용 의미 유닛 집합이 되도록 하기 위하여 예약어인 "like"와 함께 연상어인 "멍멍"이 추가 발화될 수 있도록 하거나, "queries"가 개선용 의미 유닛 집합이 되도록 하기 위하여 예약어인 "for"와 함께 연상어인 "database"가 추가 발화될 수 있도록 할 수 있다).

즉, 의미 유닛 개선부(230)는, 사용자가 개선용 음성의 부근에서 예약어와 함께 힌트 단어(또는, 힌트 글자)를 더 발화하면, 이를 해석하여 개선용 음성에 해당하는 개선용 의미 유닛 집합이 보다 더 정교하게 특정되도록 할 수 있다.

이상 설명된 본 발명에 따른 실시예는 다양한 컴퓨터 구성요소를 통하여 실행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등과 같은, 프로그램 명령어를 저장하고 실행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의하여 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위하여 하나 이상의 소프트웨어 모듈로 변경될 수 있으며, 그 역도 마찬가지이다.

이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항과 한정된 실시예 및 도면에 의하여 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위하여 제공된 것일 뿐, 본 발명이 상기 실시예에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정과 변경을 꾀할 수 있다.

따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.

Claims

적어도 하나의 의미 유닛을 포함하는 집합 - 상기 적어도 하나의 의미 유닛을 포함하는 상기 집합은 포착된 의미 유닛 집함임 - 을 개선하기 위한 방법으로서,

사용자의 발화에 따라 개선용 음성을 수신하는 단계,

상기 개선용 음성에 기초하여 개선용 의미 유닛 집합을 특정하는 단계,

상기 개선용 의미 유닛 집합과의 연관성에 기초하여, 상기 포착된 의미 유닛 집합 내에서 실제적인 개선의 대상이 되는 의미 유닛 집합을 매칭된 의미 유닛 집합으로서 특정하는 단계, 및

상기 포착된 의미 유닛 집합 내의 상기 매칭된 의미 유닛 집합을 상기 개선용 의미 유닛 집합으로 교체하는 단계

를 포함하는 방법.
제1항에 있어서,

상기 개선용 의미 유닛 집합 특정 단계는, 상기 개선용 의미 유닛 집합의 길이를 측정하는 단계를 포함하는 방법.
제2항에 있어서,

상기 매칭된 의미 유닛 집합 특정 단계는, 상기 포착된 의미 유닛 집합을 유닛 간의 간격이나 상기 개선용 의미 유닛 집합의 상기 길이에 기초하여 다수의 부분으로 나누고 확장하는 단계를 포함하는 방법.
제3항에 있어서,

상기 매칭된 의미 유닛 집합 특정 단계는, 상기 포착된 의미 유닛 집합의 상기 다수의 부분의 각각과 상기 개선용 의미 유닛 집합을 비교하는 단계를 더 포함하는 방법.
제4항에 있어서,

상기 비교 단계는, 상기 포착된 의미 유닛 집합의 상기 다수의 부분의 각각에 해당하는 디지털 음성 신호의 특징과 상기 개선용 의미 유닛 집합에 해당하는 디지털 음성 신호의 특징을 비교하는 단계를 포함하는 방법.
제4항에 있어서,

상기 비교 단계는, 상기 포착된 의미 유닛 집합의 상기 다수의 부분의 각각에 해당하는 텍스트와 상기 개선용 의미 유닛 집합에 해당하는 텍스트를 비교하는 단계를 포함하는 방법.
제6항에 있어서,

상기 텍스트 비교 단계는, 상기 두 개의 텍스트를 음가나 스펠링에 관하여 순차적으로 비교하는 단계를 포함하는 방법.
제6항에 있어서,

상기 텍스트 비교 단계는, 상기 두 개의 텍스트가 동일한 카테고리에 속하는지 또는 유사한 의미를 나타내는지를 비교하는 단계를 포함하는 방법.
제6항에 있어서,

상기 텍스트 비교 단계는, 상기 두 개의 텍스트를 키 위치 연관 관계에 기초하여 비교하는 단계를 포함하는 방법.
적어도 하나의 의미 유닛을 포함하는 집합 - 상기 적어도 하나의 의미 유닛을 포함하는 상기 집합은 사용자의 발화에 따른 음성으로부터 포착된 의미 유닛 집함임 - 을 개선하기 위한 방법으로서,

사용자의 개선용 텍스트의 입력을 수신하는 단계,

상기 개선용 텍스트에 기초하여 개선용 의미 유닛 집합을 특정하는 단계,

상기 개선용 의미 유닛 집합과의 연관성에 기초하여, 상기 포착된 의미 유닛 집합 내에서 실제적인 개선의 대상이 되는 의미 유닛 집합을 매칭된 의미 유닛 집합으로서 특정하는 단계, 및

상기 포착된 의미 유닛 집합 내의 상기 매칭된 의미 유닛 집합을 상기 개선용 의미 유닛 집합으로 교체하는 단계

를 포함하는 방법.
제1항 및 제10항 중 어느 한 항에 따른 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체.
적어도 하나의 의미 유닛을 포함하는 집합 - 상기 적어도 하나의 의미 유닛을 포함하는 상기 집합은 포착된 의미 유닛 집함임 - 을 개선하기 위한 장치로서,

사용자의 발화에 따라 개선용 음성을 수신하는 음성 감지부, 및

상기 개선용 음성에 기초하여 개선용 의미 유닛 집합을 특정하고, 상기 개선용 의미 유닛 집합과의 연관성에 기초하여, 상기 포착된 의미 유닛 집합 내에서 실제적인 개선의 대상이 되는 의미 유닛 집합을 매칭된 의미 유닛 집합으로서 특정하며, 상기 포착된 의미 유닛 집합 내의 상기 매칭된 의미 유닛 집합을 상기 개선용 의미 유닛 집합으로 교체하는 의미 유닛 개선부

를 포함하는 장치.
적어도 하나의 의미 유닛을 포함하는 집합 - 상기 적어도 하나의 의미 유닛을 포함하는 상기 집합은 사용자의 발화에 따른 음성으로부터 포착된 의미 유닛 집함임 - 을 개선하기 위한 장치로서,

사용자의 개선용 텍스트의 입력을 수신하는 수단, 및

상기 개선용 텍스트에 기초하여 개선용 의미 유닛 집합을 특정하고, 상기 개선용 의미 유닛 집합과의 연관성에 기초하여, 상기 포착된 의미 유닛 집합 내에서 실제적인 개선의 대상이 되는 의미 유닛 집합을 매칭된 의미 유닛 집합으로서 특정하며, 상기 포착된 의미 유닛 집합 내의 상기 매칭된 의미 유닛 집합을 상기 개선용 의미 유닛 집합으로 교체하는 의미 유닛 개선부

를 포함하는 장치.