KR102272567B1

KR102272567B1 - 음성 인식 수정 시스템

Info

Publication number: KR102272567B1
Application number: KR1020200109202A
Authority: KR
Inventors: 안문학
Original assignee: 주식회사 소리자바
Priority date: 2018-02-26
Filing date: 2020-08-28
Publication date: 2021-07-05
Also published as: KR20200108261A

Abstract

본 발명은 음성을 인식하여 텍스트로 변환하며, 음성 인식된 텍스트의 수정을 용이하게 하기 위한 음성 인식 수정 시스템에 관한 것이다. 본 발명에 따른 음성 인식 수정 시스템은 음성 인식된 텍스트를 수정하는 검수자 단말기, 검수자 단말기에 음성 인식된 텍스트 및 해당 음성을 전송하고, 검수자 단말기가 선택한 단어에 대하여 적어도 하나의 다른 검수자 단말기에 단어에 대한 텍스트 및 해당 음성을 전송하여 단어에 대한 수정된 텍스트를 수신하고, 수정된 텍스트를 검수자 단말기에 전송하는 음성 인식 서버를 포함한다.

Description

음성 인식 수정 시스템{Speech recognition correction system}

본 발명은 음성 인식 시스템에 관한 것으로, 더욱 상세하게는 음성을 인식하여 텍스트로 변환하며, 음성 인식된 텍스트의 수정을 용이하게 하기 위한 음성 인식 수정 시스템에 관한 것이다.

최근 스마트폰에서는 음성 인식 기술이 대중화되고 있으며, 스마트워치와 같은 웨어러블 장치에서는 음성 인식을 가장 주요한 문자 입력 수단으로 활용할 것으로 예상된다.

음성 인식 기술은 음성 인식으로 입력을 행하면, 이를 단어 별로 인식하고, 인식된 단어를 조합하여 문장으로 형성하여 텍스트 형태로 사용자에게 보여지게 된다.

그러나 음성 인식 기술은 오래전부터 개발되어 온 기술임에도 불구하고, 정확한 음성 인식을 통하여 텍스트로 치환되어 입력되는데 있어서 아직도 오류가 다수 발생하고 있다.

한편 속기는 음성 언어를 빠르고 정확하게 문자 언어로 기록하는 모든 활동을 의미한다.

최근에는 이러한 속기 기술과 음성 인식 기술을 접목한 AI 속기 기능이 대두되고 있다.

이러한 AI 속기는 음성 인식을 통하여 자동으로 텍스트를 작성하고, 음성 인식을 통한 텍스트를 속기사가 빠른 속도로 수정하는 기능이다. 이에 따라 AI 속기는 속기사가 한 번에 기록하기 힘든 부분을 음성 인식을 통해 보완하고, 음성 인식의 오류 한계를 속기를 통하여 보완하도록 할 수 있다.

따라서 이러한 AI 속기 기능의 효율을 극대화시키기 위한 다양한 기능들이 필요한 실정이다.

한국등록특허 제10-1154011호(2012.05.31)

따라서 본 발명의 목적은 음성을 인식하여 텍스트로 변환하며, 음성 인식된 텍스트에 대한 수정을 용이하게 할 수 있는 음성 인식 수정 시스템을 제공하는 데 있다.

본 발명에 따른 음성 인식 수정 시스템은 음성 인식된 텍스트를 수정하는 검수자 단말기, 상기 검수자 단말기에 상기 음성 인식된 텍스트 및 해당 음성을 전송하고, 상기 검수자 단말기가 선택한 단어에 대하여 적어도 하나의 다른 검수자 단말기에 상기 단어에 대한 텍스트 및 해당 음성을 전송하여 상기 단어에 대한 수정된 텍스트를 수신하고, 상기 수정된 텍스트를 상기 검수자 단말기에 전송하는 음성 인식 서버를 포함한다.

본 발명에 따른 음성 인식 수정 시스템에 있어서, 상기 음성 인식 서버는 상기 음성 인식된 텍스트를 표시하고, 표시된 음성 인식된 텍스트를 수정하기 위한 인터페이스를 상기 검수자 단말기에 제공하는 것을 특징으로 한다.

본 발명에 따른 음성 인식 수정 시스템에 있어서, 상기 음성 인식 서버는 상기 인터페이스를 복수의 검수자 단말기에 제공하고, 상기 인터페이스를 통해 상기 복수의 검수자 단말기가 동시에 상기 음성 인식된 텍스트를 수정하도록 하는 것을 특징으로 한다.

본 발명에 따른 음성 인식 수정 시스템에 있어서, 상기 음성 인식 서버는 상기 인터페이스를 음성 인식을 의뢰한 의뢰인 단말기에 제공하고, 상기 인터페이스를 통해 상기 의뢰인 단말기와 상기 검수자 단말기가 동시에 상기 음성 인식된 텍스트를 수정하도록 하는 것을 특징으로 한다.

본 발명에 따른 음성 인식 수정 시스템에 있어서, 상기 음성 인식 서버는 상기 검수자 단말기가 상기 인터페이스를 통해 수정한 결과 화면을 관전하고, 상기 검수자 단말기가 선택한 단어에 대하여 수정된 텍스트를 입력받아 상기 검수자 단말기에 표시하는 관전 인터페이스를 복수의 다른 검수자 단말기에 제공하는 것을 특징으로 한다.

본 발명에 따른 음성 인식 수정 시스템에 있어서, 상기 음성 인식 서버는 상기 복수의 다른 검수자 단말기로부터 입력받은 수정된 텍스트 중 상기 검수자 단말기가 선택한 수정된 텍스트를 입력한 다른 검수자 단말기에 인센티브를 부여하는 것을 특징으로 한다.

본 발명에 따른 음성 인식 수정 시스템에 있어서, 상기 음성 인식 서버는 상기 검수자 단말기가 선택한 단어에 대하여 복수의 다른 검수자 단말기에 상기 단어에 대한 텍스트 및 해당 음성을 전송하여 상기 단어에 대한 복수의 수정된 텍스트를 수신하는 것을 특징으로 한다.

본 발명에 따른 음성 인식 수정 시스템에 있어서, 상기 음성 인식 서버는 상기 복수의 다른 검수자 단말기로부터 상기 복수의 수정된 텍스트를 수신하고, 상기 복수의 수정된 텍스트에 대한 통계를 산출하는 것을 특징으로 한다.

본 발명에 따른 음성 인식 수정 시스템에 있어서, 상기 음성 인식 서버는 상기 복수의 수정된 텍스트에 대한 통계를 통해 가장 많은 비중을 차지하는 수정된 텍스트를 선택하여 상기 검수자 단말기에 전송하는 것을 특징으로 한다.

본 발명에 따른 음성 인식 수정 시스템에 있어서, 상기 음성 인식 서버는 상기 복수의 수정된 텍스트에 대한 통계 결과를 상기 검수자 단말기에 전송하여 상기 검수자 단말기가 수정된 텍스트를 선택하도록 하는 것을 특징으로 한다.

본 발명에 따른 음성 인식 수정 시스템은 음성 인식 서버가 검수자 단말기가 선택한 불확실한 단어에 대하여 적어도 하나의 다른 검수자 단말기에 선택한 단어를 전송하고 수정된 텍스트를 수신하여 검수자 단말기에 제공함으로써, 집단지성을 형성하여 음성 인식된 텍스트의 수정에 대한 정확성을 높일 수 있다.

도 1은 본 발명의 실시 예에 따른 음성 인식 수정 시스템의 구성을 나타낸 블록도이다.
도 2는 본 발명의 실시 예에 따른 검수자 단말기의 구성을 나타낸 블록도이다.
도 3은 본 발명의 실시 예에 따른 인터페이스를 나타낸 예시도이다.
도 4는 본 발명의 실시 예에 따른 관전 인터페이스를 나타낸 예시도이다.
도 5는 본 발명의 실시 예에 따른 문의 인터페이스를 나타낸 예시도이다.

하기의 설명에서는 본 발명의 실시 예를 이해하는데 필요한 부분만이 설명되며, 그 이외 부분의 설명은 본 발명의 요지를 흩트리지 않도록 생략될 것이라는 것을 유의하여야 한다.

이하에서 설명되는 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념으로 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서 본 명세서에 기재된 실시 예와 도면에 도시된 구성은 본 발명의 바람직한 실시 예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형 예들이 있을 수 있음을 이해하여야 한다.

이하, 첨부된 도면을 참조하여 본 발명의 실시 예를 보다 상세하게 설명하고자 한다.

도 1은 본 발명의 실시 예에 따른 음성 인식 수정 시스템의 구성을 나타낸 블록도이다.

도 1은 본 발명의 실시 예에 따른 음성 인식 수정 시스템(100)은 의뢰인 단말기(10), 음성 인식 서버(20) 및 검수자 단말기(30)를 포함한다.

의뢰인 단말기(10)는 음성 인식을 의뢰하는 의뢰인이 소지한 단말기로 음성 인식 서버(20)에 접속하여 음성이나, 음성을 포함하는 동영상 등을 음성 인식 서버(20)로 전송하여 음성 인식을 의뢰할 수 있다.

예컨대 의뢰인 단말기(10)는 음성 인식을 의뢰하고자 하는 음성이나, 음성을 포함하는 동영상을 파일 형태로 음성 인식 서버(20)가 제공하는 어플리케이션이나, 홈페이지 등을 통해 음성 인식 서버(20)로 전달할 수 있다.

이러한 의뢰인 단말기(10)는 통신망에 연결되어 어플리케이션을 실행하고, 실행 화면상에 제공되는 인터페이스를 조작할 수 있는 이동통신단말기를 대표적인 예로서 설명하지만 단말기는 이동통신단말기에 한정된 것이 아니고, 모든 정보통신기기, 멀티미디어 단말기, 유선 단말기, 고정형 단말기 및 IP(Internet Protocol) 단말기 등의 다양한 단말기에 적용될 수 있다. 또한, 단말기는 휴대폰, PMP(Portable MultimediaPlayer), MID(Mobile Internet Device), 스마트폰(Smart Phone), 데스크톱(Desktop), 태블릿컴퓨터(Tablet PC), 노트북(Note book), 넷북(Net book) 및 정보통신 기기 등과 같은 다양한 이동통신 사양을 갖는 모바일(Mobile) 단말기일 때 유리하게 활용될 수 있다.

음성 인식 서버(20)는 의뢰인 단말기(10)로부터 전달받은 음성에 대하여 음성 인식을 수행하여 텍스트로 변환한다. 이때 음성 인식 서버(20)는 음성으로부터 인식에 필요한 특징 벡터를 추출한다. 여기서 특징 벡터들은 음성학적 특성은 잘 나타내며, 그 이외의 요소, 즉 배경 잡음, 화자 차이, 발음 태도 등에는 둔감하도록 설정된다. 이후 음성 인식 서버(20)는 특징 벡터를 저장된 단어 모델, 즉 각 단어의 음성학적 특징 또는 그보다 짧게 음소 단위의 음향 모델과의 비교를 통해 가능한 단어에 대한 경우를 뽑아내는 패턴 분류 과정을 수행한다.

음성 인식 서버(20)는 패턴 분류 과정을 거친 결과를 일련의 후보 단어 또는 후보 음소의 형태로 문장 단위 검색을 실시한다. 후보 단어 또는 후보 음소들의 정보를 토대로 문법 구조, 전체적인 문장 문맥, 특정 주제에 부합 여부를 판단하여 어떤 단어나 음소가 가장 적절한지를 판단하게 된다. 음성 인식 서버(20)는 이러한 과정을 거쳐 의뢰인 단말기(10)로부터 전달받은 음성을 텍스트로 변환할 수 있다.

한편 음성 인식 서버(20)는 음성 인식된 텍스트에서 식별이 불가능하거나, 인식률이 기 설정된 값 이하인 단어에 대하여 단어의 수만큼 특수문자(*,?,!) 등으로 표시하도록 할 수 있다.

여기서 음성 인식 서버(20)는 음성 인식된 텍스트에 대한 수정을 위하여 복수의 검수자 단말기(30) 중 하나에 음성 인식된 텍스트의 수정에 대한 임무를 배정하게 된다.

음성 인식 서버(20)는 배정된 검수자 단말기(10)에 음성 인식된 텍스트와 해당 음성을 전송할 수 있다. 여기서 음성 인식 서버(20)는 음성 인식된 텍스트를 표시하고, 표시된 음성 인식된 텍스트를 수정하기 위한 인터페이스를 검수자 단말기(30)에 제공할 수 있다.

또한 음성 인식 서버(20)는 음성 인식된 텍스트를 표시하고, 표시된 음성 인식된 텍스트를 수정하기 위한 인터페이스를 복수의 검수자 단말기(30)에 제공할 수 있다. 예컨대 음성 인식 서버(20)는 제1 검수자 단말기(30-1)와 제2 검수자 단말기(30-2)에 인터페이스를 제공하고, 인터페이스를 통해 제1 검수자 단말기(30-1)와 제2 검수자 단말기(30-2)가 동시에 음성 인식된 텍스트를 수정하도록 할 수 있다. 즉 음성 인식 서버(20)는 제1 검수자 단말기(30-1)와 제2 검수자 단말기(30-2)에 동일한 화면이 나타나도록 하고, 제1 검수자 단말기(30-1)와 제2 검수자 단말기(30-2)가 수행한 수정 작업이 모두 적용되도록 할 수 있다.

또한 음성 인식 서버(20)는 검수자 단말기(30)가 선택한 단어에 대하여 적어도 하나의 다른 검수자 단말기에 선택한 단어에 대한 텍스트 및 해당 음성을 전송하고 단어에 대한 수정된 텍스트를 수신하여, 수정된 텍스트를 검수자 단말기(30)에 전송할 수 있다. 여기서 검수자가 선택한 단어는 음성 인식이 수행되었으나, 음성이 잘 들리지 않아 수정이 어려운 단어가 될 수 있다.

여기서 음성 인식 서버(20)는 검수자 단말기(30)가 선택한 단어에 대하여 복수의 다른 검수자 단말기에 단어에 대한 텍스트 및 해당 음성을 전송하여 단어에 대한 복수의 수정된 텍스트를 수신할 수 있다.

즉 음성 인식 서버(20)는 복수의 검수자 단말기(30)에 식별이 어려운 단어와 음성을 출력하고, 복수의 검수자 단말기(30)를 소유한 각 검수자들이 해당 단어의 음성을 듣고 생각되는 해답인 수정된 텍스트를 입력하도록 하는 문의 인터페이스를 복수의 검수자 단말기(30)에 제공할 수 있다.

음성 인식 서버(20)는 복수의 다른 검수자 단말기로부터 전달받은 수정된 텍스트를 통해, 수정을 수행하고 있는 검수자 단말기(30)가 복수의 검수자들이 판단한 의견을 수렴하여 정확도를 높이도록 할 수 있다.

또한 음성 인식 서버(20)는 복수의 다른 검수자 단말기로부터 복수의 수정된 텍스트를 수신하고, 복수의 수정된 텍스트에 대한 통계를 산출할 수 있다. 예컨대 음성 인식 서버(20)는 수정된 텍스트를 동일한 단어끼리 분류하고, 분류된 각 텍스트에 대한 카운팅을 수행할 수 있다.

여기서 음성 인식 서버(20)는 복수의 수정된 텍스트에 대한 통계를 통해 가장 많은 비중을 차지하는 수정된 텍스트를 선택하여 수정을 수행하고 있는 검수자 단말기(30)에 전송할 수 있다.

또한 음성 인식 서버(20)는 복수의 수정된 텍스트에 대한 통계 결과를 검수자 단말기(30)에 전송하여 검수자 단말기(30)가 수정된 텍스트를 선택하도록 할 수 있다. 예컨대 음성 인식 서버(20)는 복수의 수정된 텍스트에 대한 통계 결과를 표나, 그래프 형태로 정리하여 수정을 수행하고 있는 검수자 단말기(30)에 제공하여, 검수자 단말기(30)가 직접 선택하도록 할 수 있다.

또한 음성 인식 서버(20)는 검수자 단말기(30)가 인터페이스를 통해 수정한 결과 화면을 관전하고, 검수자 단말기(30)가 선택한 단어에 대하여 수정된 텍스트를 입력받아 검수자 단말기(30)에 표시하는 관전 인터페이스를 복수의 다른 검수자 단말기에 제공할 수 있다. 즉 후술할 도 3에 도시된 바와 같이, 음성 인식 서버(20)는 수정하고 있는 검수자 단말기(30)가 검수를 진행하고 있는 검수창의 결과를 나타내는 결과창을 다른 검수자 단말기가 관전하도록 하고, 검수자 단말기(30)가 선택한 단어에 대하여 답을 남기도록 할 수 있다. 여기서 음성 인식 서버(20)는 다른 검수자 단말기가 남긴 답을 검수자 단말기(30)가 확인하여 수정에 참고할 수 있도록 한다. 여기서 검수자 단말기(30)는 다른 검수자 단말기가 남긴 답 중 하나를 선택하여 선택한 단어가 수정되도록 할 수 있다.

이때 음성 인식 서버(20)는 복수의 다른 검수자 단말기로부터 입력받은 수정된 텍스트 중 검수자 단말기(30)가 선택한 수정된 텍스트를 입력한 다른 검수자 단말기에 인센티브를 부여할 수 있다, 예컨대 음성 인식 서버(20)는 채택된 수정된 텍스트를 작성한 다른 검수자 단말기에 일정 금액을 지불하거나, 포인트를 부여하는 등 해당 검수자 단말기(30)를 보유한 검수자에게 다양한 혜택을 줄 수 있다. 이에 따라 다른 검수자들에 대한 참여도를 높이고 실력을 향상시킬 수 있다.

또한 음성 인식 서버(20)는 수정을 위한 인터페이스를 음성 인식을 의뢰한 의뢰인 단말기(10)에 제공하고, 인터페이스를 통해 의뢰인 단말기(10)와 검수자 단말기(30)가 동시에 음성 인식된 텍스트를 수정하도록 할 수 있다.

복수의 검수자 단말기(30)는 음성 인식 서버(20)로부터 음성 인식된 텍스트를 수정하기 위한 임무를 배정받고, 음성 인식된 텍스트를 수정할 수 있다.

예컨대 제1 검수자 단말기(30-1)와 제2 검수자 단말기(30-2)가 음성 인식된 텍스트를 수정하기 위한 임무를 배정받으면, 제1 검수자 단말기(30-1)와 제2 검수자 단말기(30-2)는 음성 인식 서버(20)로부터 음성 인식된 텍스트를 수정하기 위한 인터페이스를 제공받는다.

여기서 제1 검수자 단말기(30-1)와 제2 검수자 단말기(30-2)는 음성을 재생하면 음성에 대응되는 텍스트가 시간 순으로 화면에 나열될 수 있고, 커서를 이동시켜 해당 단어를 선택하여 삭제 또는 변환하며 속기 키보드를 통해 단어를 수정할 수 있다. 이때 제1 검수자 단말기(30-1)와 제2 검수자 단말기(30-2)는 음성과 표시되는 텍스트를 타임 라인을 통해 시간 별로 자유롭게 조절할 수 있으며 정지시킬 수도 있다.

또한 검수자 단말기(30)는 표시되는 음성 인식된 텍스트를 블록으로 지정하여 단어를 선택할 수 있다. 예컨대 검수자는 잘 들리지 않는 단어를 블록으로 지정하여 표시할 수 있다.

또한 검수자 단말기(30)는 의뢰인 단말기(10)와 함께 인터페이스를 통해 음성 인식된 텍스트의 수정이 완료된 텍스트를 검수할 수 있다. 여기서 검수자 단말기(30)에 의해 조작되는 커서와, 의뢰인 단말기(10)에 의해 조작되는 커서를 색깔 또는 모양으로 구분하여 서로 질의 응답하도록 할 수 있다.

이와 같이 본 발명의 실시 예에 따른 음성 인식 수정 시스템(100)은 음성 인식 서버(20)가 검수자 단말기(30)가 선택한 불확실한 단어에 대하여 적어도 하나의 다른 검수자 단말기에 선택한 단어를 전송하고 수정된 텍스트를 수신하여 검수자 단말기(30)에 제공함으로써, 집단지성을 형성하여 음성 인식된 텍스트의 수정에 대한 정확성을 높일 수 있다.

이하 도면을 참조하면, 본 발명의 실시 예에 따른 검수자 단말기(20)의 구성에 대하여 더욱 상세히 설명하도록 한다.

도 2는 본 발명의 실시 예에 따른 검수자 단말기의 구성을 나타낸 블록도이다.

도 1 및 도 2를 참조하면, 본 발명의 실시 예에 따른 검수자 단말기(20)는 통신부(31), 입력부(32), 표시부(33), 음성 재생부(34), 저장부(35) 및 제어부(36)를 포함할 수 있다.

통신부(31)는 음성 인식 서버(20)로부터 제공되는 인터페이스를 전달받을 수 있다. 이러한 통신부(31)는 통신망을 통해 음성 인식 서버(20)와 통신을 수행할 수 있다. 예컨대 통신망은 무선랜(WLAN, Wireless LAN), 와이 파이(Wi-Fi), 와이브로(Wibro), 와이맥스(Wimax), 고속하향패킷접속(HSDPA, High Speed Downlink Packet Access) 등의 무선 통신방식 또는 이더넷(Ethernet), xDSL(ADSL, VDSL), HFC(Hybrid Fiber Coax), FTTC(Fiber to The Curb),FTTH(Fiber To The Home) 등의 유선 통신방식이 이용될 수 있다. 한편, 통신망은 상기에 제시된 통신방식에 한정되는 것은 아니며, 상술한 통신 방식 이외에도 기타 널리 공지되었거나 향후 개발될 모든 형태의 통신 방식을 포함할 수 있다.

입력부(32)는 숫자 및 문자 정보 등의 다양한 정보를 입력받고, 각종 기능을 설정 및 음성 인식 서버(20)의 기능 제어와 관련하여 입력되는 신호를 제어부(36)로 전달한다. 특히 입력부(32)는 음성 인식된 텍스트를 수정하기 위한 정보를 입력받을 수 있다. 예컨대 입력부(32)는 키보드, 키패드, 마우스, 조이스틱 등과 같은 입력 장치가 될 수 있고, 바람직하게는 잘못 인식된 단어 또는 문장을 빠르게 수정할 수 있는 속기 키보드가 될 수 있다.

표시부(33)는 음성 인식 서버(20)의 기능 수행 중에 발생하는 일련의 동작상태 및 동작결과 등에 대한 정보를 표시한다. 또한 표시부(33)는 음성 인식 서버(20)가 제공하는 인터페이스를 화면상에 표시할 수 있다. 여기서 표시부(20)는 액정표시장치(LCD, Liquid Crystal Display), 초박막 액정표시장치(TFT-LCD, Thin Film Transistor LCD), 발광다이오드(LED, Light Emitting Diode), 유기 발광다이오드(OLED, Organic LED), 능동형 유기발광다이오드(AMOLED, Active Matrix OLED), 레티나 디스플레이(Retina Display), 플렉시블 디스플레이(Flexible display) 및 3차원(3 Dimension) 디스플레이 등으로 구성될 수 있다.

음성 재생부(34)는 제어부(36)의 제어에 따라 음성 인식 서버(20)로부터 제공되는 음성을 청각적으로 재생하여 검수자가 청취할 수 있도록 하는 구성으로, 청각적 출력을 위한 스피커를 포함한다.

저장부(35)는 검수자 단말기(10)의 기능 동작에 필요한 응용 프로그램을 저장한다. 여기서 저장부(35)는 사용자의 요청에 상응하여 각 기능을 활성화하는 경우, 제어부(36)의 제어 하에 해당 응용 프로그램들을 실행하여 각 기능을 제공한다.

제어부(36)는 통신부(31)를 통해 음성 인식 서버(20)에 접속하고, 음성 인식 서버(20)로부터 제공되는 인터페이스를 표시부(33)에 표시하도록 제어한다.

또한 제어부(36)는 음성 재생부(34)에 음성이 재생되도록 하고, 입력부(32)의 입력을 통해 음성 인식 서버(20)로부터 제공되는 음성 인식된 텍스트를 수정하도록 할 수 있다.

이하 본 발명의 음성 인식 서버(20)가 제공하는 인터페이스에 대하여 설명하도록 한다.

도 3은 본 발명의 실시 예에 따른 인터페이스를 나타낸 예시도이다.

도 3을 참조하면, 음성 인식 서버(20)는 검수자 단말기(30)의 표시부(33)를 통해 인터페이스를 제공할 수 있다.

도시된 바와 같이, 표시부(33)는 검수창(40), 결과창(50) 및 상태창(60)을 포함할 수 있다.

검수창(40)은 수정되지 않은 음성 인식된 텍스트를 출력할 수 있다. 여기서 검수자가 타임 라인(33a)을 통해 시간을 지정하게 되면, 해당 시간으로부터 텍스트를 재생할 수 있다. 예컨대 검수창(40)은 매초 별로 텍스트를 표시할 수 있으며, 음성 인식이 불확실한 글자나 단어에 대하여 특수 문자로 표시할 수 있다.

또한 검수창(40)은 복수의 검수자 단말기(30)가 동시에 수정을 할 수 있도록 복수의 커서(41, 42)가 표시 될 수 있으며, 복수의 커서(41, 42)는 각각 복수의 검수자 단말기(30)에 배정되어 동시에 수정이 가능하도록 할 수 있다. 여기서 검수자는 제공되는 커서(41, 42)를 통해 불확실한 단어에 대하여 블록(51)을 지정하여 선택할 수 있다.

결과창(50)은 검수창(40)으로부터 수정된 텍스트를 나타낸다. 또한 결과창(50)은 검수창(40)에서 선택된 단어를 블록(51)으로 표시할 수 있다.

상태창(60)은 검수자 단말기(30)가 선택한 단어에 대하여 다른 검수자 단말기가 제공한 답을 표시할 수 있다. 즉 상태창(60)은 도시된 바와 같이, 다른 검수자 단말기의 아이디 별로 입력한 수정된 텍스트를 표시하여 검수자 단말기(30)가 선택하도록 하거나, 수정된 텍스트에 대한 통계 결과를 단어 별로 나열하여 검수자 단말기(30)가 선택하도록 하거나, 복수의 수정된 텍스트에 대한 통계를 통해 가장 많은 비중을 차지하는 수정된 텍스트를 선택하여 표시할 수 있다.

다음으로 도 4는 본 발명의 실시 예에 따른 관전 인터페이스를 나타낸 예시도이다.

도 4를 참조하면, 복수의 다른 검수자 단말기가 음성 인식 서버(20)를 통해 검수자 단말기(30)에 접속하여 수정 결과를 관전할 수 있다. 즉 복수의 다른 검수자 단말기의 표시부(33)는 음성 인식 서버(20)로부터 제공되는 관전 인터페이스를 통해 결과창(70) 및 수정창(80)을 표시할 수 있다.

여기서 결과창(70)은 검수자 단말기(30)의 결과창(50)과 동일하다. 즉, 검수자 단말기(30)의 결과창(50)을 관전할 수 있다.

그리고 수정창(80)은 결과창(70)에서 검수자 단말기(30)가 선택한 단어를 선택하면, 해당 단어와 해당 단어에 해당하는 음성을 출력할 수 있는 아이콘 등을 표시할 수 있으며, 음성을 듣고 선택된 단어에 대한 답을 입력할 수 있는 창을 표시할 수 있다. 여기서 입력되는 단어에 대한 답은 검수자 단말기(30)의 상태창(60)에 표시될 수 있다.

도 5는 본 발명의 실시 예에 따른 문의 인터페이스를 나타낸 예시도이다.

도 5를 참조하면, 음성 인식 서버(20)는 검수자 단말기(30)가 선택한 단어에 대하여 복수의 다른 검수자 단말기에 문의 인터페이스를 제공할 수 있다.

여기서 문의 인터페이스를 제공받은 복수의 다른 검수자 단말기의 표시부(33)는 문의창(90)을 표시할 수 있다. 예컨대 문의창(90)은 검수자 단말기(30)가 선택한 단어를 선택하면, 해당 단어와 해당 단어에 해당하는 음성을 출력할 수 있는 아이콘 등을 표시할 수 있으며, 음성을 듣고 선택된 단어에 대한 답을 입력할 수 있는 창을 표시할 수 있다. 여기서 입력되는 단어에 대한 답은 검수자 단말기(30)의 상태창(60)에 표시될 수 있다.

한편, 본 도면에 개시된 실시 예는 이해를 돕기 위해 특정 예를 제시한 것에 지나지 않으며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시 예 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게는 자명한 것이다.

10 : 의뢰인 단말기 20 : 음성 인식 서버
30 : 검수자 단말기 31 : 통신부
32 : 입력부 33 : 표시부
34 : 음성 재생부 35 : 저장부
36 : 제어부 40 : 검수창
41, 42 : 커서 50, 70 : 결과창
51 : 블록 60 : 상태창
80 : 수정창 90 : 문의창
100 : 음성 인식 수정 장치

Claims

음성 인식된 텍스트를 수정하는 검수자 단말기;
상기 검수자 단말기에 상기 음성 인식된 텍스트 및 상기 음성 인식된 텍스트에 해당하는 음성을 전송하고, 상기 검수자 단말기가 상기 음성 인식된 텍스트에서 선택한 단어에 대하여 복수의 다른 검수자 단말기에 상기 선택한 단어에 대한 텍스트 및 상기 선택한 단어에 해당하는 음성을 전송하여 상기 선택한 단어에 대한 상기 복수의 다른 검수자 단말기에 의해 수정된 텍스트를 수신하고, 상기 복수의 수정된 텍스트에 대한 통계를 산출하고, 상기 복수의 수정된 텍스트에 대한 통계를 통해 가장 많은 비중을 차지하는 수정된 텍스트를 선택하여 상기 검수자 단말기에 전송하는 음성 인식 서버; 를 포함하고,
상기 음성 인식된 텍스트를 표시하고, 표시된 음성 인식된 텍스트를 수정하기 위한 인터페이스를 상기 검수자 단말기 및 의뢰인 단말기에 제공하고, 상기 인터페이스를 통해 상기 의뢰인 단말기와 상기 검수자 단말기가 동시에 상기 음성 인식된 텍스트를 수정하도록 하는 것을 특징으로 하는 음성 인식 수정 시스템.
삭제
제1항에 있어서,
상기 음성 인식 서버는,
상기 인터페이스를 상기 검수자 단말기 및 상기 적어도 하나의 다른 검수자 단말기를 포함하는 복수의 검수자 단말기에 제공하고, 상기 인터페이스를 통해 상기 복수의 검수자 단말기가 동시에 상기 음성 인식된 텍스트를 수정하도록 하는 것을 특징으로 하는 음성 인식 수정 시스템.
삭제
제1항에 있어서,
상기 음성 인식 서버는,
상기 검수자 단말기가 상기 인터페이스를 통해 수정한 결과 화면을 관전하고, 상기 검수자 단말기가 선택한 단어에 대하여 수정된 텍스트를 입력받아 상기 검수자 단말기에 표시하는 관전 인터페이스를 복수의 다른 검수자 단말기에 제공하는 것을 특징으로 하는 음성 인식 수정 시스템.
제5항에 있어서,
상기 음성 인식 서버는,
상기 복수의 다른 검수자 단말기로부터 입력받은 수정된 텍스트 중 상기 검수자 단말기가 선택한 수정된 텍스트를 입력한 다른 검수자 단말기에 인센티브를 부여하는 것을 특징으로 하는 음성 인식 수정 시스템.
제1항에 있어서,
상기 음성 인식 서버는,
상기 복수의 수정된 텍스트에 대한 통계 결과를 상기 검수자 단말기에 전송하여 상기 검수자 단말기가 수정된 텍스트를 선택하도록 하는 것을 특징으로 하는 음성 인식 수정 시스템.