KR102171658B1

KR102171658B1 - 크라우드전사장치 및 그 동작 방법

Info

Publication number: KR102171658B1
Application number: KR1020180074810A
Authority: KR
Inventors: 김만수; 훈 허; 이수화; 조한상
Original assignee: (주) 엠티콤
Priority date: 2018-06-28
Filing date: 2018-06-28
Publication date: 2020-10-29
Also published as: KR20200001814A

Abstract

본 발명은 다수의 일반인 사용자의 참여를 기반으로 원시데이터에 포함된 음성을 텍스트데이터로 전사 처리하고, 전사 처리된 텍스트데이터를 자동 검증하여 학습데이터를 획득할 수 있는 크라우드전사장치 및 그 동작 방법에 관한 것이다.

Description

크라우드전사장치 및 그 동작 방법{CROWD TRANSCRIPTION APPARATUS, AND CONTROL METHOD THEREOF}

본 발명은 다수의 일반인 사용자의 참여를 기반으로 원시데이터에 포함된 음성을 텍스트데이터로 전사 처리하고, 전사 처리된 텍스트데이터를 자동 검증하여 학습데이터를 획득하기 위한 방안에 관한 것이다.

작금에는 주어진 상황이나 진행되는 상황을 이해하고 분석해서 의사결정을 내리는 인간의 두뇌 메커니즘을 기술적으로 구현하기 위한 연구는 꾸준히 이루어지고 있다.

이와 관련하여, 인공 지능(Artificial Intelligence; AI) 기술에 대한 관심이 높아지고 있으며, 특히 인공 신경망을 기반으로 한 딥 러닝(Deep Learning) 기술의 출현은, 이러한 인공 지능 기술을 비약적으로 발전시키게 되었다.

이처럼, 딥 러닝 기술로 대표되는 인공 지능 기술의 경우, 대용량의 학습 데이터를 필요로 하고 있으며, 이에 관련된 많은 기업이나 연구 단체에서는 정제된 학습데이터 획득을 데이터 수집 및 데이터 가공에 많은 비용을 지출하고 있는 실정이다.

뿐만 아니라, 자동 음성 인식 분야에서도 인식률 향상을 위해 대용량의 정제된 음성과 해당 음성에 대해 양호한 품질로 전사된 텍스트데이터가 학습데이터로 요구되고 있다.

그러나, 실제 학습데이터의 획득을 위해서는 사람이 직접 청취한 음성을 텍스트로 전사하고, 전사한 텍스트가 음성과 일치하는지 여부를 검증하는 등의 복수의 처리 과정이 요구된다.

때문에, 제한된 가용 인력으로 인해 수집된 데이터를 학습데이터로 전환하기까지에는 오랜 시간이 소요될 수밖에 없으며, 이는 학습데이터를 획득에 있어서 큰 장애가 되고 있다.

본 발명은 상기한 사정을 감안하여 창출된 것으로서, 본 발명에서 도달하고자 하는 목적은, 본 발명은 다수의 일반인 사용자의 참여를 기반으로 원시데이터에 포함된 음성을 텍스트데이터로 전사 처리하고, 전사 처리된 텍스트데이터를 자동 검증하여 학습데이터를 획득하는데 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 크라우드전사장치는, 원시데이터 내 음성을 문장 단위로 분할하여, 분할된 각 문장을 전사대상데이터로 생성하는 생성부; 상기 전사대상데이터의 전사 처리를 위해 상기 전사대상데이터를 다수의 사용자에게 분배하는 분배부; 및 상기 전사대상데이터를 전사 처리한 텍스트데이터를 상기 다수의 사용자로부터 획득하여, 획득된 텍스트데이터 중 적어도 일부를 인공 지능 학습을 위한 학습데이터로 결정하는 결정부를 포함하는 것을 특징으로 한다.

구체적으로, 상기 생성부는, 상기 원시데이터 내 음성의 사일런스(Silence) 구간을 기초로 상기 원시데이터 내 음성을 문장 단위로 분할할 수 있다.

구체적으로, 상기 분배부는, 2 이상의 사용자를 포함하는 사용자그룹을 분류하며, 상기 사용자그룹 내 각 사용자가 동일한 문장을 전사 처리할 수 있도록 상기 사용자그룹 내 각 사용자에게 동일한 전사대상데이터를 분배할 수 있다.

구체적으로, 상기 사용자그룹은, 상기 원시데이터가 속하는 특정 분야에 대한 사용자 별 적합도를 기초로, 적합도 지수가 임계 지수 이상인 사용자를 포함하도록 분류될 수 있다.

구체적으로, 상기 사용자그룹은, 상기 크라우드전사장치에서의 전사 처리 이력이 존재하는 유경험 사용자와 전사 처리 이력이 존재하지 않는 비경험 사용자 간의 비율이 일정 비율이 되도록 분류될 수 있다.

구체적으로, 상기 분류부는, 상기 원시데이터가 속하는 특정 분야에 대한 사용자 별 적합도를 기초로 적합도 지수가 높은 사용자에 대해 접합도 지수가 낮은 사용자에 비해 보다 많은 개수의 전사대상데이터를 분배할 수 있다.

구체적으로, 상기 결정부는, 상기 사용자그룹 내 각 사용자로부터 획득되는 텍스트데이터 간 유사도에 따른 품질 지수를 기초로, 상기 사용자그룹 내 각 사용자로부터 수집되는 텍스트데이터 중 품질 지수가 가장 높은 특정 사용자로부터의 텍스트데이터를 학습데이터로 결정할 수 있다.

구체적으로, 상기 결정부는, 텍스트데이터의 품질 지수가 동일한 2 이상의 사용자가 존재하는 경우, 상기 2 이상의 사용자 중 상기 원시데이터가 속하는 특정 분야에 대한 적합도가 보다 높은 특정 사용자로부터의 텍스트데이터를 학습데이터로 결정할 수 있다.

구체적으로, 상기 크라우드전사장치는, 상기 전사대상데이터를 전사 처리한 각 사용자에 대해 각각의 텍스트데이터의 품질 지수, 및 학습데이터로의 결정 여부 중 적어도 하나에 기초한 보상을 제공하는 보상부를 더 포함할 수 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 크라우드전사장치의 동작 방법은, 원시데이터 내 음성을 문장 단위로 분할하여, 분할된 각 문장을 전사대상데이터로 생성하는 생성단계; 상기 전사대상데이터의 전사 처리를 위해 상기 전사대상데이터를 다수의 사용자에게 분배하는 분배단계; 및 상기 전사대상데이터를 전사 처리한 텍스트데이터를 상기 다수의 사용자로부터 획득하여, 획득된 텍스트데이터 중 적어도 일부를 인공 지능 학습을 위한 학습데이터로 결정하는 결정단계를 포함하는 것을 특징으로 한다.

구체적으로, 상기 생성단계는, 상기 원시데이터 내 음성의 사일런스(Silence) 구간을 기초로 상기 원시데이터 내 음성을 문장 단위로 분할할 수 있다.

구체적으로, 상기 분배단계는, 2 이상의 사용자를 포함하는 사용자그룹을 분류하며, 상기 사용자그룹 내 각 사용자가 동일한 문장을 전사 처리할 수 있도록 상기 사용자그룹 내 각 사용자에게 동일한 전사대상데이터를 분배할 수 있다.

구체적으로, 상기 분류단계는, 상기 원시데이터가 속하는 특정 분야에 대한 사용자 별 적합도를 기초로 적합도 지수가 높은 사용자에 대해 접합도 지수가 낮은 사용자에 비해 보다 많은 개수의 전사대상데이터를 분배할 수 있다.

구체적으로, 상기 결정단계는, 상기 사용자그룹 내 각 사용자로부터 획득되는 텍스트데이터 간 유사도에 따른 품질 지수를 기초로, 상기 사용자그룹 내 각 사용자로부터 수집되는 텍스트데이터 중 품질 지수가 가장 높은 특정 사용자로부터의 텍스트데이터를 학습데이터로 결정할 수 있다.

구체적으로, 상기 결정단계는, 텍스트데이터의 품질 지수가 동일한 2 이상의 사용자가 존재하는 경우, 상기 2 이상의 사용자 중 상기 원시데이터가 속하는 특정 분야에 대한 적합도가 보다 높은 특정 사용자로부터의 텍스트데이터를 학습데이터로 결정할 수 있다.

구체적으로, 상기 방법은, 상기 전사대상데이터를 전사 처리한 각 사용자에 대해 각각의 텍스트데이터의 품질 지수, 및 학습데이터로의 결정 여부 중 적어도 하나에 기초한 보상을 제공하는 보상단계를 더 포함할 수 있다.

이에, 본 발명의 크라우드전사장치 및 그 동작 방법에서는, 다수의 일반인 사용자의 참여를 기반으로 원시데이터에 포함된 음성을 텍스트데이터로 전사 처리하고, 전사 처리된 텍스트데이터를 자동 검증하여 학습데이터를 획득할 수 있으므로, 대용량의 학습데이터를 빠른 시간 안에 획득할 수 있는 효과를 성취한다.

도 1은 본 발명의 일 실시예에 따른 크라우드 전사 시스템 환경을 설명하기 위한 개략적인 구성도.
도 2는 본 발명의 일 실시예에 따른 크라우드전사장치의 구성을 설명하기 위한 구성도.
도 3은 본 발명의 일 실시예에 따른 사용자그룹을 설명하기 위한 예시도.
도 4는 본 발명의 일 실시예에 따른 품질 지수를 설명하기 위한 예시도.
도 5는 본 발명의 일 실시예에 따른 크라우드전사장치의 동작 방법을 설명하기 위한 개략적인 순서도.

이하, 첨부된 도면을 참조하여 본 발명의 일 실시예에 대하여 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 크라우드 전사 시스템 환경을 개략적으로 보여주고 있다.

도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 크라우드 전사 시스템 환경은 다수의 일반인 사용자(사용자 #1, 사용자 #2, . . , 사용자 #N)의 참여를 기반으로 인공 지능 학습을 위한 학습데이터를 획득하는 크라우드전사장치(100)를 포함하는 구성을 가질 수 있다.

크라우드전사장치(100)는 딥 러닝(Deep Learning) 기술 기반의 인공 지능 학습을 위한 학습데이터를 원시데이터로부터 획득하기 위한 장치를 일컫는 것으로서, 예컨대, 유무선 통신망을 통해 접속 가능한 서버의 형태로 구현될 수 있다.

참고로, 이러한 크라우드전사장치(100)가 서버의 형태로 구현되는 경우에는, 예컨대, 웹 서버, 데이터베이스 서버, 프록시 서버 등의 형태로 구현될 수 있으며, 네트워크 부하 분산 메커니즘, 내지 서비스 장치가 인터넷 또는 다른 네트워크 상에서 동작할 수 있도록 하는 다양한 소프트웨어 중 하나 이상이 설치될 수 있으며, 이를 통해 컴퓨터화된 시스템으로도 구현될 수 있다.

한편, 배경 기술에서도 언급한 바와 같이 인공 지능 학습을 위한 학습데이터의 경우, 일반적으로, 사람이 직접 청취한 음성을 텍스트로 전사하고, 전사한 텍스트가 음성과 일치하는지 여부를 검증하는 등의 복수의 처리 과정이 요구된다.

이에, 본 발명의 일 실시예에서는 인공 지능을 학습을 위한 학습데이터를 획득하기 위한 새로운 방안을 제안하고자 하며, 이하에서는 이를 실현하기 위한 크라우드전사장치(100)의 구성에 대해 보다 구체적으로 설명하기로 한다.

도 2는 본 발명의 일 실시예에 따른 크라우드전사장치(100)의 구성을 보여주고 있다.

도 2에 도시된 바와 같이, 본 발명의 일 실시예에 따른 크라우드전사장치(100)는 원시데이터로부터 전사대상데이터를 생성하는 생성부(20), 전사대상데이터를 분배하는 분배부(30), 및 전사대상데이터를 전사 처리한 텍스트데이터로부터 학습데이터를 결정하는 결정부(40)를 포함하는 구성을 가질 수 있다.

또한, 본 발명의 일 실시예에 따른 크라우드전사장치(100)는 전술한 구성 이외에, 원시데이터를 수집하는 수집부(10), 및 전사 처리에 따른 보상을 제공하는 제공부(50)를 더 포함하는 구성을 가질 수 있다.

이상의 수집부(10), 생성부(20), 분배부(30), 결정부(40), 및 제공부(50)를 포함하는 크라우드전사장치(100)의 전체 구성 내지는 적어도 일부는 하드웨어 모듈 형태 또는 소프트웨어 모듈 형태로 구현되거나, 하드웨어 모듈과 소프트웨어 모듈이 조합된 형태로도 구현될 수 있다.

여기서, 소프트웨어 모듈이란, 예컨대, 크라우드전사장치(100) 내에서 연산을 제어하는 프로세서에 의해 실행되는 명령어로 이해될 수 있으며, 이러한 명령어는 크라우드전사장치(100) 내 메모리에 탑재된 형태를 가질 수 있을 것이다.

한편, 본 발명의 일 실시예에 따른 크라우드전사장치(100)는 전술한 구성 이외에, 유무선 통신망 접속을 지원하기 위한 통신 기능을 담당하는 RF 모듈인 통신부(60)의 구성을 더 포함할 수 있다.

여기서, 통신부(60)는 예컨대, 안테나 시스템, RF 송수신기, 하나 이상의 증폭기, 튜너, 하나 이상의 발진기, 디지털 신호 처리기, 코덱(CODEC) 칩셋, 및 메모리 등을 포함하지만 이에 제한되지는 않으며, 이 기능을 수행하는 공지의 회로는 모두 포함할 수 있다.

이상 본 발명의 일 실시예에 따른 크라우드전사장치(100)는 전술한 구성에 따라 다수의 (일반인) 사용자의 참여를 기반으로 원시데이터로부터 학습데이터를 획득할 수 있는데, 이하에서는 이를 실현하기 위한 크라우드전사장치(100) 내 각 구성에 대해 보다 구체적으로 설명하기로 한다.

수집부(10)는 원시데이터를 수집하는 기능을 수행한다.

보다 구체적으로, 수집부(10)는 전사 처리 이전의 가공되지 않은 데이터의 형태인 원시데이터를 수집하게 된다.

여기서, 원시데이터는, 예컨대, 음성 데이터 자체 또는 음성을 포함한 동영상 데이터 등을 포함할 수 있으며, 웹, 기타 저장 매체 등 다양한 경로를 통해서 수집될 수 있다.

생성부(20)는 전사대상데이터를 생성하는 기능을 수행한다.

보다 구체적으로, 생성부(20)는 수집된 원시데이터 내 음성을 문장 단위로 분할하여, 분할된 각 문장을 각각의 전사 처리가 요구되는 전사대상데이터로서 생성하게 된다.

이때, 생성부(20)는 원시데이터 내 음성의 사일런스(Silence) 구간을 기준으로 원시데이터 내 음성을 문장 단위로 분할할 수 있다.

예를 들어, 대략 1 시간 분량의 원시데이터가 존재하며, 이러한 원시데이터를 10초 단위로 사일런스 지점에서 분할하는 경우, 해당 원시데이터는 약 360개의 분할데이터로 분할될 수 있으며, 이처럼 분할된 약 360개의 분할데이터 각각이 전사대상데이터로 생성될 수 있는 것이다.

분배부(30)는 전사대상데이터를 다수의 (일반인) 사용자에게 분배하는 기능을 수행한다.

보다 구체적으로, 분배부(30)는 원시데이터로부터 전사대상데이터가 생성되면, 생성된 전사대상데이터에 대한 전사 처리를 위해 각 전사대상데이터를 다수의 사용자에게 분배하게 된다.

여기서, 전사대상데이터가 분배되는 다수의 사용자는 유무선 통신망을 통해 크라우드전사장치(100)에 접속한 일반인 사용자로 이해될 수 있다.

이때, 분배부(30)는 전사대상데이터의 분배에 앞서 동일한 문장의 전사대상데이터를 2 이상의 사용자(예: 3명 이상)에게 공통으로 분배하기 위해 사용자그룹을 분류하게 된다.

이처럼, 사용자그룹을 분류하는 것은 전사대상데이터의 전사 품질(예: 전사 작업 속도, 전사 내용 정확도)을 일정 수준 보장하기 위한 취지로서, 이는, 전사대상데이터에 대한 이해도가 사용자마다 다를 수 있음을 고려하기 위함으로 이해될 수 있다.

이를 위해, 분배부(30)는 사용자그룹을 분류함에 있어서, 원시데이터(혹은, 전사대상데이터)가 속하는 특정 분야에 대한 사용자 별 적합도를 분석하게 되며, 분석된 적합도 지수가 임계 지수 이상인 사용자를 포함하도록 사용자그룹을 분류하게 된다.

여기서, 사용자 별 적합도란, 원시데이터(혹은, 전사대상데이터)가 속하는 특정 분야에 대한 사용자의 이해도를 반영하기 위한 것으로서, 예컨대, 다음의 [수식 1]에 따라서 분석될 수 있다.

[수식 1]

P(적합도 지수) = ∑a _i w _i , 0 ≤w _i ≤ 1, 0 ≤w _i ≤ 1, ∑w _i = 1

여기서, 'a_i'는 사용자의 이해도와 관련된 평가 요소 값으로서 예컨대, 사용자의 전공, 관심분야, 사용자 입력정보에 근거한 연관도, 그리고 이전 전사 처리 이력이 존재하는 경우에는 전사 결과물의 품질 등을 포함할 수 있으며, 'wi'는 각 평가 요소에 대한 가중치를 일컫는다.

예를 들어, 도 3에 도시된 바와 같이, 사용자 #1 내지 사용자 #8이 존재하며, 전사대상데이터 #1 내지 전사대상데이터 #3이 존재하는 경우, 사용자 #1 ~ 사용자 #8에 대한 적합도 분석 결과에 따라, 사용자 #1 내지 사용자 #3이 속하는 사용자그룹 #1과; 사용자 #2, 사용자 #4 및 사용자 #5가 속하는 사용자그룹 #2; 및 사용자 #6 내지 사용자 #8이 속하는 사용자그룹 #3이 분류될 수 있다.

나아가, 분류부(30)는 원시데이터(혹은, 전사대상데이터)가 속하는 특정 분야에 대한 사용자 별 적합도를 분석 결과에 따라 사용자그룹이 분류되면, 분류된 사용자그룹 내 각 사용자에게 동일한 문장의 전사대상데이터를 공통으로 분배하게 된다.

앞서 예시한 도 3을 다시 참조하면, 사용자그룹 #1에 속한 각 사용자(사용자 #1 내지 사용자 #3)에는 전사대상데이터 #1이 공통으로 분배되고, 사용자그룹 #2에 속한 각 사용자(사용자 #2, 사용자 #4 및 사용자 #5)에는 전사대상데이터 #2가 공통으로 분배되며, 사용자그룹 #3에 속한 각 사용자(사용자 #6 내지 사용자 #8)에는 전사대상데이터 #3이 공통으로 분배될 수 있는 것이다.

이때, 분류부(30)는 전사대상데이터의 분배에 있어서 전사 품질의 제고를 고려하기 위해 적합도 지수가 높은 사용자에 대해 접합도 지수가 낮은 사용자에 비해 보다 많은 개수의 전사대상데이터를 분배할 수 있다.

이와 관련하여, 앞서 예시한 도 3에서는 사용자그룹 #1과 사용자그룹 #2로 공통 분류되고 있는 사용자 #2가 나머지 사용자들에 비해 적합도 지수가 높은 것으로 이해될 수 있는 것이다.

한편, 이하에서 구체적으로 설명하겠지만, 각 사용자의 이전 전사 품질의 경우, 전술한 바와 같이 각 사용자의 적합도 판단에서뿐만 아니라, 각 사용자가 전사 처리한 텍스트데이터로부터 학습데이터를 결정하는 데 있어서도 고려될 수 있다.

이는 다시 말해 이전 전사 품질 이력이 존재하는 사용자의 경우, 그렇지 않은 사용자에 비해 적합도 지수가 높으며, 학습데이터로 결정될 확률이 보다 높으며, 학습데이터 결정 이후 보상 기회 또한 이전 전사 품질 이력이 존재하는 사용자가 그렇지 않은 사용자보다 많다는 것으로 이해될 수 있다.

그러나, 본 발명의 일 실시예의 경우 학습데이터 획득에 있어서, 일반인 사용자의 적극적인 참여가 요구되는 바, 이처럼 이전 전사 품질 이력이 존재하는 사용자에게 보다 유리하게 서비스가 제공되는 경우에는, 신규 사용자의 참여도를 저하시킬 수 있다.

이에, 본 발명의 일 실시예에서는 신규 사용자의 참여도를 고취시키기 위한 방안으로서, 사용자그룹 분류에 있어서, 전사 처리 이력이 존재하는 유경험 사용자와 전사 처리 이력이 존재하지 않는 비경험 사용자 즉, 신규 사용자 간의 비율이 일정 비율이 되도록 사용자그룹을 분류함으로써, 신규 사용자라 하더라도 전사 품질이 높은 경우에는 그에 따른 보상을 제공받을 수 있는 환경을 마련할 수 있다.

결정부(40)는 학습데이터를 결정하는 기능을 수행한다.

보다 구체적으로, 결정부(40)는 전사대상데이터 분배 이후 분배된 전사대상데이터를 전사 처리한 텍스트데이터가 사용자로부터 획득되는 경우, 획득된 텍스트데이터 중 적어도 일부를 인공 지능 학습을 위한 학습데이터로 결정하게 된다.

이때, 결정부(40)는 사용자그룹 별로 학습데이터를 결정하게 되는데, 이를 위해 각 사용자그룹 내 사용자로부터 획득되는 텍스트데이터 간 유사도에 따른 품질 지수를 기초로 동일한 문장을 전사 처리한 텍스트데이터 중 품질 지수가 가장 높은 텍스트데이터를 학습데이터로 결정할 수 있다.

여기서, 텍스트데이터의 품질 지수는, 전술한 바와 같이 사용자그룹 내 텍스트데이터 간 유사도에 근거한 것으로서, 예컨대, 아래 [수식 2]에서와 같이 계산될 수 있다.

[수식 2]

Q(적합도 지수) = (∑b _i )/n, 0 ≤b _i ≤ 1

여기서, b_i는 특정 텍스트데이터와 나머지 텍스트데이터 간 문장 유사도 분석 지수를 일컫는 것으로서, 사용자그룹으로부터 n개의 텍스트데이터가 수신되는 경우라면, n-1개의 유사도 검사가 진행된다.

참고로, 텍스트데이터 간 문장 유사도 검사는, 글씨, 단어, 문장 등을 비교하는 방식으로 수행될 수 있으며, 그 방식에 특별한 제한은 따르지 않음은 물론이다.

예를 들어, 도 4에 도시한 바와 같이, 동일 사용자그룹 내 사용자 #1 내지 사용자 #3으로부터 각각 텍스트데이터 #1 내지 #3이 획득되며, 각 텍스트데이터 간의 문장 유사도 지수(0.7, 0.9, 0.8)가 분석된 경우라면, 사용자 #3으로부터 획득된 텍스트데이터 #3의 품질 지수가 가장 높게 계산되어 텍스트데이터 #3이 학습데이터로 결정될 수 있는 것이다.

한편, 이처럼 사용자그룹 내 사용자로부터 획득되는 각 텍스트데이터의 품질 지수의 우선순위에 따라 학습데이터를 결정하는 경우, 품질 지수가 동일한 텍스트데이터가 존재할 수 있다.

이 경우, 결정부(40)는 품질 지수가 동일한 사용자 각각에 대해 앞서 [수식 1]을 통해서 분석된 적합도 지수를 상호 비교하여, 비교 결과 접합도 지수가 보다 높은 사용자의 텍스트데이터를 학습데이터로서 결정할 수 있다.

제공부(60)는 전사 처리에 따른 보상을 제공하는 기능을 수행한다.

보다 구체적으로, 제공부(60)는 전사 처리에 참여한 각 사용자에 대해 전사 처리에 참여에 따른 보상을 제공하게 된다.

이때, 제공부(60)는 전사대상데이터를 전사 처리한 각 사용자에 대해 예컨대, 각각의 텍스트데이터의 품질 지수, 및 훈련데이터로의 결정 여부 중 적어도 하나에 기초로 보상의 정도를 판단하여 판단 결과에 상응하는 보상을 제공할 수 있다.

이상에서 살펴본 바와 같이, 본 발명의 일 실시예에 따른 크라우드전사장치(100)의 구성에 따르면, 다수의 일반인 사용자의 참여를 기반으로 원시데이터에 포함된 음성을 텍스트데이터로 전사 처리하고, 전사 처리된 텍스트데이터를 자동 검증하여 학습데이터를 획득할 수 있으므로, 대용량의 학습데이터를 빠른 시간 안에 획득하는 효과를 성취할 수 있음을 알 수 있다.

이하에서는, 도 5를 참조하여 크라우드전사장치(100)의 동작 방법에 대한 설명을 이어 가기로 한다.

먼저, 수집부(10)는 전사 처리 이전의 가공되지 않은 데이터의 형태인 원시데이터를 수집한다(S10).

그리고 나서, 생성부(20)는 수집된 원시데이터 내 음성을 문장 단위로 분할하여, 분할된 각 문장을 각각의 전사 처리가 요구되는 전사대상데이터로서 생성한다(S20).

그런 다음, 분배부(30)는 원시데이터로부터 전사대상데이터가 생성되면, 생성된 전사대상데이터에 대한 전사 처리를 위해 각 전사대상데이터를 다수의 사용자에게 분배하게 된다(S30-S40).

여기서, 사용자 별 적합도란, 원시데이터(혹은, 전사대상데이터)가 속하는 특정 분야에 대한 사용자의 이해도를 반영하기 위한 것으로서, 앞서 예시한 [수식 1]에 따라서 분석될 수 있다.

예를 들어, 앞서 예시한 도 3에 도시된 바와 같이, 사용자 #1 내지 사용자 #8이 존재하며, 전사대상데이터 #1 내지 전사대상데이터 #3이 존재하는 경우, 사용자 #1 ~ 사용자 #8에 대한 적합도 분석 결과에 따라, 사용자 #1 내지 사용자 #3이 속하는 사용자그룹 #1과; 사용자 #2, 사용자 #4 및 사용자 #5가 속하는 사용자그룹 #2; 및 사용자 #6 내지 사용자 #8이 속하는 사용자그룹 #3이 분류될 수 있다.

다시 앞서 예시한 도 3을 다시 참조하면, 사용자그룹 #1에 속한 각 사용자(사용자 #1 내지 사용자 #3)에는 전사대상데이터 #1이 공통으로 분배되고, 사용자그룹 #2에 속한 각 사용자(사용자 #2, 사용자 #4 및 사용자 #5)에는 전사대상데이터 #2가 공통으로 분배되며, 사용자그룹 #3에 속한 각 사용자(사용자 #6 내지 사용자 #8)에는 전사대상데이터 #3이 공통으로 분배될 수 있는 것이다.

나아가, 결정부(40)는 전사대상데이터 분배 이후 분배된 전사대상데이터를 전사 처리한 텍스트데이터가 사용자로부터 획득되는 경우, 획득된 텍스트데이터 중 적어도 일부를 인공 지능 학습을 위한 학습데이터로 결정한다(S50-S70).

여기서, 텍스트데이터의 품질 지수는, 전술한 바와 같이 사용자그룹 내 텍스트데이터 간 유사도에 근거한 것으로서, 앞서 예시한 [수식 2]에서와 같이 계산될 수 있다.

예를 들어, 앞선 도 4에서와 같이, 동일 사용자그룹 내 사용자 #1 내지 사용자 #3으로부터 각각 텍스트데이터 #1 내지 #3이 획득되며, 각 텍스트데이터 간의 문장 유사도 지수(0.7, 0.9, 0.8)가 분석된 경우라면, 사용자 #3으로부터 획득된 텍스트데이터 #3의 품질 지수가 가장 높게 계산되어 텍스트데이터 #3이 학습데이터로 결정될 수 있는 것이다.

이후, 제공부(60)는 전사 처리에 참여한 각 사용자에 대해 전사 처리에 참여에 따른 보상을 제공한다(S80).

이상에서 살펴본 바와 같이, 본 발명의 일 실시예에 따른 크라우드전사장치(100)의 동작 방법에 따르면, 다수의 일반인 사용자의 참여를 기반으로 원시데이터에 포함된 음성을 텍스트데이터로 전사 처리하고, 전사 처리된 텍스트데이터를 자동 검증하여 학습데이터를 획득할 수 있으므로, 대용량의 학습데이터를 빠른 시간 안에 획득하는 효과를 성취할 수 있음을 알 수 있다.

한편, 여기에 제시된 실시예들과 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로 직접 구현되거나, 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

지금까지 본 발명을 바람직한 실시 예를 참조하여 상세히 설명하였지만, 본 발명이 상기한 실시 예에 한정되는 것은 아니며, 이하의 특허청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 또는 수정이 가능한 범위까지 본 발명의 기술적 사상이 미친다 할 것이다.

본 발명에 따른 크라우드전사장치 및 그 동작 방법에 따르면, 다수의 일반인 사용자의 참여를 기반으로 원시데이터에 포함된 음성을 텍스트데이터로 전사 처리하고, 전사 처리된 텍스트데이터를 자동 검증하여 학습데이터를 획득한다는 점에서, 기존 기술의 한계를 뛰어 넘음에 따라 관련 기술에 대한 이용만이 아닌 적용되는 장치의 시판 또는 영업의 가능성이 충분할 뿐만 아니라 현실적으로 명백하게 실시할 수 있는 정도이므로 산업상 이용가능성이 있는 발명이다.

100: 크라우드전사장치
10: 생성부 20: 도출부
30: 결정부 40: 확인부
50: 표시부

Claims

크라우드전사장치에 있어서,
원시데이터 내 음성을 문장 단위로 분할하여, 분할된 각 문장을 전사대상데이터로 생성하는 생성부;
상기 전사대상데이터의 전사 처리를 위해 상기 전사대상데이터를 다수의 사용자에게 분배하는 분배부; 및
상기 전사대상데이터를 전사 처리한 텍스트데이터를 상기 다수의 사용자로부터 획득하여, 획득된 텍스트데이터 중 적어도 일부를 인공 지능 학습을 위한 학습데이터로 결정하는 결정부를 포함하며,
상기 분배부는,
2 이상의 사용자를 포함하는 사용자그룹 내 각 사용자에게 전사대상데이터를 분배하며,
상기 사용자그룹은,
상기 크라우드전사장치에서의 전사 처리 이력이 존재하는 유경험 사용자와 전사 처리 이력이 존재하지 않는 비경험 사용자 간의 비율이 일정 비율이 되도록 분류되며,
상기 결정부는,
상기 사용자그룹 내 각 사용자로부터 획득되는 동일한 문장을 전사 처리한 텍스트데이터 간 유사도를 분석하며, 타 사용자와의 유사도가 높을수록 높은 값으로 계산되는 텍스트데이터의 품질 지수를 기초로 상기 사용자그룹 내 각 사용자로부터 수집되는 텍스트데이터 중 품질 지수가 가장 높은 특정 사용자의 텍스트데이터를 학습데이터로 결정하는 것을 특징으로 하는 크라우드전사장치.
제 1 항에 있어서,
상기 생성부는,
상기 원시데이터 내 음성의 사일런스(Silence) 구간을 기초로 상기 원시데이터 내 음성을 문장 단위로 분할하는 것을 특징으로 하는 크라우드전사장치.
제 1 항에 있어서,
상기 분배부는,
2 이상의 사용자를 포함하는 사용자그룹을 분류하며,
상기 사용자그룹 내 각 사용자가 동일한 문장을 전사 처리할 수 있도록 상기 사용자그룹 내 각 사용자에게 동일한 전사대상데이터를 분배하는 것을 특징으로 하는 크라우드전사장치.
제 3 항에 있어서,
상기 사용자그룹은,
상기 원시데이터가 속하는 특정 분야에 대한 사용자 별 적합도를 기초로, 적합도 지수가 임계 지수 이상인 사용자를 포함하도록 분류되는 것을 특징으로 하는 크라우드전사장치.
삭제
제 1 항에 있어서,
상기 분배부는,
상기 원시데이터가 속하는 특정 분야에 대한 사용자 별 적합도를 기초로 적합도 지수가 높은 사용자에 대해 접합도 지수가 낮은 사용자에 비해 보다 많은 개수의 전사대상데이터를 분배하는 것을 특징으로 하는 크라우드전사장치.
삭제
제 1 항에 있어서,
상기 결정부는,
텍스트데이터의 품질 지수가 동일한 2 이상의 사용자가 존재하는 경우, 상기 2 이상의 사용자 중 상기 원시데이터가 속하는 특정 분야에 대한 적합도가 보다 높은 특정 사용자로부터의 텍스트데이터를 학습데이터로 결정하는 것을 특징으로 하는 크라우드전사장치.
제 1 항에 있어서,
상기 크라우드전사장치는,
상기 전사대상데이터를 전사 처리한 각 사용자에 대해 각각의 텍스트데이터의 품질 지수, 및 학습데이터로의 결정 여부 중 적어도 하나에 기초한 보상을 제공하는 보상부를 더 포함하는 것을 특징으로 하는 크라우드전사장치.
크라우드전사장치의 동작 방법에 있어서,
원시데이터 내 음성을 문장 단위로 분할하여, 분할된 각 문장을 전사대상데이터로 생성하는 생성단계;
상기 전사대상데이터의 전사 처리를 위해 상기 전사대상데이터를 다수의 사용자에게 분배하는 분배단계; 및
상기 전사대상데이터를 전사 처리한 텍스트데이터를 상기 다수의 사용자로부터 획득하여, 획득된 텍스트데이터 중 적어도 일부를 인공 지능 학습을 위한 학습데이터로 결정하는 결정단계를 포함하며,
상기 분배단계는,
2 이상의 사용자를 포함하는 사용자그룹 내 각 사용자에게 전사대상데이터를 분배하며,
상기 사용자그룹은,
상기 크라우드전사장치에서의 전사 처리 이력이 존재하는 유경험 사용자와 전사 처리 이력이 존재하지 않는 비경험 사용자 간의 비율이 일정 비율이 되도록 분류되며,
상기 결정단계는,
상기 사용자그룹 내 각 사용자로부터 획득되는 동일한 문장을 전사 처리한 텍스트데이터 간 유사도를 분석하며, 타 사용자와의 유사도가 높을수록 높은 값으로 계산되는 텍스트데이터의 품질 지수를 기초로 상기 사용자그룹 내 각 사용자로부터 수집되는 텍스트데이터 중 품질 지수가 가장 높은 특정 사용자의 텍스트데이터를 학습데이터로 결정하는 것을 특징으로 하는 크라우드전사장치의 동작 방법.
제 10 항에 있어서,
상기 생성단계는,
상기 원시데이터 내 음성의 사일런스(Silence) 구간을 기초로 상기 원시데이터 내 음성을 문장 단위로 분할하는 것을 특징으로 하는 크라우드전사장치의 동작 방법.
제 10 항에 있어서,
상기 분배단계는,
2 이상의 사용자를 포함하는 사용자그룹을 분류하며, 상기 사용자그룹 내 각 사용자가 동일한 문장을 전사 처리할 수 있도록 상기 사용자그룹 내 각 사용자에게 동일한 전사대상데이터를 분배하는 것을 특징으로 하는 크라우드전사장치의 동작 방법.
제 12 항에 있어서,
상기 사용자그룹은,
상기 원시데이터가 속하는 특정 분야에 대한 사용자 별 적합도를 기초로, 적합도 지수가 임계 지수 이상인 사용자를 포함하도록 분류되는 것을 특징으로 하는 크라우드전사장치의 동작 방법.
제 10 항에 있어서,
상기 분배단계는,
상기 원시데이터가 속하는 특정 분야에 대한 사용자 별 적합도를 기초로 적합도 지수가 높은 사용자에 대해 접합도 지수가 낮은 사용자에 비해 보다 많은 개수의 전사대상데이터를 분배하는 것을 특징으로 하는 크라우드전사장치의 동작 방법.
삭제
제 10 항에 있어서,
상기 결정단계는,
텍스트데이터의 품질 지수가 동일한 2 이상의 사용자가 존재하는 경우, 상기 2 이상의 사용자 중 상기 원시데이터가 속하는 특정 분야에 대한 적합도가 보다 높은 특정 사용자로부터의 텍스트데이터를 학습데이터로 결정하는 것을 특징으로 하는 크라우드전사장치의 동작 방법.
제 10 항에 있어서,
상기 방법은,
상기 전사대상데이터를 전사 처리한 각 사용자에 대해 각각의 텍스트데이터의 품질 지수, 및 학습데이터로의 결정 여부 중 적어도 하나에 기초한 보상을 제공하는 보상단계를 더 포함하는 것을 특징으로 하는 크라우드전사장치의 동작 방법.