KR20220134959A

KR20220134959A - 업종별 음성인식 엔진 기반의 음성 데이터 처리 시스템 및 방법

Info

Publication number: KR20220134959A
Application number: KR1020210040291A
Authority: KR
Inventors: 이성노
Original assignee: 텍스토리 주식회사
Priority date: 2021-03-29
Filing date: 2021-03-29
Publication date: 2022-10-06

Abstract

본 발명은, 음성처리 서버가 녹취파일의 URL 및 사용자 ID를 통화기록 ID에 매칭시켜 저장하는 단계, 음성처리 서버가 사용자 ID의 업종정보 및 통화기록 ID를 포함하는 음성인식 요청을 음성인식 서버로 전송하는 단계, 및 음성인식 서버가 통화기록 ID에 대응하는 녹취파일을 수신하고 업종정보에 대응하는 음성인식엔진을 이용하여 상기 수신된 녹취파일에 대한 음성인식 처리로 전체 텍스트 정보와 요약 텍스트를 생성하는 단계를 포함하는 음성 데이터 처리 방법에 관한 것이다.

Description

업종별 음성인식 엔진 기반의 음성 데이터 처리 시스템 및 방법{VOICE DATA PROCESSING SYSTEM AND METHOD BASED ON VOICE RECOGNITION ENGINE OF EACH BUSINESS TYPE}

본 발명은 업종별 음성인식 엔진 기반의 음성 데이터 처리 시스템 및 방법에 관한 것으로서 구체적으로는 업종별로 분리되어 학습된 음성인식 엔진을 이용하여 통화 녹음 데이터를 전체 텍스트 데이터와 요약 데이터로 변환하여 사용자에게 편리한 녹음 데이터의 처리 서비스를 제공할 수 있는 업종별 음성인식 엔진 기반의 음성 데이터 처리 시스템 및 방법에 관한 것이다.

스마트폰에서는 타인과의 통화를 녹음하고 녹음 데이터를 저장 가능하다. 스마트폰 사용자는 다양한 이유에서 타인과의 통화를 녹음하고 녹음된 데이터를 스마트폰에 저장한다.

타인과의 통화를 녹음하는 이유는 다양하게 존재할 수 있다. 타인과의 업무상 전화에서 사용자는 타인과의 협의된 중요 사항을 확인하고 이를 업무에 반영하기 위해 녹음 데이터를 이용 가능하다.

타인과의 대화가 길어지는 경우, 녹음 데이터에서 주요한 통화 내용을 인지하기란 여간 쉽지 않다. 사용자는 희망하는 통화 내용을 듣기 위해 임의 위치로 녹음 데이터의 재생 위치를 이동시켜 통화 내용 파악을 시도할 수 있으나 그 역시 용이하지 않다.

음성 인식을 통해 녹음 데이터를 텍스트로 변환하고 변환된 전체 텍스트를 사용자에게 제공할 수 있으나, 녹음 데이터의 통화 시간이 긴 경우 전체 텍스트에서 주요 내용을 알 수 없는 문제점과 사용자의 업무 분야에 따라 음성 인식률이 낮아지는 문제점이 발생한다.

영업 업종, 부동산 업종, 보험 업종, 법무 업종 등에서 널리 이용되는 단어나 용어가 서로 달라 음성인식 엔진이 업종별로 특화되어 구성될 필요가 있다.

본 발명은, 상술한 문제점을 해결하기 위해서 안출한 것으로서, 휴대형 등을 통해 녹음된 녹음 데이터를 휴대형 단말 사용자의 업종에 따라 특화된 음성인식 엔진을 이용하여 텍스트로 변환할 수 있는 업종별 음성인식 엔진 기반의 음성 데이터 처리 시스템 및 방법을 제공하는 데 목적이 있다.

또한, 본 발명은 녹음 데이터로부터 사용자의 업종에 특화된 요약 텍스트를 업종별 음성인식 엔진을 이용하여 제공할 수 있는 업종별 음성인식 엔진 기반의 음성 데이터 처리 시스템 및 방법을 제공하는 데 목적이 있다.

또한, 본 발명은 업종별 등록된 사용자의 녹음 데이터를 이용하여 업종별 음성인식 엔진을 학습시켜 업종별 음성인식 엔진의 인식률을 향상시킬 수 있는 업종별 음성인식 엔진 기반의 음성 데이터 처리 시스템 및 방법을 제공하는 데 목적이 있다.

본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

본 발명의 일 양상에 따른 음성 데이터 처리 방법은 음성처리 서버가 녹취파일의 URL 및 사용자 ID를 통화기록 ID에 매칭시켜 저장하는 단계; 상기 음성처리 서버가 상기 사용자 ID의 업종정보 및 상기 통화기록 ID를 포함하는 음성인식 요청을 상기 음성인식 서버로 전송하는 단계; 및 상기 음성인식 서버가 상기 통화기록 ID에 대응하는 녹취파일을 수신하고, 상기 업종정보에 대응하는 음성인식엔진을 이용하여 수신된 녹취파일에 대한 음성인식 처리로 전체 텍스트 정보와 요약 텍스트를 생성하는 단계;를 포함한다.

상기한 음성 데이터 처리 방법에 있어서, 상기 음성처리 서버가 상기 음성인식 서버로부터 전체 텍스트 정보와 요약 텍스트를 수신하고 상기 통화기록 ID에 매칭되어 저장된 통화기록정보를 수신된 전체 텍스트 정보와 요약 텍스트를 이용하여 업데이트하는 단계;를 더 포함한다.

상기한 음성 데이터 처리 방법에 있어서, 상기 음성인식 요청을 상기 업종정보에 대응하는 음성인식 서버로 전송하는 단계는 음성인식요청 큐에 음성인식 요청을 인큐하고 복수의 업종의 음성인식처리를 각각 수행하는 복수의 음성인식 서버 중 스케줄링에 따라 음성인식 처리가 가능한 하나의 음성인식 서버로 음성인식요청 큐의 음성인식 요청을 전송한다.

상기한 음성 데이터 처리 방법에 있어서, 상기 음성인식 요청을 상기 업종정보에 대응하는 음성인식 서버로 전송하는 단계는 상기 사용자 ID의 업종정보에 대응하는 음성인식 엔진을 구비하고 상기 음성인식 요청의 사용자 ID에 대응하는 음성인식 서버로 전송한다.

상기한 음성 데이터 처리 방법에 있어서, 상기 녹취파일의 URL 및 사용자 ID를 통화기록 ID에 매칭시켜 저장하는 단계 이전에, 상기 음성인식 서버가 지정된 업종에 대응하고 인공지능 기술을 적용한 음성인식 엔진을 상기 지정된 업종의 업종정보를 가지는 사용자의 녹취파일을 이용하여 학습시키는 단계;를 더 포함한다.

상기한 음성 데이터 처리 방법에 있어서, 상기 음성인식 엔진을 사용자의 녹취파일을 이용하여 학습시키는 단계는 상기 사용자의 녹취파일과 대응하는 전체 텍스트 데이터를 이용하여 음성인식 엔진의 음성변환 모델을 학습시키고 상기 지정된 업종에 대응하는 복수의 키워드를 이용하여 음성인식 엔진의 언어모델을 학습시킨다.

상기한 음성 데이터 처리 방법에 있어서, 상기 복수의 키워드 각각은 상기 사용자의 녹취파일에서 추출되는 단어이다.

상기한 음성 데이터 처리 방법에 있어서, 상기 전체 텍스트 정보는 타임 스탬프와 대응하는 텍스트 데이터를 복수 개 포함하고, 상기 음성처리 서버는 휴대형 단말로부터 수신되는 전체 텍스트 선택입력에 따라 복수의 텍스트 데이터를 상기 휴대형 단말로 출력하고 상기 휴대형 단말로부터 수신되는 텍스트 데이터 선택 입력에 따라 선택된 텍스트 데이터에 대응하는 녹취 데이터를 상기 휴대형 단말로 출력한다.

또한, 본 발명의 일 양상에 따른 음성 데이터 처리 시스템은 녹취파일의 URL 및 사용자 ID를 통화기록 ID에 매칭시켜 저장하고 상기 사용자 ID의 업종정보 및 상기 통화기록 ID를 포함하는 음성인식 요청을 상기 업종정보에 대응하는 음성인식 서버로 전송하는 음성처리 서버; 및 업종정보에 따라, 상기 통화기록 ID에 대응하는 녹취파일을 수신하고 수신된 녹취파일에 대한 음성인식 처리로 전체 텍스트 정보와 요약 텍스트를 생성하는 복수의 음성인식 서버;를 포함한다.

상기한 음성 데이터 처리 시스템에 있어서, 상기 음성처리 서버는 상기 업종정보에 대응하는 음성인식 서버로부터 전체 텍스트 정보와 요약 텍스트를 수신하고 상기 통화기록 ID에 매칭되어 저장된 통화기록정보를 수신된 전체 텍스트 정보와 요약 텍스트를 이용하여 업데이트한다.

상기한 음성 데이터 처리 시스템에 있어서, 상기 음성처리 서버는 음성인식요청 큐에 음성인식 요청을 인큐하고 복수의 업종의 음성인식처리를 각각 수행하는 상기 복수의 음성인식 서버 중 스케줄링에 따라 음성인식 처리가 가능한 하나의 음성인식 서버로 음성인식요청 큐의 음성인식 요청을 전송한다.

상기한 음성 데이터 처리 시스템에 있어서, 상기 음성인식 서버는 사용자의 녹취파일과 대응하는 전체 텍스트 데이터를 이용하여 지정된 업종에 대응하고 인공지능 기술을 적용한 내부 음성인식 엔진의 음성변환 모델을 학습시키고 상기 지정된 업종에 대응하는 복수의 키워드를 이용하여 상기 음성인식 엔진의 언어모델을 학습시킨다.

상기한 음성 데이터 처리 시스템에 있어서, 상기 전체 텍스트 정보는 타임 스탬프와 대응하는 텍스트 데이터를 복수 개 포함하고, 상기 음성처리 서버는 휴대형 단말로부터 수신되는 전체 텍스트 선택입력에 따라 복수의 텍스트 데이터를 상기 휴대형 단말로 출력하고 상기 휴대형 단말로부터 수신되는 텍스트 데이터 선택 입력에 따라 선택된 텍스트 데이터에 대응하는 녹취 데이터를 상기 휴대형 단말로 출력한다.

상기와 같은 본 발명에 따른 업종별 음성인식 엔진 기반의 음성 데이터 처리 시스템 및 방법은 휴대형 단말을 통해 녹음된 녹음 데이터를 휴대형 단말 사용자의 업종에 따라 특화된 음성인식 엔진을 이용하여 텍스트로 변환할 수 있는 효과가 있다.

또한, 상기와 같은 본 발명에 따른 업종별 음성인식 엔진 기반의 음성 데이터 처리 시스템 및 방법은 녹음 데이터로부터 사용자의 업종에 특화된 요약 텍스트를 업종별 음성인식 엔진을 이용하여 제공할 수 있는 효과가 있다.

또한, 상기와 같은 본 발명에 따른 업종별 음성인식 엔진 기반의 음성 데이터 처리 시스템 및 방법은 업종별 등록된 사용자의 녹음 데이터를 이용하여 업종별 음성인식 엔진을 학습시켜 업종별 음성인식 엔진의 인식률을 향상시킬 수 있는 효과가 있다.

본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

도 1은 업종별 음성인식 엔진 기반의 음성 데이터 처리를 위한 시스템의 일 예를 도시한 도면이다.
도 2는 업종별 음성인식 엔진 기반의 음성 데이터 처리를 위한 시스템의 다른 예를 도시한 도면이다.
도 3은 업종별 음성인식 엔진 기반의 음성 데이터 처리를 위한 주요 제어 흐름을 도시한 도면이다.
도 4는 전체 텍스트 정보 구성의 일 예를 나타내는 도면이다.
도 5는 음성인식 및 저장에 따라 휴대형 단말에 표시되는 디스플레이의 일 예를 도시한 도면이다.

상술한 목적, 특징 및 장점은 첨부된 도면을 참조하여 상세하게 후술 되어 있는 상세한 설명을 통하여 더욱 명확해 질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시 예를 상세히 설명하기로 한다.

도 1은 업종별 음성인식 엔진 기반의 음성 데이터 처리를 위한 시스템의 일 예를 도시한 도면이다.

도 1의 일 예에 따르면, 음성 데이터 처리 시스템은 휴대형 단말(100), 거치형 단말(200), 음성처리 서버(300), 녹취파일저장 스토리지(400), 사용자 정보 DB(500), 통화기록 저장 DB(600), 음성인식요청 큐(700), 음성인식 서버(800), 통신사 서버(900)를 포함하여 구성된다. 설계 예에 따라 음성 데이터 처리 시스템은 도 1의 일부 장치나 디바이스를 생략하여 구성되거나 도 1에 도시되지 않은 다른 장치나 디바이스를 더 포함하여 구성될 수 있다.

도 1을 통해 음성 데이터 처리 시스템을 간단히 살펴보면, 휴대형 단말(100) 및 거치형 단말(200)은 본 음성 데이터 처리 시스템에서 제공하는 음성 처리 서비스를 이용하는 사용자가 이용하는 단말이다.

휴대형 단말(100)은 내부에 프로세서, 비휘발성 메모리 및 무선통신 인터페이스를 포함하고 비휘발성 메모리의 프로그램(앱)의 수행을 통해 음성처리 서버(300)에 접속하여 각종 음성처리 관련 서비스를 받을 수 있는 단말이다. 휴대형 단말(100)은 예를 들어 스마트폰, 태블릿 PC 또는 노트북 등일 수 있다.

프로그램(앱)을 수행하는 휴대형 단말(100)은 다른 사용자와의 통화를 녹음(녹취)할 수 있고, 녹취파일을 음성처리 서버(300)에 업로딩할 수 있다. 또한, 음성처리 서버(300)에 접속한 휴대형 단말(100)은 녹취파일을 재생할 수 있고 통화내용의 요약과 통화내용 전체 텍스트를 확인할 수 있고 통화내용을 검색 가능하다. 휴대형 단말(100)은 무선통신 인터페이스를 통해 인터넷에 연결되어 음성처리 서버(300)와 각종 데이터를 송수신할 수 있다. 휴대형 단말(100)에서 이루어지는 주요 제어 흐름은 도 3에서 좀 더 살펴보도록 한다.

거치형 단말(200)은 내부에 프로세서, 하드디스크와 무선통신 및/또는 유선통신 인터페이스를 포함하고 하드디스크의 프로그램(예를 들어, 웹 브라우저)의 수행을 통해 음성처리 서버(300)에 접속하여 각종 음성처리 관련 서비스를 받을 수 있는 단말이다. 거치형 단말(200)은 퍼스널 컴퓨터 등일 수 있다.

거치형 단말(200)은 유선통신 또는 무선통신 인터페이스를 통해 음성처리 서버(300)에 접속하고 음성처리 서버(300)와 연동하여 통화내용을 검색하고 통화 녹취를 재생할 수 있다. 또한, 거치형 단말(200)은 녹취파일에 대응하는 통화내용의 요약과 통화내용의 전체 텍스트를 확인할 수 있다.

통신사 서버(900)는 유선통신 서비스를 제공하는 서버이다. 통신사 서버(900)는 유선전화나 인터넷전화 서비스를 사용자에게 제공하고 통화 녹음 서비스를 사용자에게 또한 제공할 수 있다. 통신사 서버(900)는 통화내역과 통화 녹취파일을 저장하고 통화내역과 녹취파일을 사용자의 요청이나 설정에 따라 음성처리 서버(300)로 업로딩할 수 있다.

음성처리 서버(300)는 등록된 사용자에게 음성 처리 서비스를 제공한다. 음성처리 서버(300)는 통신사별 통신사 서버(900)와 연동하여 통신사 서버(900)의 녹취파일을 녹취파일저장 스토리지(400)에 저장하고 휴대형 단말(100)과 연동하여 업로딩되는 녹취파일을 녹취파일저장 스토리지(400)에 저장한다. 음성처리 서버(300)는 통화내역정보를 저장하고 저장된 통화내역정보에 따라 통화내용 검색 등 각종 서비스를 사용자에게 제공할 수 있다.

음성처리 서버(300)는 음성인식 요청을 처리하도록 또한 구성된다. 음성처리 서버(300)는 사용자 설정이나 사용자로부터의 요청에 따라 사용자의 업종정보와 통화기록 ID를 포함하는 음성인식 요청을 생성하여 업종정보에 대응하는 음성인식 서버(800)로 전송한다.

도 1의 예에서, 음성처리 서버(300)는 사용자 ID에 대응하는 업종정보(업종코드)와 통화기록을 특정할 수 있는 통화기록 ID와 나아가 사용자 ID와 언어 정보를 포함하는 음성인식 요청을 음성인식요청 큐(700)에 인큐한다.

이와 같이, 음성처리 서버(300)는 음성인식 요청을 음성인식 서버(800)의 현재 이용 가능 여부에 상관없이 음성인식 서버(800)와 독립하여 음성인식요청 큐(700)에 저장할 수 있다.

음성인식요청 큐(700)는 FIFO(First In First Out) 버퍼를 포함하여 음성 인식이 미처리된 음성인식 요청을 임시 저장한다. 음성인식요청 큐(700)는 음성처리 서버(300)의 음성인식 요청의 생성 주기 및 시간과 음성인식 서버(800)의 처리 시기나 사용가능 여부에 따른 미스매치를 버퍼링하도록(완충하도록) 구성된다.

음성처리 서버(300)의 내부 스케줄러는 여러 업종의 음성인식처리를 각각 수행하는 여러 음성인식 서버(800) 중에서 하나의 음성인식 서버(800)로 음성인식요청 큐(700)의 하나의 음성인식 요청을 전송한다. 스케줄러는 음성인식 요청을 스케줄링 가능한 여러 음성인식 서버(800) 중에서 현재 음성인식 요청 처리가 없거나 (이미 완료되었거나) 가장 적은 음성인식 요청 처리를 가지는 음성인식 서버(800)로 인큐된 (지 가장 오래된) 음성인식 요청을 전송한다.

녹취파일저장 스토리지(400)는 통화 녹취파일을 저장한다. 녹취파일저장 스토리지(400)는 저장된 녹취파일의 저장 위치를 특정할 수 있는 URL(uniform resource locator)에 맵핑하여 녹취파일을 저장한다.

사용자 정보 DB(500)는 음성 데이터 처리 시스템을 이용하는 사용자를 특정하기 위한 정보를 저장한다. 사용자 정보 DB(500)는 복수의 사용자 정보를 저장하고 각각의 사용자 정보는 사용자 ID와 인증수단(예를 들어, 패스워드 등)을 포함하고 사용자가 사용하는 언어정보(예를 들어, 한국어, 영어, 일본어 또는 중국어 등)와 사용자의 업종정보를 포함한다. 업종정보는 사용자의 종사 업종(분야)을 나타낼 수 있고 예를 들어, 영업업종(자동차 영업업종), 부동산업종, 보험업종, 법무업종 또는 그 외 다른 업종을 나타낸다. 업종정보는 사용자에 의한 입력으로 셋팅될 수 있다.

사용자 정보는 음성인식서비스 가입 여부 정보를 더 저장한다. 음성처리 서버(300)는 음성인식서비스 가입 여부 정보에 따라 녹취파일에 대한 음성인식으로 전체 텍스트 정보와 요약 텍스트를 생성하도록 음성인식 서버(800)로 음성인식 요청을 전송할 수 있다.

통화기록 저장 DB(600)는 사용자에 의해 이루어진 통화기록에 대한 정보를 저장한다. 사용자 ID에 맵핑되는 각각의 통화기록정보는 통화녹음파일을 특정할 수 있는 녹취파일 URL을 포함하고 음성인식 처리된 전체 텍스트 정보와 요약 텍스트를 포함(저장)한다. 각각의 통화기록정보는 통화기록 ID에 매칭되어 통화기록 저장 DB(600)에 저장된다.

음성인식 서버(800)는 녹취파일에 대한 음성인식 처리로 녹취파일의 전체 텍스트 정보와 요약 텍스트를 생성한다. 녹취파일에 대한 음성인식 처리를 위해 음성인식 서버(800)는 통화기록 저장 DB(600)에서 통화기록정보를 조회하고 녹취파일을 다운로드하고 녹취파일을 전체 텍스트 정보로 변환하고 녹취파일로부터 요약 텍스트를 생성한다.

도 1의 음성 데이터 처리 시스템은 다수개의 음성인식 서버(800)를 포함하고 각각의 음성인식 서버(800)는 업종별 음성인식 엔진(810)들을 구비한다. 예를 들어, 음성인식 서버(800)는 영업업종(자동차 영업업종) 음성인식 엔진(810), 부동산업종 음성인식 엔진(810), 보험업종 음성인식 엔진(810), 법무업종 음성인식 엔진(810) 등을 구비하여 음성인식 요청의 사용자의 업종정보에 대응하는 음성인식 엔진(810)에서 녹취파일에 대한 음성인식 처리를 수행한다. 음성인식 서버(800)에서 이루어지는 주요 제어 흐름은 도 3 등을 통해 좀 더 살펴보도록 한다.

여기서, 음성처리 서버(300), 녹취파일저장 스토리지(400), 사용자 정보 DB(500), 통화기록 저장 DB(600), 음성인식요청 큐(700) 및 음성인식 서버(800)는 다양한 하드웨어 구성을 가질 수 있다.

예를 들어, 음성처리 서버(300), 녹취파일저장 스토리지(400), 사용자 정보 DB(500), 통화기록 저장 DB(600), 음성인식요청 큐(700) 및 음성인식 서버(800)는 단일 메인 프레임 내에 구성되거나 로컬 네트워크에 연결되어 서로 연동되는 복수의 메인 프레임(또는 장치) 내에 구성될 수 있다. 또는, 음성처리 서버(300), 녹취파일저장 스토리지(400), 사용자 정보 DB(500), 통화기록 저장 DB(600), 음성인식요청 큐(700) 및 음성인식 서버(800)는 인터넷에 연결되어 각종 데이터를 송수신할 수 있다. 도 1에서는 녹취파일저장 스토리지(400), 사용자 정보 DB(500), 통화기록 저장 DB(600) 및 음성인식요청 큐(700)가 음성처리 서버(300)와 별도 구성되는 예를 도시하고 있으나 녹취파일저장 스토리지(400), 사용자 정보 DB(500), 통화기록 저장 DB(600) 및 음성인식요청 큐(700) 중 하나 이상이 음성처리 서버(300) 내에 내장될 수도 있다.

이와 같이 음성 데이터 처리 시스템은 다양한 하드웨어 구성으로 구현될 수 있다.

도 2는 업종별 음성인식 엔진 기반의 음성 데이터 처리를 위한 시스템의 다른 예를 도시한 도면이다.

이미, 도 1을 통해 음성 데이터 처리 시스템의 주요 구성에 대해서 살펴보았으므로 여기서는 도 1과 차이가 나는 내용을 위주로 간단히 살펴보도록 한다.

도 2에 따르면, 음성 데이터 처리 시스템은 휴대형 단말(100), 거치형 단말(200), 통신사 서버(900), 음성처리 서버(300), 녹취파일저장 스토리지(400), 사용자 정보 DB(500), 통화기록 저장 DB(600) 및 복수의 음성인식 서버(800)를 포함하여 구성된다.

도 1과 달리, 도 2의 음성 데이터 처리 시스템은 음성인식요청 큐(700)를 생략하여 구성되고 복수의 음성인식 서버(800)는 인터넷을 통해 음성처리 서버(300)에 연결된다.

음성인식 서버(800) 각각은 통화기록정보를 조회하고 녹취파일을 다운로드받을 수 있고 특정 업종의 녹취파일에 대해 전체 텍스트 정보로 변환하고 요약 텍스트를 생성할 수 있다.

각각의 음성인식 서버(800)는 음성 데이터 처리 시스템의 사용자가 구매하거나 이용 가능한 서버로서 해당 사용자의 업종정보에 따라 녹취파일을 텍스트로 변환하고 요약 텍스트를 생성할 수 있다. 도 2의 예에서, 사용자는 자신의 업종정보에 따른 음성인식 서버(800) 또는 음성인식 엔진(810)을 구매하고 자신의 오피스, 건물 또는 데이터센터에 설치하여 음성처리 서비스를 받을 수 있다.

도 2의 음성 데이터 처리 시스템의 음성처리 서버(300)는 사용자 ID에 대응하는 음성인식 서버(800)(사용자 정보에 저장되는 음성인식 서버(800)의 ID)로 녹취파일을 전송하여 사용자 ID에 대응하는 음성인식 서버(800)로 하여금 음성처리를 수행하도록 할 수 있다.

도 3은 업종별 음성인식 엔진 기반의 음성 데이터 처리를 위한 주요 제어 흐름을 도시한 도면이다. 도 3의 제어 흐름은 음성 데이터 처리 시스템에 의해서 수행된다.

먼저, 사용자는 다른 사용자와의 통화를 녹취하고 통화 녹취를 저장(1 내지 7 참조)한다. 사용자의 휴대형 단말(100)은 내부 앱 프로그램을 통해 다른 휴대형 단말(100)과의 통화를 녹취(1 참조)하고 녹취된 파일을 업로드(2 참조)한다.

녹취파일을 수신한 음성처리 서버(300)는 녹취파일을 녹취파일저장 스토리지(400)에 저장(3 참조)하고 녹취파일저장 스토리지(400)에서 녹취파일의 위치를 특정할 수 있는 녹취파일 URL을 휴대형 단말(100)로 전송(4 참조)한다. 음성처리 서버(300)는 휴대형 단말(100)로부터 통화기록 저장 요청(5 참조)에 따라 통화기록 ID를 생성하고 통화기록 ID에 매칭되는 통화기록정보를 생성 및 저장(6, 7 참조)한다.

음성처리 서버(300)는 사용자 ID, 녹취파일의 URL, 수신번호, 발신번호, 통화시간 등을 포함하고 생성되는 통화기록 ID에 매칭되는 통화기록정보를 저장한다. 이와 같이, 음성처리 서버(300)는 녹취파일의 URL 및 사용자 ID를 통화기록 ID에 매칭시켜 통화기록정보로 저장한다.

음성처리 서버(300)는 통화기록정보의 생성 및 저장과 함께, 통화기록정보의 사용자 정보에 설정된 것 또는 요청에 따라 음성인식 요청을 음성인식 서버(800)로 전송(8, 9, 10 참조)한다.

음성처리 서버(300)는 통화기록정보의 사용자 ID로 사용자 정보를 조회(8 참조)하고 사용자 정보의 음성인식서비스 가입 여부에 따른 음성인식 서비스 가입 설정에 따라 사용자 ID, 사용자의 업종정보, 통화기록 ID 및 나아가 언어정보 등을 더 포함하는 음성인식 요청을 구성하고 음성인식 서버(800)로 전송한다.

예를 들어(도 1의 시스템 참조), 음성처리 서버(300)는 구성된 음성인식 요청을 음성인식요청 큐(700)에 인큐(9 참조)하고 다른 잡(예를 들어, 다른 통화기록정보의 저장 등)을 처리한다. 음성처리 서버(300)의 스케줄러는 복수 업종의 음성인식처리를 각각 처리하는 복수의 음성인식 서버(800) 중에서 스케줄링에 따라 음성인식 처리가 가능한 하나의 음성인식 서버(800)로 음성인식요청 큐(700)의 음성인식 요청을 전송(10 참조)한다.

다른 예로서(도 2의 시스템 참조), 음성처리 서버(300)는 구성된 음성인식 요청을 사용자 ID에 대응하는 음성인식 서버(800)로 전송한다. 음성처리 서버(300)는 사용자 ID에 대응하는 사용자 정보에서 음성인식 서버(800)의 ID를 검색하고 검색된 ID에 대응하는 음성인식 서버(800)로 음성인식 요청을 전송한다. 음성인식 서버(800)는 적어도 사용자 ID의 업종정보에 대응하는 음성인식 엔진(810)을 구비하고 있다.

음성인식 요청의 업종정보에 대응하여 음성인식 요청의 녹취파일을 음성인식 처리를 수행 가능한 음성인식 서버(800)는 음성인식 요청의 녹취파일을 수신하고 수신된 녹취파일에 대한 음성인식 처리로 전체 텍스트 정보와 요약 텍스트를 생성(11 내지 17 참조)한다.

구체적으로, 음성인식 서버(800)는 녹취파일 URL 획득을 위해 음성처리 서버(300)로 통화기록을 조회(11 참조)한다. 음성인식 서버(800)는 수신된 통화기록 ID와 나아가 사용자 ID를 포함하는 통화기록조회 요청을 음성처리 서버(300)로 전송하고 음성처리 서버(300)는 통화기록 저장 DB(600)에서 통화기록 ID와 나아가 사용자 ID를 가지는 통화기록정보를 검색(12 참조)하고 검색된 통화기록정보의 녹취파일 URL을 포함하는 통화기록을 음성인식 서버(800)로 전송(13 참조)한다.

음성인식 서버(800)는 녹취파일 URL을 이용하여 녹취파일을 다운로드(14 참조)한다. 음성인식 서버(800)는 음성처리 서버(300)를 경유해서 또는 직접 녹취파일저장 스토리지(400)에서 녹취파일 URL에 대응하는 녹취파일을 다운로드할 수 있다.

음성인식 요청의 업종정보에 대응하여 선택되거나 사용자의 업종정보에 따라 구성되는 음성인식 서버(800)(15 참조)는 업종정보에 대응하여 학습된 음성인식 엔진(810)을 이용한 음성인식 처리로 녹취파일로부터 전체 텍스트 정보를 생성하고 생성된 전체 텍스트 정보에 대한 처리로 요약 텍스트를 생성(16, 17 참조)한다.

전체 텍스트 정보는 타임 스탬프와 텍스트 데이터를 복수 개 포함한다. 도 4는 전체 텍스트 정보의 일 예를 도시하고 있는 데, 도 4의 예와 같이 전체 텍스트 정보는 타임 스탬프(도 4의 ⓐ 참조)와 타임 스탬에 대응하는 텍스트 데이터(도 4의 ⓑ 참조)를 포함한다. 전체 텍스트 정보의 텍스트 데이터들은 업종정보에 특화되어 녹취파일에 대한 학습된 음성인식 엔진(810)을 이용한 음성인식으로 인식되는 텍스트이다. 전체 텍스트 정보의 일련의 텍스트 데이터들은 녹취파일의 전체(full) 텍스트를 구성한다.

음성인식 서버(800)의 음성인식 엔진(810)은 전체 텍스트 정보의 전체 텍스트 데이터로부터 업종정보에 대응하는 요약 텍스트를 생성한다. 이를 위하여 음성인식 엔진(810)은 업종별로 전체 텍스트 및 이에 대응한 요약 텍스트의 학습 데이터 세트로서 사전에 학습되어 있다. 또는 음성인식 서버(800)의 음성인식 엔진(810)은 전체 텍스트 정보의 전체 텍스트 데이터로부터 업종정보에 대응하는 중요 키워드(예를 들어, 부동산업종의 경우 매매, 전세, 월세, 보증금, 금액)를 검색하고 중요 키워드의 검색 여부, 중요 키워드의 검색 횟수 등에 따라 요약 텍스트를 전체 텍스트 데이터로부터 생성할 수도 있다. 각각의 업종정보에 대응하는 중요 키워드는 업종의 유형에 따라 서로 달리 정해진다.

텍스트 데이터는 통화 당사자가 말한 문장이나 구를 문자로 나타내고 타임 스탬프는 녹취 파일에서 해당 텍스트의 시작 시각을 나타낸다.

여기서, 녹취파일의 수신에 따라 전체 텍스트 정보와 요약 텍스트를 생성(11 내지 17 참조)하기 이전에, 음성인식 서버(800)는 지정된 업종에 대응하는 음성인식 엔진(810)을 학습시킨다. 음성인식 서버(800)는 인공지능(AI) 기술을 적용한 음성인식 엔진(810)의 지정된 업종정보를 가지는 사용자의 녹취파일을 이용하여 해당 음성인식 엔진(810)을 학습시킬 수 있다.

음성인식 서버(800)는 각각의 업종정보에 특화되어 음성인식을 수행하고 그에 따라 전체 텍스트 정보와 요약 텍스트를 생성하는 음성인식 엔진(810)에 업종정보에 관련되는 학습 데이터를 제공하여 음성인식 엔진(810)을 학습시킬 수 있다.

음성인식 서버(800)는 정보 이용을 허가한 사용자 중 동일한 업종정보를 가지는 사용자의 녹취파일(녹취파일저장 스토리지(400))과 대응하는 전체 텍스트 데이터(통화기록정보의 전체 텍스트 데이터)(의 교정 데이터)들을 학습 데이터 세트로 입력하여 음성인식 엔진(810)의 음성변환 모델(음성에서 텍스트로 변환 모델)을 지속적으로 학습시킨다. 또한, 음성인식 서버(800)는 전체 텍스트와 이에 대응하는 요약 텍스트의 학습 데이터로 하여 음성인식 엔지(810)을 학습시킨다.

또한, 음성인식 서버(800)는 지정된 업종에 대응하는 복수의 키워드를 이용하여 지정된 업종의 음성인식 엔진(810)의 언어모델을 학습시킨다. 업종별로 서로 다른 키워드가 널리 이용되고 각 업종별로 동일하거나 유사한 음가신호 특성(예를 들어, 일련의 음가의(자모의) 주파수 특성)을 가지는 경우에 대해서도 해당 업종의 정확한 키워드로 인식될 수 있다. 서로 다른 키워드로 언어모델이 학습되는 업종별 음성인식 엔진(810)은 동일하거나 유사한 음가신호로부터 각 업종별로 학습된 키워드들을 (우선적으로) 인식 가능하다.

음성인식 서버(800)는 업종별로 설정되는 복수의 키워드를 텍스트로 입력하여 해당 업종의 음성인식 엔진(810)의 언어모델을 학습시킬 수 있다. 음성인식 서버(800)는 정보 이용을 허가한 사용자 중 동일한 업종정보를 가지는 사용자의 녹취파일에 대응하는 전체 텍스트 데이터들에서 단어를 추출하고 추출되는 단어들 중 음성인식 엔진(810)에 제공할 키워드를 결정할 수 있다. 예를 들어, 음성인식 서버(800)는 단어의 사용 빈도 등에 따라 키워드를 선택하고 음성인식 서버(800)의 관리자 등에 의한 가이드에 따라 음성인식 엔진(810)으로 입력할 키워드들을 결정할 수 있다.

녹취파일의 수신에 따라 전체 텍스트 정보와 요약 텍스트를 생성(11 내지 17 참조)한 이후에, 음성처리 서버(300)는 사용자의 통화기록정보를 업데이트(18, 19 참조)한다.

음성처리 서버(300)는 음성인식 서버(800)로부터 전용 업종정보에 대응하는 음성인식 엔진(810)에 따라 구성되는 전체 텍스트 정보와 요약 텍스트를 수신(18 참조)한다. 전체 텍스트 정보와 요약 텍스트 정보는 통화기록 ID와 나아가 사용자 ID에 매칭되어 수신될 수 있다. 음성처리 서버(300)는 통화기록 ID와 나아가 사용자 ID에 대응하는 통화기록정보를 통화기록 저장 DB(600)에서 검색하고 검색된 통화기록정보에 수신된 전체 텍스트 정보와 요약 텍스트 정보를 추가 저장하여 통화기록 저장 DB(600)의 통화기록정보를 업데이트(19 참조)한다.

통화기록정보의 업데이트 이후에, 음성처리 서버(300)는 휴대형 단말(100)과 연동하여 통화기록정보를 출력한다.

도 5의 예는 휴대형 단말(100)에 표시되는 디스플레이의 일 예를 나타내는 데, 앱 프로그램을 수행하는 휴대형 단말(100)은 사용자 로그인을 통해 음성처리 서버(300)에 접속하고 음성처리 서버(300)에서 제공하는 통화 검색 서비스에 따라 특정 휴대형 단말(100)과의 통화 내역을 나타내는 데이터(하나 이상의 통화기록정보)를 수신하고 이를 출력(도 5의 (a) 참조)할 수 있다.

도 5의 (a)의 통화 내역을 특정할 수 있도록 출력되는 통화기록정보들 각각은 통화 타입(수신 또는 송신, 도 5의 ⓐ 참조)과 통화 시간, 요약 텍스트(도 5의 ⓑ 참조) 및 전체 텍스트 선택 아이콘(도 5의 ⓒ 참조)을 포함하여 휴대형 단말(100)의 디스플레이에 이미지로 출력된다.

휴대형 단말(100)의 사용자는 통화기록정보에 대응하는 통화 내역 아이템을 상하로 스크롤링할 수 있고 특정 통화 내역 아이템의 전체 텍스트 선택입력을 휴대형 단말(100)의 입력 인터페이스(예를 들어, 터치 스크린, 버튼 등)를 통해 제공한다.

음성처리 서버(300) 또는 휴대형 단말(100)의 앱 프로그램은 전체 텍스트 선택 입력에 따라 통화기록정보에 대응하는 전체 텍스트 정보의 복수의 텍스트 데이터와 대응하는 타임 스탬프 시각을 휴대형 단말(100)의 디스플레이로 출력(도 5의 (b) 참조)한다.

도 5의 (b)의 예와 같이, 휴대형 단말(100)은 특정 통화기록정보에 대응하는 전체 텍스트 정보의 설정된 업종정보에 따라 음성 인식된 복수의 텍스트 데이터(도 5의 ⓔ 참조)와 대응하는 시각(도 5의 ⓓ 참조)을 매칭시켜 디스플레이로 출력한다.

또한, 출력된 복수의 텍스트 데이터 중 하나의 텍스트 데이터의 선택 입력의 수신에 따라 음성처리 서버(300) 또는 휴대형 단말(100)의 앱 프로그램은 선택된 텍스트 데이터에 대응하는 녹취 데이터를 휴대형 단말(100)을 통해 음성신호로 출력한다.

예를 들어, 음성처리 서버(300)는 인터넷을 통해 수신되는 특정 텍스트 데이터의 선택 요청에 따라 통화기록정보의 녹취파일에서 특정 텍스트 데이터에 대응하는 시각(타임스탬프)에서부터 오디오 데이터를 재생하여 휴대형 단말(100)로 출력할 수 있다.

또는, 휴대형 단말(100)의 앱 프로그램은 특정 텍스트 데이터의 선택에 따라 통화기록정보와 함께 수신되는 녹취파일에서 특정 텍스트 데이터에 대응하는 시각에서부터 오디오 데이터를 재생하여 오디오 신호로 출력할 수 있다.

이상과 같은 제어 흐름을 통해, 휴대형 단말(100)에 의해 녹음된 녹음 데이터를 휴대형 단말(100) 사용자의 업종에 따라 특화된 음성인식 엔진(810)을 이용하여 업종에 특화된 텍스트로 변환하고 변환된 텍스트와 통화 시각의 매칭에 따라 통화녹취의 주요 사항을 확인하고 인식된 텍스트를 이용하여 통화 내역을 용이하게 브라우징할 수 있다.

이상에서 설명한 본 발명은, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시 예 및 첨부된 도면에 의해 한정되는 것이 아니다.

100 : 휴대형 단말
200 : 거치형 단말
300 : 음성처리 서버
400 : 녹취파일저장 스토리지
500 : 사용자 정보 DB
600 : 통화기록 저장 DB
700 : 음성인식요청 큐
800 : 음성인식 서버
810 : 음성인식 엔진
900 : 통신사 서버

Claims

음성처리 서버가 녹취파일의 URL 및 사용자 ID를 통화기록 ID에 매칭시켜 저장하는 단계;
상기 음성처리 서버가 상기 사용자 ID의 업종정보 및 상기 통화기록 ID를 포함하는 음성인식 요청을 상기 음성인식 서버로 전송하는 단계; 및
상기 음성인식 서버가 상기 통화기록 ID에 대응하는 녹취파일을 수신하고, 상기 업종정보에 대응하는 음성인식 엔진을 이용하여 상기 수신된 녹취파일에 대한 음성인식 처리로 전체 텍스트 정보와 요약 텍스트를 생성하는 단계;를 포함하는,
음성 데이터 처리 방법.
제1항에 있어서
상기 음성처리 서버가 상기 음성인식 서버로부터 전체 텍스트 정보와 요약 텍스트를 수신하고 상기 통화기록 ID에 매칭되어 저장된 통화기록정보를 수신된 전체 텍스트 정보와 요약 텍스트를 이용하여 업데이트하는 단계;를 더 포함하는,
음성 데이터 처리 방법.
제1항에 있어서,
상기 음성인식 요청을 상기 업종정보에 대응하는 음성인식 서버로 전송하는 단계는 음성인식요청 큐에 음성인식 요청을 인큐하고 복수의 업종의 음성인식처리를 각각 수행하는 복수의 음성인식 서버 중 스케줄링에 따라 음성인식 처리가 가능한 하나의 음성인식 서버로 음성인식요청 큐의 음성인식 요청을 전송하는,
음성 데이터 처리 방법.
제1항에 있어서,
상기 음성인식 요청을 상기 음성인식 서버로 전송하는 단계는 상기 사용자 ID의 업종정보에 대응하는 음성인식 엔진을 구비하고 상기 음성인식 요청의 사용자 ID에 대응하는 음성인식 서버로 전송하는,
음성 데이터 처리 방법.
제1항에 있어서,
상기 녹취파일의 URL 및 사용자 ID를 통화기록 ID에 매칭시켜 저장하는 단계 이전에,
상기 음성인식 서버가 지정된 업종에 대응하고 인공지능 기술을 적용한 음성인식 엔진을 상기 지정된 업종의 업종정보를 가지는 사용자의 녹취파일을 이용하여 학습시키는 단계;를 더 포함하는,
음성 데이터 처리 방법.
제5항에 있어서,
상기 음성인식 엔진을 사용자의 녹취파일을 이용하여 학습시키는 단계는 상기 사용자의 녹취파일과 대응하는 전체 텍스트 데이터를 이용하여 음성인식 엔진의 음성변환 모델을 학습시키고 상기 지정된 업종에 대응하는 복수의 키워드를 이용하여 음성인식 엔진의 언어모델을 학습시키는,
음성 데이터 처리 방법.
제6항에 있어서,
상기 복수의 키워드 각각은 상기 사용자의 녹취파일에서 추출되는 단어인,
음성 데이터 처리 방법.
제1항에 있어서,
상기 전체 텍스트 정보는 타임 스탬프와 대응하는 텍스트 데이터를 복수 개 포함하고,
상기 음성처리 서버는 휴대형 단말로부터 수신되는 전체 텍스트 선택입력에 따라 복수의 텍스트 데이터를 상기 휴대형 단말로 출력하고 상기 휴대형 단말로부터 수신되는 텍스트 데이터 선택 입력에 따라 선택된 텍스트 데이터에 대응하는 녹취 데이터를 상기 휴대형 단말로 출력하는,
음성 데이터 처리 방법.
녹취파일의 URL 및 사용자 ID를 통화기록 ID에 매칭시켜 저장하고 상기 사용자 ID의 업종정보 및 상기 통화기록 ID를 포함하는 음성인식 요청을 상기 업종정보에 대응하는 음성인식 서버로 전송하는 음성처리 서버; 및
상기 통화기록 ID에 대응하는 녹취파일을 수신하고, 업종정보에 따라 상기 수신된 녹취파일에 대한 음성인식 처리로 전체 텍스트 정보와 요약 텍스트를 생성하는 복수의 음성인식 서버;를 포함하는,
음성 데이터 처리 시스템.
제9항에 있어서,
상기 음성처리 서버는 상기 음성인식 서버로부터 전체 텍스트 정보와 요약 텍스트를 수신하고 상기 통화기록 ID에 매칭되어 저장된 통화기록정보를 수신된 전체 텍스트 정보와 요약 텍스트를 이용하여 업데이트하는,
음성 데이터 처리 시스템.
제9항에 있어서,
상기 음성처리 서버는 음성인식요청 큐에 음성인식 요청을 인큐하고 복수의 업종의 음성인식처리를 각각 수행하는 상기 복수의 음성인식 서버 중 스케줄링에 따라 음성인식 처리가 가능한 하나의 음성인식 서버로 음성인식요청 큐의 음성인식 요청을 전송하는,
음성 데이터 처리 시스템.
제9항에 있어서,
상기 음성인식 서버는 사용자의 녹취파일과 대응하는 전체 텍스트 데이터를 이용하여 지정된 업종에 대응하고 인공지능 기술을 적용한 내부 음성인식 엔진의 음성변환 모델을 학습시키고 상기 지정된 업종에 대응하는 복수의 키워드를 이용하여 상기 음성인식 엔진의 언어모델을 학습시키는,
음성 데이터 처리 시스템.
제9항에 있어서,
상기 전체 텍스트 정보는 타임 스탬프와 대응하는 텍스트 데이터를 복수 개 포함하고,
상기 음성처리 서버는 휴대형 단말로부터 수신되는 전체 텍스트 선택입력에 따라 복수의 텍스트 데이터를 상기 휴대형 단말로 출력하고 상기 휴대형 단말로부터 수신되는 텍스트 데이터 선택 입력에 따라 선택된 텍스트 데이터에 대응하는 녹취 데이터를 상기 휴대형 단말로 출력하는,
음성 데이터 처리 시스템.