KR101952730B1

KR101952730B1 - 교신 내용을 보팅으로 선별하여 음성인식하는 무선 교신 시스템

Info

Publication number: KR101952730B1
Application number: KR1020180070842A
Authority: KR
Inventors: 박성호
Original assignee: (주)넥타르소프트
Priority date: 2018-06-20
Filing date: 2018-06-20
Publication date: 2019-05-22

Abstract

교신 내용을 보팅으로 선별하여 음성인식하는 무선 교신 시스템을 개시한다.
무선 교신 시스템은 무선 네트워크(Radio Network)상의 객체들에 의해 생성된 무선 신호(radio signals)로부터 음성 데이터를 추출하고, 추출된 음성 데이터로부터 교신 내용이 기록된 녹취록(Transcripts) 파일을 자동으로 생성한다. 개시된 무선 교신 시스템은 음성 데이터와 녹취록 파일을 통합적으로 관리할 수 있는 솔루션을 제공한다.

Description

교신 내용을 보팅으로 선별하여 음성인식하는 무선 교신 시스템{Radio Communication Systems capable of Voice Recognition with Voting Technology for Communication Contents}

본 발명은 무선 교신 시스템에 관한 것이다.

이 부분에 기술된 내용은 단순히 본 실시예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.

종래의 무선 교신 시스템에서는, 무전기에 연결된 RoIP 장치를 통해 음성 신호를 추출해내고, 추출된 음성 신호를 디지털 패킷으로 변환하여 인더넷 혹은 다른 패킷 교환 네트워크(packet switched network)을 통해 서버로 전송한다. 그리고 서버로 전송된 패킷은, 관리자가 재생할 수 있도록, 음성 파일 형식으로 데이터베이스에 시간순서로 저장된다. 관리자는 원하는 시간대의 음성 파일을 재생함으로 교신 내용을 확인할 수 있다.

이러한 종래의 무선 교신 시스템은 음성 데이터의 활용이 제한적이라는 한계를 가진다. 음성 데이터의 특성상, 데이터베이스로부터 특정 단어를 기초로 음성 데이터를 검색하거나, 정렬하거나, 특정 단어의 빈도를 살펴보는 등의 활용이 불가능하다. 이런 제약을 극복하기 위해서 녹취자가 직접 녹음된 음성 데이터를 청취하면서 문자화하는 작업이 수반될 수 있다. 그런데 무선 통신은 그 교신 특성상 잡음이 많이 있어 실제 교신 되는 음성 크기에 비해 실질적으로 의미 있는 단어의 수가 작고, 무선망에서는 약어와 암구호를 많이 사용하기 때문에, 수작업에 의한 녹취록 작성 방식은 작업 속도가 현저히 낮고 녹취자의 피로도를 증가시킨다.

본 발명은 이러한 종래 기술이 가지는 문제점을 해결하기 위하여 제안된 것으로, 음성 데이터의 녹취록(Transcripts) 파일을 자동으로 생성하여 음성 데이터와 녹취록 파일을 통합적으로 관리할 수 있는 솔루션을 제시하는 데 그 목적이 있다.

본 실시예의 일 측면에 의하면, 무선 교신 시스템은 무선 네트워크(Radio Network)상의 복수의 기지국 무전기, 이들 기지국 무전기에 연결된 복수의 무전기 제어 장치, 및 IP 네트워크상의 관리 서버를 포함한다. 각 무전기 제어 장치는 연결된 기지국 무전기로부터 음성 데이터를 수신하고, 수신된 음성 데이터를 포함하는 데이터 패킷 스트림을 관리 서버에 전송한다. 관리 서버는 각 무전기 제어 장치로부터 수신되는 상기 데이터 패킷 스트림으로부터 음성 데이터를 추출한다. 상기 무선 교신 시스템은, 녹취 서버, STT 서버, 및 데이터베이스 서버를 더 포함한다. 녹취 서버는 상기 관리 서버로부터 수신되는 음성 데이터를 기초로, 각 무전기 제어 장치별로, 오디오 포맷의 음성 파일을 생성한다. STT 서버는 상기 관리 서버로부터 수신되는 음성 데이터로부터 텍스트 포맷의 녹취록 파일을 생성한다. 데이터베이스 서버는 상기 음성 파일과 상기 녹취록 파일을 매핑하여 저장한다.

상기 무선 교신 시스템의 실시예들은 다음의 특징들을 하나 이상 더 포함할 수 있다.

일부 실시예에서, 상기 관리 서버는, 각 무전기 제어 장치로부터 획득한 복수의 음성 데이터 중에서 교신 시작 시각과 끝 시각이 유사한 음성 데이터들을 선별하고, 선별된 음성 데이터들 중에서, 하나 이상의 신호 특성에 기초하여, 상기 녹취록 파일 생성에 적합한 하나의 음성 데이터를 선택할 수 있다.

일부 실시예에서, 상기 관리 서버는, 각 무전기 제어 장치로부터 획득한 복수의 음성 데이터를 모두 상기 녹취 서버에 전송하되, 상기 녹취록 파일 생성에 적합한 것으로 선택된 하나의 음성 데이터를 상기 STT 서버에 전송할 수 있다.

일부 실시예에서, 상기 무선 교신 시스템은 관리자 콘솔을 더 포함한다. 관리자 콘솔은, 상기 복수의 무전기 제어 장치 중에서 관리자에 의해 선택된 무전기 제어 장치와 관련된 음성 데이터를 상기 관리 서버로부터 수신하고, 수신된 음성 데이터를 출력할 수 있다. 일부 실시예에서, 상기 관리자 콘솔은, 상기 관리자가 재청취할 수 있도록, 상기 관리 서버로부터 수신되는 음성 데이터를 오디오 포맷의 음성 파일로 변환하여 내부적으로 저장할 수 있다.

일부 실시예에서, 상기 데이터베이스 서버는, 관리자로부터 입력된 단어 또는 어구를 포함하는 녹취록 파일들을 검색하고, 검색된 녹취록 파일에 대응되는 음성 파일을 검색 결과로서 출력하는 검색 기능을 제공할 수 있다.

일부 실시예에서, 상기 STT 서버는, 상기 음원파일에서 음성 구간과 비음성 구간을 구분하여 음성 구간을 추출하고, 음성 인식 프로그램을 실행하여, 음성 구간으로부터 텍스트를 추출할 수 있다.

일부 실시예에서, 상기 녹취록 파일은, 변환된 텍스트의 단어마다 또는 문장마다 대응되는 음성 파일의 타임스탬프가 부여되어 있을 수 있다.

본 발명의 다른 측면에 의하면, 무선 교신 시스템에 의해 수행되는 방법으로서, 무선 네트워크(Radio Network)상의 각 무전기 제어 장치들이, 관련된 기지국 무전기들로부터 음성 데이터를 수신하고, 수신된 음성 데이터를 포함하는 데이터 패킷 스트림을 IP 네트워크 상의 관리 서버에 전송하는 단계; 상기 관리 서버가, 각 무전기 제어 장치로부터 수신되는 데이터 패킷 스트림으로부터 각각 음성 데이터를 추출하는 단계; 상기 IP 네트워크 상의 녹취 서버가, 상기 관리 서버로부터 수신되는 음성 데이터를 기초로, 각 무전기 제어 장치별로, 오디오 포맷의 음성 파일을 생성하는 단계; 상기 IP 네트워크 상의 STT 서버가, 상기 관리 서버로부터 수신되는 음성 데이터로부터 텍스트 포맷의 녹취록 파일을 생성하는 단계; 및 상기 IP 네트워크 상의 데이터베이스 서버가, 상기 녹취 서버(23)가 상기 음성 파일과 상기 녹취록 파일을 매핑하여 저장하는 단계를 포함하는 방법을 제공한다.

일부 실시예에서, 상기 방법은, 상기 관리 서버가, 각 무전기 제어 장치로부터 획득한 복수의 음성 데이터 중에서 교신 시작 시각과 끝 시각이 유사한 음성 데이터들을 선별하고, 선별된 음성 데이터들 중에서, 하나 이상의 신호 특성에 기초하여, 상기 녹취록 파일 생성에 적합한 하나의 음성 데이터를 선택하는 단계를 더 포함할 수 있다.

일부 실시예에서, 상기 방법은, 상기 관리 서버가, 각 무전기 제어 장치로부터 획득한 복수의 음성 데이터를 모두 상기 녹취 서버에 전송하되, 상기 녹취록 파일 생성에 적합한 것으로 선택된 하나의 음성 데이터를 상기 STT 서버에 전송하는 단계를 더 포함할 수 있다.

도 1은 본 발명의 일 실시예에 따른 무선 교신 시스템을 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 무선 교신 시스템이 오디오 포맷의 음성 파일과 텍스트 포맷의 녹취록 파일을 생성 방법을 도시한 흐름도이다.
도 3은 본 발명의 일 실시예에 따른, STT 서버의 기능적인 구성을 도시한 블록도이다.

이하, 본 발명의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

또한, 본 발명의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 명세서 전체에서, 어떤 부분이 어떤 구성요소를 '포함', '구비'한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 '…부,' '모듈' 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

도 1은 본 발명의 일 실시예에 따른 무선 교신 시스템을 도시한 도면이다.

도 1에 예시된 바와 같이, 무선 교신 시스템(100)은, 모바일 사용자 무전기(10), 중계기(11), 기지국 무전기(12) 및 무전기 제어 장치(13)를 포함한다. 모바일 사용자 무전기(10), 중계기(11), 기지국 무전기(12) 및 무전기 제어 장치(13)는 무선 네트워크(Radio network)를 형성한다. 무선 교신 시스템(100)은, 관리 서버(21), 관리자 콘솔(22), 녹취(recording) 서버(23), STT(Speech-to-Text) 서버(24), 및 데이터베이스 서버(25)를 더 포함할 수 있다.

설명의 목적으로, 도 1에 하나의 사용자 무전기(10)와, 하나의 중계기(11)와, 3개의 기지국 무전기(12)과, 3개의 무전기 제어 장치(13)과, 하나의 관리자 콘솔(22)을 나타내었으나, 무선 교신 시스템(100)은 임의의 수의 사용자 무전기와, 임의의 수의 중계기와, 임의의 수의 기지국 무전기와, 임의의 수의 무전기 제어 장치와, 임의의 수의 관리자 콘솔을 포함할 수 있다. 예컨대, 복수의 무전기가 중계기(11)의 커버리지 내에 위치할 수 있으며, 일부 기지국 무전기는 도시된 중계기(11)와는 상이한 다른 중계기와 무선신호(radio signals)를 송수신할 수 있다. 즉, 도 1에 예시된 각 엔티티(entity)의 수는 예시적인 것에 불과하다.

도 1에 도시된 서버들(21, 23, 24, 25)은 범용 컴퓨터 시스템과 서버용 운영체제 및 서버용 소프트웨어로 구성될 수 있다. 종래 주지의 서버 가상화 기술에 의해, 이들 서버들 중 적어도 일부는 하나의 컴퓨터 시스템에 각각의 가상적인 컴퓨터 시스템으로 구현될 수도 있다.

사용자 무전기(10)는 각 권역에 배치되는 복수의 사용자 무전기의 일 예이다. 사용자 무전기(10)는 사용자에게 소지되는 휴대용(handheld) 타입 혹은 차량에 탑재되는 모바일(mobile) 타입일 수 있다. 사용자 무전기(10)에서 발생한 무선신호는, 중계기(11)의 커버리지 내에 위치한 하나 이상의 기지국 무전기(12) 및 다른 휴대용 무전기에 의해 수신될 수 있다. 또한, 각 권역에 배치된 기지국 무전기(12)에서 발생한 무선신호는 중계기(11)의 커버리지 내에 위치한 사용자 무전기(10) 및 다른 휴대용 무전기에 의해 수신될 수 있다. 각 기지국 무전기(12)는 서로 다른 권역에 배치되어 있을 수 있으며, 각 권역에서는 동일한 무선 채널(radio channel)이 사용될 수도 있으며, 서로 다른 무선 채널을 사용할 수도 있다. 사용자 무전기(10) 및 기지국 무전기(12)는 아날로그 무전기 혹은 디지털 무전기일 수 있다.

무전기 제어 장치(13)는, 예컨대 인터페이스 케이블을 통해, 기지국 무전기(12)와 연결된다. 무전기 제어 장치(13)는 공통 무선 인터페이스(Common Air Interface; CAI)로도 지칭될 수 있다. 도 1에는 3개의 무전기 제어 장치(13)가 예시되어 있다. 각 무전기 제어 장치(13)는 대응되는 기지국 무전기(12)의 무선 신호(Radio signals)의 송수신과 그 송수신을 위한 무선 채널을 제어하며, 기지국 무전기(12)로부터 음성 데이터와 무전기의 상태 데이터를 수신한다. 무전기 제어 장치(13)는 음성 데이터를, 예컨대 8bit PCM 포맷의, 오디오 데이터 스트림으로 변환한다. 무전기 제어 장치(13)는 변환된 오디오 데이터 스트림을, RoIP(Radio over Internet Protocol) 포맷으로, IP 네트워크(Internet Protocol Network)상의 관리 서버(21)에 전송한다.

관리 서버(21)는 TCP 세션을 통해 복수의 무전기 제어 장치(13)와 연결된다. 관리 서버(21)는, UDP 패킷을 통해, 무전기 제어 장치(13)에 제어 데이터를 전송하며, 무전기 제어 장치(13)와 음성 데이터를 주고받는다. 또한, 관리 서버(21)는 관리자 콘솔(22), 무전기 제어 장치(13) 등을 포함한 전체 무선 교신 시스템(100)의 관리를 수행한다. 예컨대, 관리 서버(21)는 관리 서버(21)에 등록된 모든 장비(예컨대, 무전기 제어 장치(13))의 식별자(ID), 설정값 등을 관리하며, 현재 RoIP 시스템에 접속된 관리자 콘솔(22)들의 ID와 권한을 관리한다. 관리 서버(21)는 RoIP 게이트웨이(RoIP; Radio over IP Gateway)로도 지칭될 수 있다.

이하에 서술되는 바와 같이, 관리 서버(21)는 무전기 제어 장치(13)로부터 수신되는 음성 데이터를 관련된 관리자 콘솔(22)로 전달한다. 또한, 관리 서버(21)는 관리자 콘솔(22)로부터 수신되는 음성 데이터를 관련된 무전기 제어 장치(13)에 전달한다. 나아가, 관리 서버(21)는 복수의 무전기 제어 장치(13)로부터 수신되는 음성 데이터와 관리자 콘솔(22)로부터 수신되는 음성 데이터를 녹취 서버(23) 및 STT 서버(24)에 전송한다.

관리자 콘솔(22)은, 예컨대, 상황실(혹은 통제실)에 설치되는 단말이다. 관리자는, 관리자 콘솔(22)이 제공하는 GUI에서 원하는 권역의 무전기 제어 장치(13)를 선택하여, 해당 권역에 위치한 사용자 무전기(10)와 무선 교신을 수행할 수 있다. 관리자 콘솔(22)은, 관리 서버(21)를 통해, 관련된 무전기 제어 장치(13)로부터 음성 데이터를 수신할 수 있으며, 기지국 무전기(12)를 통해 전파될 음성 데이터를 관련된 무전기 제어 장치(13)에 송신할 수 있다. 따라서, 관리 서버(21)는 관리자 콘솔(22)이 원하는 무전기 제어 장치(13)와 통신하기 위한 브리지 역할을 한다. 관리자 콘솔(22)은, 관리 서버(21)로부터 수신되는 음성 데이터를 출력하고, 추후 관리자가 재청취할 수 있도록, 음성 데이터를 소정의 오디오 포맷의 음성 파일로 내부적으로 저장할 수 있다.

녹취 서버(Recording Server; 23)는 관리 서버(21)로부터 수신되는 음성 데이터로부터 녹취 파일(즉, 음성 파일)을 생성한다. 즉, 녹취 서버(23)는, 관리 서버(21)로부터 수신되는 음성 데이터가 포함된 데이터 패킷 스트림으로부터, 사용자 무전기(10)들 간 혹은 사용자 무전기(10)와 관리자 콘솔(22) 사이에 주고받는 음성 데이터를 추출하여, 추출된 음성 데이터로부터 오디오 포맷의 음성 파일을 생성한다. 녹취 서버(23)는 각 무전기 제어 장치(13)에 대해, 별개의 음성 파일을 생성할 수 있으며, 각 무전기 제어 장치(13)마다, 예컨대 하루 단위로, 음성 파일을 생성할 수 있다.

녹취 서버(23)는 자체적으로 혹은 데이터베이스 서버(25)에 음성 파일을 저장하여 관리할 수 있으며, 음성 파일을 저장하지 않고 STT 서버(24)로 음성 파일을 송신만 할 수도 있다. 녹취 서버(23)는 음성 파일을, 예컨대 G723.1 코덱을 이용하여, 8-bit PCM 포맷으로 저장할 수 있다. 또한, 녹취 서버(23)는 저장된 음원을 wav 파일 포맷으로 변환하여, 변환된 음성 파일을 STT 서버(24)에 전송할 수도 있다.

STT 서버(24)는 관리 서버(21)로부터 수신되는 음성 파일로부터 TEXT 포맷의 녹취록(transcript) 파일을 생성한다. STT 서버(24)는 데이터베이스 서버(25)에 저장된 음성 파일 혹은 녹취 서버(23)로부터 수신되는 음성 파일로부터 TEXT 포맷의 녹취록 파일을 생성할 수도 있다. STT 서버(24)는 생성된 녹취록 파일을 데이터베이스 서버(25)에 전달한다. STT 서버(24)는 녹취록 파일과 함께 관련된 음성 파일을 데이터베이스 서버(25)에 전달할 수도 있다.

STT 서버(24)는 획득한 음성 파일에서 음성 구간과 비음성 구간을 구분하여 음성 구간을 추출하고, 음성 인식 프로그램(혹은 Speech To Text 소프트웨어)을 실행하여, 음성 구간으로부터 텍스트를 추출할 수 있다. 텍스트 파일에는 기설정된 단위별로 타임스탬프가 부여될 수 있다. 예를 들어, 변환된 텍스트의 단어마다 혹은 문장마다 대응되는 음성 파일의 타임스탬프가 부여될 수 있다. STT 서버(24)의 텍스트 추출 기법은 도 3을 참조하여 후술하기로 한다.

데이터베이스 서버(25)는 음성 파일들과 그와 관련된 TEXT 파일들을 매핑하여 관리한다. 데이터베이스 서버(25)는, 사용자로 하여금, 음성 파일이 발생한 출처나 시간뿐만 아니라 TEXT 파일로부터 확인되는 교신 내용을 참조하여, DB에 저장된 음성 파일을 검색, 정렬하는 등의 새로운 분석 작업 방식을 제공할 수 있다. 예컨대, 데이터베이스 서버(25)는, 관리자 콘솔(22) 혹은 사용자 단말(미도시)로부터 입력된 단어 또는 어구를 포함하는 녹취록 파일들을 데이터베이스로부터 검색하고, 검색된 녹취록 파일에 대응되는 음성 파일을 검색결과로서 출력하는 검색 기능을 제공할 수 있다. 또한, 데이터베이스 서버(25)는, 사용자가 TEXT 파일 상의 특정 단어 혹은 문장을 선택하면 선택된 단어 혹은 문장의 타임스탬프에 대응되는 음성 데이터의 세그먼트의 구간을 곧바로 제공할 수 있다.

본 발명에 따르면, 녹취 데이터에 대한 새로운 관리/분석 방식의 기초를 제공할 수 있다. 즉, 본 발명은, 기존의 교신의 출처와 시간을 기반으로 한 데이터베이스의 활용뿐만 아니라 실제 교신 내용을 기반으로 한 데이터베이스의 활용 가능성을 제공한다. 예컨대, 데이터베이스에 저장된 음성 파일을 검색함에 있어서, 음성 파일의 출처, 교신 시각뿐만 아니라 교신 내용을 참조하여, 데이터베이스에서 음성 파일을 검색하거나 음성 파일들을 정렬하는 등의 작업이 가능해 진다. 나아가, 본 발명은, 예컨대, 교신 내용이 수록된 TEXT 파일들에 대해 문맥 인식 기술 등을 활용한 응용 서비스(예컨대, 재난 대응/예방 서비스 등)의 전개에 기초가 될 것이다.

한편, 도 1의 복수의 기지국 무전기(12)가 동일한 채널을 사용하는 경우에, 사용자 무전기(10)에서 발생한 음성 신호는 중계기(11)를 거쳐 복수의 기지국 무전기(12)에 수신될 수 있다. 각 무전기 제어 장치(13)는 각 기지국 무전기(12)가 수신한 음성 데이터를 관리 서버(21)에 전달할 것이다. 따라서, 사용자 무전기(10)에서 발생한 음성 신호에 기인한 복수의 음성 데이터가 관리 서버(21)에 수신될 수 있다. 다시 말해, 관리 서버(21)에는 중복된 음성 데이터가 수신될 수 있다. 관리 서버(21)는, 녹취록 파일을 생성하는 STT 서버(24)에, 무선 교신과 관련된 음성 데이터를 전송함을 상기하라.

본 발명의 일 실시예에 따르면, 관리 서버(21)는 하나의 사용자 무전기(10)로부터 발생한 음성 신호가 복수의 기지국 무전기(12)에 수신됨에 따라 생성된 복수의 음성 데이터로부터, 녹취록 파일 생성에 가장 유용하거나 선호되는 음성 데이터를 선택하기 위해 보팅 기법(voting scheme)을 채용한다.

관리 서버(21)는 복수의 무전기 제어 장치(13)로부터 수신되는 복수의 음성 데이터 중에서 교신 시작 시각과 끝 시각이 유사한 음성 스트림들을 선별하고, 선별된 음성 스트림들에 대해 하나 이상의 신호 특성에 기초하여 보팅 프로세스를 수행한다. 예컨대, SNR(speech-to-noise ratio), 수신신호세기(received signal strength) 등이 보팅 지표(voting metric)로 사용될 수 있다. 보팅 프로세스에 의해 우선 순위가 높은 1개의 음성 파일이 선정된다. 관리 서버(21)는 선정된 음성 데이터를 STT 서버(24)에 전송한다.

도 2는 본 발명의 일 실시예에 따른 무선 교신 시스템이 오디오 포맷의 음성 파일과 텍스트 포맷의 녹취록 파일을 생성 방법을 도시한 흐름도이다. 설명의 편의를 위해, 도 1의 무선 교신 시스템(100)의 엔티티들을 참조하여 도 2에 예시된 방법을 기술한다.

무선 교신 시스템(100)의 무선 네트워크(Radio Network)에 포함된 복수의 무전기 제어 장치들(13) 각각은 관련된 기지국 무전기(12)로부터 수신되는 무선 신호(radio signal)로부터 음성 데이터를 추출하고, 추출된 음성 데이터를 포함하는 데이터 패킷 스트림을 생성하여, IP 네트워크 상의 관리 서버(21)에 전송한다(S210).

관리 서버(21)는 각 무전기 제어 장치(13)로부터 수신되는 데이터 패킷 스트림으로부터 각각 음성 데이터를 추출한다(S220). 관리 서버(13)는 복수의 음성 데이터 중에서 교신 시작 시각과 끝 시각이 유사한 음성 데이터들을 선별하고, 선별된 음성 데이터들 중에서, 하나 이상의 신호 특성에 기초하여, 녹취록(transcript) 파일 생성에 적합한 하나의 음성 데이터를 선택한다(S230).

관리 서버(13)는, 녹취 서버(23)에는 각 무전기 제어 장치(13)로부터 획득한 복수의 음성 데이터를 모두 전송하되, STT 서버(24)에는 녹취록 파일 생성에 적합한 것으로 선택된 하나의 음성 데이터를 STT 서버(24)에 전송한다(S240).

녹취 서버(23)는 관리 서버(13)로부터 수신되는 음성 데이터를 기초로, 각 무전기 제어 장치(13) 별로, 오디오 포맷의 음성 파일을 생성한다(S250). STT 서버(24)는 관리 서버(13)로부터 수신되는 음성 데이터로부터 텍스트 포맷의 녹취록 파일을 생성한다(S260). 음성 파일과 녹취록 파일은 데이터베이스 서버(25)에 전달되고, 데이터베이스 서버(25)는 음성 파일과 녹취록 파일을 매핑하여 저장 및 관리한다(S270).

도 3은 본 발명의 일 실시예에 따른, STT 서버의 기능적인 구성을 도시한 블록도이다. 도 3에 도시된 바와 같이, STT 서버(24)는 전처리부(310), 특징벡터 생성부(320), 및 검색 엔진(330)을 포함할 수 있다.

전처리부(310)는, 음성 인식의 정확도를 높이기 위해, 음성 파일을 푸리에 변환(Fourier Transform)한 후, 주파수 스펙트럼에서 음성 인식에 도움이 되지 않고 오히려 장해가 되는 주파수 대역을 제거할 수 있다. 예를 들어, 전처리부(310)는 주파수 스펙트럼에서 사람이 발성 가능한 주파수 대역(50Hz ~ 4000Hz)이외의 주파수 성분을 제거할 수 있다.

특징벡터 생성부(320)는 필터링된 주파수 스펙트럼에서 음성의 특징점들을 추출하여 특징벡터를 생성할 수 있다. 예컨데 한글의 경우에 자음의 분류에 있어 파열음, 마찰음, 파찰음 등으로 형태소를 구분하는데, 특징벡터는 이러한 음들이 가지는 특징을 수치화(벡터화)한 것을 가리킨다.

검색 엔진(330)은 단어 모델을 참조하여 특징벡터와 유사할 확률이 가장 높은 단어열을 찾고, 언어 모델을 통해 보정된 단어열을 생성한다. 단어 모델은 음향에 대한 문자 정보를 색인화한 자료이고, 언어 모델은 문법에 대한 문자 정보를 색인화한 자료이다. 이러한 모델들은 음성인식하기 전에 미리 생성된 것이며, 모델을 생성하는 작업은 훈련 또는 학습이라 지칭된다. 예컨대, "국밥을 먹었습니다" 라는 음향이 입력되는 경우, 검색 엔진(330)은 단어 모델을 참조하여 실제로 들리는 음향인 "국빱을 머것습니다" 라는 텍스트를 추출한다. 또한, 추출된 "국빱을 머것습니다" 라는 문장에 대해, 검색 엔진(330)은 언어 모델을 참조하여 문법에 알맞은 단어와 문장으로 보정한다. 즉, 최종적으로, "국밥을 먹었습니다" 라는 텍스트가 출력된다.

이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

무선 교신 시스템에 있어서,
복수의 기지국 무전기;
복수의 무전기 제어 장치, 각 무전기 제어 장치는 연결된 기지국 무전기로부터 음성 데이터를 수신하고, 수신된 음성 데이터를 포함하는 데이터 패킷 스트림을 생성함;
각 무전기 제어 장치로부터 수신되는 상기 데이터 패킷 스트림으로부터 음성 데이터를 추출하는 IP 네트워크상의 관리 서버;
상기 관리 서버로부터 수신되는 음성 데이터를 기초로, 각 무전기 제어 장치별로, 오디오 포맷의 음성 파일을 생성하는, 녹취 서버(Recording Server);
상기 관리 서버로부터 수신되는 음성 데이터로부터 텍스트 포맷의 녹취록 파일을 생성하는 STT 서버(Speech-to-Text Server); 및
상기 음성 파일과 상기 녹취록 파일을 매핑하여 저장하는 데이터베이스 서버
를 포함하고,
상기 관리 서버는,
각 무전기 제어 장치로부터 획득한 복수의 음성 데이터 중에서 교신 시작 시각과 끝 시각이 유사한 음성 데이터들을 선별하고, 선별된 음성 데이터들 중에서, 하나 이상의 신호 특성에 기초하여, 상기 녹취록 파일 생성에 사용할 하나의 음성 데이터를 선택하는 것을 특징으로 하는 무선 교신 시스템.
삭제
제1항에 있어서,
상기 관리 서버는,
각 무전기 제어 장치로부터 획득한 복수의 음성 데이터를 모두 상기 녹취 서버에 전송하되, 상기 녹취록 파일 생성을 위해 선택된 하나의 음성 데이터를 상기 STT 서버에 전송하는 것을 특징으로 하는, 무선 교신 시스템.
제1항에 있어서,
상기 복수의 무전기 제어 장치 중에서 관리자에 의해 선택된 무전기 제어 장치와 관련된 음성 데이터를 상기 관리 서버로부터 수신하고, 수신된 음성 데이터를 출력하는 관리자 콘솔을 더 포함하는 것을 특징으로 하는, 무선 교신 시스템.
제4항에 있어서,
상기 관리자 콘솔은,
상기 관리자가 재청취할 수 있도록, 상기 관리 서버로부터 수신되는 음성 데이터를 오디오 포맷의 음성 파일로 변환하여 내부적으로 저장하는 것을 특징으로 하는, 무선 교신 시스템.
제1항에 있어서,
상기 데이터베이스 서버는,
관리자로부터 입력된 단어 또는 어구를 포함하는 녹취록 파일들을 검색하고, 검색된 녹취록 파일에 대응되는 음성 파일을 검색 결과로서 출력하는 검색 기능을 제공하는 것을 특징으로 하는, 무선 교신 시스템.
제1항에 있어서,
상기 STT 서버는,
상기 음성 데이터에서 음성 구간과 비음성 구간을 구분하여 음성 구간을 추출하고, 음성 인식 프로그램을 실행하여, 음성 구간으로부터 텍스트를 추출하는 것을 특징으로 하는, 무선 교신 시스템.
제1항에 있어서,
상기 녹취록 파일은,
변환된 텍스트의 단어마다 또는 문장마다 대응되는 음성 파일의 타임스탬프가 부여된 것을 특징으로 하는, 무선 교신 시스템.
무선 교신 시스템에 의해 수행되는 방법으로서,
무선 네트워크(Radio Network)상의 각 무전기 제어 장치들이, 관련된 기지국 무전기들로부터 음성 데이터를 수신하고, 수신된 음성 데이터를 포함하는 데이터 패킷 스트림을 IP 네트워크 상의 관리 서버에 전송하는 단계;
상기 관리 서버가, 각 무전기 제어 장치로부터 수신되는 데이터 패킷 스트림으로부터 각각 음성 데이터를 추출하는 단계;
상기 IP 네트워크 상의 녹취 서버가, 상기 관리 서버로부터 수신되는 음성 데이터를 기초로, 각 무전기 제어 장치별로, 오디오 포맷의 음성 파일을 생성하는 단계;
상기 관리 서버가, 각 무전기 제어 장치로부터 획득한 복수의 음성 데이터 중에서 교신 시작 시각과 끝 시각이 유사한 음성 데이터들을 선별하고, 선별된 음성 데이터들 중에서, 하나 이상의 신호 특성에 기초하여, 녹취록 파일 생성에 사용할 하나의 음성 데이터를 선택하는 단계;
상기 IP 네트워크 상의 STT 서버가, 상기 관리 서버로부터 수신되는 음성 데이터로부터 텍스트 포맷의 녹취록 파일을 생성하는 단계; 및
상기 IP 네트워크 상의 데이터베이스 서버가, 상기 음성 파일과 상기 녹취록 파일을 매핑하여 저장하는 단계
를 포함하는 방법.
삭제
제9항에 있어서,
상기 관리 서버가, 각 무전기 제어 장치로부터 획득한 복수의 음성 데이터를 모두 상기 녹취 서버에 전송하되, 상기 녹취록 파일 생성을 위해 선택된 하나의 음성 데이터를 상기 STT 서버에 전송하는 단계를 더 포함하는 것을 특징으로 하는, 방법.