KR101907406B1

KR101907406B1 - 통신 서비스 운용 방법 및 시스템

Info

Publication number: KR101907406B1
Application number: KR1020120048494A
Authority: KR
Inventors: 강상기; 고정완; 공기춘; 김경태; 이상훈
Original assignee: 삼성전자 주식회사
Priority date: 2012-05-08
Filing date: 2012-05-08
Publication date: 2018-10-12
Also published as: EP2663064A3; US20130304457A1; US9344878B2; EP2663064B1; EP2663064A2; KR20130125057A; CN104285428A; CN104285428B; WO2013168970A1

Abstract

본 발명은 음성 인식 기반의 텍스트 제공 및 텍스트를 음성 데이터로 전환하여 제공하는 서비스 지원에 관한 것으로, 송신측 단말기가 수신측 단말기에 특정 종류의 통신 서비스 연결을 요청하는 과정, 상기 수신측 단말기가 상기 송신측 단말기와 음성 인식 기반의 텍스트를 제공하는 STT(speech to Text) 서비스 및 텍스트를 음성 데이터로 전환하는 TTS(Text to speech) 서비스 중 적어도 하나의 운용을 협상하는 과정을 포함하고, 상기 협상에 따라 상기 송신측 단말기와 연결되는 제1 음성 처리 지원 장치를 기반으로 상기 송신측 단말기가 전달한 음성 데이터를 음성 인식하여 텍스트로 전환하고 이를 상기 송신측 단말기에 제공한 후 상기 송신측 단말기가 상기 음성 인식된 텍스트를 상기 수신측 단말기에 전송하는 과정 또는 상기 협상에 따라 상기 수신측 단말기와 연결되는 제2 음성 처리 지원 장치를 기반으로 상기 수신측 단말기로부터 상기 송신측 단말기가 전송한 음성 데이터를 수신 및 음성 인식하여 텍스트로 전환하고 이를 상기 수신측 단말기에 제공하는 과정 중 어느 하나의 과정을 포함하는 것을 특징으로 하는 통신 서비스 운용 방법 및 이를 지원하는 시스템의 구성을 개시한다.

Description

통신 서비스 운용 방법 및 시스템{Operation Method And System For communication Service}

본 발명은 단말기의 통신 서비스 운용에 관한 것으로, 특히 음성 인식 기반의 텍스트 제공 서비스인 STT(speech to Text) 서비스 및 텍스트 기반의 음성 제공 서비스인 TTS(Text to speech) 중 적어도 하나를 사용자 상황에 따라 운용함으로써 정보 전달을 보다 적응적으로 수행할 있도록 지원하는 통신 서비스 운용 방법 및 시스템에 관한 것이다.

휴대 단말기는 특정 사용자 기능을 지원하면서도 그 크기가 휴대할 수 있을 정도로 작아 많은 산업 및 생활 분야에서 각광받고 있다. 그리고 최근 들어 다양한 사용자 기능을 통합적으로 지원하는 휴대 단말기가 등장하고 있다. 이러한 휴대 단말기는 사용자 기능을 지원하면서 해당 사용자 기능에 대응하는 화면을 표시부를 통하여 제공하고 있다. 이에 따라 사용자는 특정 사용자 기능을 이용하면서 해당 기능 운용에 따른 화면을 통하여 컨텐츠 소비를 수행하고 있다.

한편 휴대 단말기는 타 단말기와 음성 통화, 문자 통화, 영상 통화 등을 수행할 수 있도록 지원한다. 이를 위하여 휴대 단말기는 타 단말기의 전화번호 입력 후 음성 통화, 문자 통화, 영상 통화 중 어느 하나를 선택하고, 선택한 통신 서비스를 타 단말기 사용자가 수락하면 해당 선택된 통신 서비스를 이용할 수 있다. 이때 타 단말기 사용자가 선택된 통신 서비스에 대한 연결 수락을 하지 않는 경우 해당 통신 서비스는 운용될 수 없다. 이러한 상황은 단말기 사용자들이 현재의 상황에 따라 다양하게 발생할 수 있다. 예를 들어 사용자가 회의실에 있거나, 화장실에 있거나, 도서관 등에 있는 등 통화에 있어서 특정 제약이 있는 장소나 환경에 있을 경우 휴대 단말기 사용자가 요구하는 통신 서비스를 운용할 수 없게 된다. 그러나 휴대 단말기 사용자의 입장에서는 타 단말기 사용자의 상황을 알 수 없기 때문에 계속적으로 통화 연결을 시도하게 되고, 이러한 상황은 타 단말기 사용자의 상황에 따라 매우 곤란한 문제를 일으키기도 한다. 또한 통화 연결이 되었다 하더라도, 단말기 사용자들의 상황에 따라 정상적인 통화 수행을 할 수 없는 일이 자주 발생한다.

따라서 본 발명의 목적은 전술된 바와 같은 종래 기술의 문제점을 해결하기 위한 것으로, 설정에 따라 또는 사용자 조작에 따라 STT 서비스 및 TTS 서비스 중 적어도 하나가 적응적으로 운용될 수 있도록 지원하는 통신 서비스 운용 방법 및 시스템을 제공함에 있다.

상기 목적을 달성하기 위한 본 발명은 통신 서비스 연결 요청을 송신하는 과정, 기 설정되었거나 통신 서비스 연결 요청 시 사용자가 결정한 입/출력 모드에 따라 입/출력 모드가 셋팅 되는 과정, 상기 연결 요청에 대한 수락과 상대방 입/출력 모드에 관한 정보를 수신하는 과정, 사용자 입력 데이터를 수신하는 과정, 사용자 입력 데이터의 종류와 상기 상대방 입/출력 모드에 따라 상기 사용자 입력 데이터를 변환하거나 상기 사용자 입력 데이터를 변환하기 위한 음성 처리 지원 장치로 데이터를 송신하고 변환된 데이터를 수신하여 전송하는 과정, 상대방으로부터 데이터를 수신하는 과정, 수신 데이터의 종류와 상기 사용자가 결정한 입/출력 모드에 따라 상기 수신 데이터를 변환하거나 상기 수신 데이터를 변환하기 위한 음성 처리 지원 장치로 상기 데이터를 송신하고 변환된 데이터를 수신하여 표시하는 과정을 포함하는 것을 특징으로 하는 통신 서비스 운용 방법의 구성을 개시한다.

본 발명은 또한, 통신 서비스 연결을 요청하고, 상대방의 입/출력 모드에 대한 정보를 수신하고, 연결된 후 수신한 상대방의 입/출력 모드에 따라 사용자 입력 데이터와 상대방으로부터 수신한 데이터를 변환하거나 상기 사용자 입력 데이터를 변환하기 위한 음성 처리 지원 장치로 상기 데이터를 송신하여 변환된 데이터를 수신하고, 상기 수신한 데이터에 대응되는 변환 데이터를 출력하고 상기 사용자 입력 데이터에 대응되는 변환 데이터를 전송하는 송신측 단말기, 상기 요청에 의해 통신 서비스 연결 수락 요청을 수신하고, 기 설정되었거나 상기 통신 서비스 연결 수락 요청 수락 시 사용자가 결정한 입/출력 모드를 이용하여 통신 서비스를 시작하고, 상기 입/출력 모드에 관한 정보를 송신측에 전송하고, 송신측에서 전송한 상기 변환 데이터를 표시하고, 사용자 입력 데이터를 전송하는 수신측 단말기, 입력된 음성 데이터를 텍스트 데이터로 제공하는 STT(speech to Text) 서비스 및 텍스트를 음성 데이터로 변환하여 출력하는 TTS(Text to speech) 서비스 중 적어도 하나를 제공하는 음성 처리 지원 장치를 포함하는 것을 특징으로 하는 통신 서비스 운용 시스템의 구성을 개시한다.

본 발명은 또한, 통신 서비스 연결 요청을 수신하는 수신 과정, 상기 연결 요청을 수락하여 통신 경로를 형성하는 과정, 기 설정되었거나 수락 시 사용자가 결정한 입/출력 모드에 따라 입/출력 모드가 셋팅 되는 과정, 상대방으로부터 데이터를 수신하는 과정, 수신 데이터의 종류와 상기 입/출력 모드에 따라 상기 수신 데이터를 변환하거나 변환하기 위해 음성 처리 지원 장치로 상기 데이터를 송신하고 변환된 데이터를 수신하여 표시하는 과정, 사용자 입력 데이터를 수신하는 과정, 상기 수신 데이터의 종류와 상기 입/출력 모드에 따라 상기 사용자 입력 데이터를 변환하거나 변환하기 위해 음성 처리 지원 장치로 상기 데이터를 송신하고 변환된 데이터를 수신하여 상대방에게 전송하는 전송 과정을 포함하는 것을 특징으로 하는 통신 서비스 운용 방법의 구성을 개시한다.

본 발명은 또한, 통신 서비스 연결을 요청하고 연결된 후 수신 데이터 또는 사용자 입력 데이터를 기 설정되었거나 사용자가 결정한 입/출력 모드에 따라 변환할 수 있는 송신측 단말기, 상기 요청에 의해 통신 서비스 연결 수락 요청을 수신하고, 기 설정되었거나 상기 통신 서비스 연결 수락 요청 수락 시 사용자가 결정한 입/출력 모드를 이용하여 통신 서비스를 시작하고, 수신 데이터의 종류와 상기 입/출력 모드에 따라 수신 데이터와 사용자 입력 데이터를 변환하거나 상기 사용자 입력 데이터를 변환하기 위한 음성 처리 지원 장치로 상기 데이터를 송신하여 변환된 데이터를 수신하고, 상기 수신 데이터에 대응되는 변환 데이터를 표시하고 상기 사용자 입력 데이터에 대응되는 변환 데이터를 전송하는 수신측 단말기, 입력된 음성 데이터를 텍스트 데이터로 변환하거나 입력된 텍스트 데이터를 음성 데이터로 변환하여 출력하는 음성 처리 지원 장치를 포함하는 것을 특징으로 하는 통신 서비스 운용 시스템의 구성을 개시한다.

이상에서 살펴본 바와 같이 본 발명의 통신 서비스 운용 방법 및 시스템에 따르면, 본 발명은 사용자의 통신 서비스 운용 환경에 따라 적절한 내용 전달 기능을 제공할 수 있도록 함으로써, 상황이나 환경에 취약한 통신 환경을 개선시켜 보다 양호한 정보 전달 능력을 제공할 수 있다.

도 1은 본 발명의 실시 예에 따른 통신 서비스 운용 시스템의 구성을 개략적으로 나타낸 도면.
도 2는 도 1의 송신측 단말기 구성 및 수신측 단말기 구성을 보다 상세히 나타낸 도면.
도 3은 본 발명의 제1 실시 예에 따른 송신측 단말기의 제1 제어부 구성을 보다 상세히 나타낸 도면.
도 4는 본 발명의 제1 실시 예에 따른 제1 제어부 구성 중 제1 STT 매니저 구성을 보다 상세히 나타낸 도면.
도 5는 본 발명의 제1 실시 예에 따른 제1 제어부 구성 중 미디어 동기화부 구성을 보다 상세히 나타낸 도면.
도 6은 본 발명의 제1 실시 예에 따른 영상 데이터와 텍스트 통합 과정을 설명하기 위한 순서도.
도 7은 본 발명의 제1 실시 예에 따른 재1 제어부 구성 중 제1 TTS/STT 결정부의 구성을 보다 상세히 나타낸 도면.
도 8은 본 발명의 제1 실시 예에 따른 수신측 단말기의 제2 제어부 구성을 보다 상세히 나타낸 도면.
도 9는 본 발명의 제1 실시 예에 따른 송신측 단말기의 화면 인터페이스의 일예를 나타낸 도면.
도 10은 본 발명의 제1 실시 예에 따른 송신측 단말기의 화면 인터페이스의 다른 예를 나타낸 도면.
도 11은 본 발명의 제1 실시 예에 따른 송신측 단말기의 화면 인터페이스의 또 다른 예를 나타낸 도면.
도 12는 본 발명의 제1 실시 예에 따른 수신측 단말기의 화면 인터페이스의 일예를 나타낸 도면.
도 9는 본 발명의 제1 실시 예에 따른 송신측 단말기의 화면 인터페이스의 일예를 나타낸 도면.
도 14는 본 발명의 제2 실시 예에 따른 송신측 단말기의 제1 제어부 구성 및 수신측 단말기의 제2 제어부 구성을 보다 상세히 나타낸 도면.
도 15는 본 발명의 제2 실시 예에 따른 통신 서비스 운용 방법을 설명하기 위한 신호 흐름도.
도 16은 본 발명의 제2 실시 예에 따른 수신측 단말기의 화면 인터페이스의 일예를 나타낸 도면.
도 17은 본 발명의 제3 실시 예에 따른 송신측 단말기의 제1 제어부 구성 및 수신측 단말기의 제2 제어부 구성을 보다 상세히 나타낸 도면.
도 18은 본 발명의 제3 실시 예에 따른 통신 서비스 운용 방법을 설명하기 위한 신호 흐름도.
도 19는 본 발명의 제3 실시 예에 따른 수신측 단말기의 서비스 운용 방법을 설명하기 위한 순서도.
도 20은 본 발명의 본 발명의 실시 예에 따른 STT 서비스 및 TTS 서비스 동시 운용에 따른 송신측 단말기 및 수신측 단말기의 화면 인터페이스의 일예를 나타낸 도면.

이하, 본 발명의 실시 예를 첨부된 도면에 의거하여 상세히 설명한다.

실시 예를 설명함에 있어서 본 발명이 속하는 기술분야에 익히 알려져 있고 본 발명과 직접적으로 관련이 없는 기술 내용에 대해서는 설명을 생략한다. 또한, 실질적으로 동일한 구성과 기능을 가진 구성 요소들에 대해서는 상세한 설명을 생략하도록 한다.

마찬가지의 이유로 첨부 도면에 있어서 일부 구성요소는 과장되거나 생략되거나 또는 개략적으로 도시되었으며, 각 구성요소의 크기는 실제 크기를 전적으로 반영하는 것이 아니다. 따라서 본 발명은 첨부한 도면에 그려진 상대적인 크기나 간격에 의해 제한되어지지 않는다.

도 1은 본 발명의 실시 예에 따른 통신 서비스 운용 시스템의 구성을 개략적으로 나타낸 도면이다.

도 1을 참조하면, 본 발명의 통신 서비스 운용 시스템(10)은 송신측 단말기(100), 통신 시스템(300), 수신측 단말기(200), 제1 음성 처리 지원 장치(400) 및 제2 음성 처리 지원 장치(500)를 포함할 수 있다.

이와 같은 구성을 포함하는 본 발명의 통신 서비스 운용 시스템(10)은 송신측 단말기(100)와 수신측 단말기(200) 간에 통신 서비스가 운용되는 동안 사용자들의 선택에 따라 또는 단말기 주변 환경이나 무선 환경에 따라 제1 음성 처리 지원 장치(400) 및 제2 음성 처리 지원 장치(500) 중 적어도 하나를 운용하여 송수신되는 데이터의 부가적 정보를 생성하고, 이를 전송함으로써 사용자 환경이나 상황에 맞는 통신 서비스가 운용될 수 있도록 지원한다. 여기서 부가적 정보는 수집된 사용자의 음성 신호를 음성 인식한 텍스트 및 입력된 텍스트를 음성으로 전환한 음성 데이터 중 적어도 하나가 될 수 있다.

이를 위하여 상기 송신측 단말기(100)는 수신측 단말기(200)와 패킷 스위칭 시스템 기반의 데이터 통신 채널을 형성하고, 이 과정에서 상기 시스템(10)은 송신측 단말기(100) 사용자 요청, 수신측 단말기(200) 사용자의 요청, 각 단말기들의 설정, 각 단말기의 주변 환경이나 네트웍 상태에 의한 제어부 결정 중 적어도 하나에 따라 제1 음성 처리 지원 장치(400) 및 제2 음성 처리 지원 장치 중 적어도 하나를 운용하도록 수행할 수 있다. 예를 들어, 송신측 단말기(100)는 수신측 단말기(200)에 데이터 통신 채널 형성을 요청하는 메시지를 전송한 후 수신측 단말기(200)로부터 음성 신호를 음성 인식하여 생성된 텍스트를 제공하는 STT 서비스 운용을 요청받고 이를 운용할 수 있다. 또는 송신측 단말기(100)는 사용자의 요청에 따라 사용자가 전송하고자 하는 음성을 인식하여 텍스트로 전송하기를 요청받을 수 있으며 그에 따른 STT 서비스 운용을 수행할 수 있다. 또는 송신측 단말기(100)는 사전 설정된 스케줄 정보를 기반으로 제어부의 요청에 따라 STT 서비스 운용을 수행할 수 있다. 이 경우 송신측 단말기(100)는 수집된 음성 데이터를 통신 시스템(300)을 통하여 수신측 단말기(200)에 전송되기 이전에 제1 음성 처리 지원 장치(400)에 음성 인식을 요청하거나 내부적으로 마련된 음성 인식 데이터베이스를 기반으로 음성 인식을 수행하여 텍스트로 전환할 수 있다. 그리고 송신측 단말기(100)는 음성 인식에 따라 생성된 텍스트를 수신측 단말기(200)에 전송하는 과정에서 영상 통화 기반인 경우 전송되는 영상 데이터의 자막으로 제공하거나 또는 별도의 전송 중인 영상 데이터가 없는 경우 사전 정의된 이미지를 이용하여 자막 화면을 생성하고, 이를 수신측 단말기(200)에 제공할 수 있다.

또는 송신측 단말기(100)는 수집된 음성 데이터를 별도의 음성 인식을 수행하지 않고 수신측 단말기(200)에서 처리하도록 요청할 수도 있다. 또는 송신측 단말기(100)는 수집된 음성 신호를 음성 인식하여 텍스트로 변환하고, 변환된 텍스트를 수신측 단말기(200)에 제공하면서도 수집된 음성 신호를 수신측 단말기(200)에 제공하여 추가적으로 음성 인식을 수행하도록 요청할 수도 있다.

상기 수신측 단말기(200)는 통신 시스템(300)을 통하여 송신측 단말기(100)와 통신 채널을 형성한다. 이 과정에서 수신측 단말기(200)는 송신측 단말기(100)와 패킷 스위칭 시스템 기반의 데이터 통신 채널을 형성할 수 있다. 상기 데이터 통신 채널은 영상 통화 서비스 채널, 채팅 서비스 채널, 음성과 영상 및 자막을 동시 지원하는 통화 서비스 채널 등 다양한 통신 서비스 채널 중 적어도 하나를 지원하기 위한 데이터를 송수신할 수 있는 채널이 될 수 있다. 이러한 수신측 단말기(200)는 송신측 단말기(100)로부터 영상 관련 데이터, 음성 관련 데이터, 텍스트 관련 데이터 중 적어도 하나를 수신하고, 이를 스피커 및 표시부 중 적어도 하나를 통하여 출력할 수 있다. 특히 수신측 단말기(200)는 송신측 단말기(100)가 수집한 음성 신호에 해당하는 텍스트를 수신하고 이를 영상과 함께 표시부에 출력하거나 별도 영상 출력이 없는 상태에서는 별도로 생성된 자막 화면을 통하여 출력할 수 있다. 한편 수신측 단말기(200)는 송신측 단말기(100)로부터 음성 데이터를 수신할 수 있으며, 이때 단말기 설정 또는 사용자 요청 등에 따라 해당 음성 데이터를 제2 음성 처리 지원 장치(500)에 전달하여 음성 인식을 수행하도록 제어할 수 있다. 그리고 수신측 단말기(200)는 음성 인식된 텍스트를 표시부에 출력할 수 있다. 여기서 수신측 단말기(200)는 송신측 단말기(100)가 텍스트를 음성 데이터와 함께 전송한 경우, 새로 음성 인식한 텍스트와 수신된 텍스트 중 적어도 하나를 표시부에 출력하도록 지원할 수 있다. 이때 수신측 단말기(200)는 음성 인식한 텍스트와 수신된 텍스트를 각각 구분하여 제공할 수도 있다. 상기 송신측 단말기(100)와 수신측 단말기(200)는 제1 음성 처리 지원 장치(400) 및 제2 음성 처리 지원 장치(500) 중 어느 하나를 이용하는 과정에서 네트웍 평가를 수행한 후 네트웍 상태에 따라 두 장치 중 어느 하나를 선택적으로 운용하도록 협의하거나 수신측 단말기(200) 주도 하에 수행될 수도 있다.

통신 시스템(300)은 송신측 단말기(100)와 수신측 단말기(200) 사이에 배치되어 송신측 단말기(100)와 수신측 단말기(200) 간의 통신 채널을 형성하도록 지원하는 구성이다. 이러한 통신 시스템(300)은 송신측 단말기(100) 및 수신측 단말기(200)들의 기기 특성에 따라 다양한 형태의 통신 네트웍 장치들로 구성될 수 있다. 특히 통신 시스템(300)은 본 발명의 음성 인식 기반의 텍스트 제공 서비스 지원을 위하여 패킷을 송수신할 수 있는 패킷 스위칭 시스템으로 구성될 수 있으며, 필요에 따라 서킷 스위칭 시스템이 혼용되거나 독립적으로 구성될 수도 있다. 또한 통신 시스템(300)은 송신측 단말기(100)와 수신측 단말기(200)들이 이동형 장치로 마련되는 경우 단말기들의 이동성 지원을 위하여 이동 통신 시스템으로 구축될 수 있다. 예를 들어 통신 시스템(300)은 2G, 3G, 4G 등 다양한 세대의 통신 체계 및 통신 방식을 지원하기 위한 네트웍 장치들로 구성될 수 있다. 따라서 본 발명의 통신 시스템(300)은 송신측 단말기(100)가 수집한 오디오, 비디오, 텍스트 중 적어도 하나를 수신측 단말기(200)에 전송할 수 있는 네트웍 장치 및 수신측 단말기(200)가 생성한 오디오, 비디오, 텍스트 중 적어도 하나를 송신측 단말기(100)에 전송할 수 있는 네트웍 장치로 구성될 수 있는 다양한 통신 네트웍 중 적어도 하나로 이해될 수 있을 것이다.

제1 음성 처리 지원 장치(400)는 송신측 단말기(100)의 요청에 따라 송신측 단말기(100)가 제공한 음성 데이터를 음성 인식하고, 음성 인식된 텍스트를 송신측 단말기(100)에 제공하는 구성이다. 이러한 제1 음성 처리 지원 장치(400)는 송신측 단말기(100)와 유무선으로 직접 연결되는 특정 장치나 변환 서버의 형태, 별도로 마련된 무선 접속점을 통하여 송신측 단말기(100)가 접속할 수 있는 변환 서버의 형태, 상기 통신 시스템(300)을 통하여 접속할 수 있는 변환 서버의 형태 중 적어도 하나로 구성될 수 있다. 예를 들어 제1 음성 처리 지원 장치(400)는 송신측 단말기(100)가 유선으로 연결되는 별도의 PC 장치로 구성될 수 있다. 또한 제1 음성 처리 지원 장치(400)는 송신측 단말기(100)가 무선 예를 들면 와이파이나 근거리 무선통신 모듈을 통하여 접속할 수 있는 별도의 서버 장치로 구성될 수 있다. 또한 제1 음성 처리 지원 장치(400)는 이동통신 시스템 및 인터넷 네트웍을 통하여 접속할 수 있는 별도의 서버 형태로 제공될 수도 있다. 이러한 제1 음성 처리 지원 장치(400)는 음성 인식을 전문으로 지원하는 구성으로서, 방대한 음성 인식 데이터베이스를 기반으로 상대적으로 빠른 음성 인식 처리율 및 보다 높은 음성 인식 신뢰도를 제공할 수 있다.

한편 제1 음성 처리 지원 장치(400)는 단말기들 간의 TTS 서비스 지원을 수행할 수 있다. 이를 위하여 제1 음성 처리 지원 장치(400)는 전달된 텍스트를 음성 데이터로 변환하기 위한 데이터베이스를 포함하고, 이를 기반으로 전달된 텍스트에 대한 음성 데이터 전환 및 전달을 송신측 단말기(100)에게 제공할 수 있다. 여기서 본 발명의 통신 서비스 지원 시스템(10)이 TTS 서비스 지원의 경우 송신측 단말기(100)에 사전 저장된 데이터베이스를 이용하도록 설계되는 경우, 제1 음성 처리 지원 장치(400)는 상기 TTS 서비스 지원을 위한 데이터베이스를 포함하지 않을 수도 있다. 또한 TTS 서비스 지원을 위한 음성 처리 지원 장치는 제1 음성 처리 지원 장치(400)와 별개의 서버 장치로 구성될 수도 있다.

제2 음성 처리 지원 장치(500)는 제1 음성 처리 지원 장치(400)와 유사하게 방대한 음성 인식 데이터베이스를 기반으로 상대적으로 빠른 음성 인식 처리율과 보다 높은 음성 인식 신뢰도를 제공할 수 있다. 이러한 제2 음성 처리 지원 장치(500)는 수신측 단말기(200)와 통신 채널을 형성할 수 있는 장치로서, 수신측 단말기(200)와 유무선을 통하여 연결될 수 있는 장치, 별도로 마련된 무선 접속점을 통하여 연결될 수 있는 변환 서버 장치, 별도로 마련된 이동통신 시스템을 통하여 연결될 수 있는 변환 서버 장치, 별도로 마련된 인터넷 네트웍을 통하여 연결될 수 있는 변환 서버 장치, 또는 상술한 각 통신 방식들을 혼용하여 접속될 수 있는 변환 서버 장치 중 적어도 하나로 구성될 수 있다. 제2 음성 처리 지원 장치(500)는 수신측 단말기(200)가 제공하는 음성 데이터를 음성 인식하여 텍스트로 변환하고, 이를 수신측 단말기(200)에 제공할 수 있다. 여기서 수신측 단말기(200)가 제공하는 음성 데이터는 송신측 단말기(100)로부터 수신한 음성 데이터 및 수신측 단말기(200)가 수집한 음성 데이터 중 적어도 하나를 포함할 수 있다.

한편 제2 음성 처리 지원 장치(500) 또한 수신측 단말기(200)의 TTS 서비스 지원을 위하여 전달된 텍스트를 음성 데이터로 변환하도록 지원하는 데이터베이스를 포함할 수 있다. 이러한 제2 음성 처리 지원 장치(500)는 수신측 단말기(200)로부터 TTS 서비스 지원 요청과 함께 텍스트를 수신하면, 해당 텍스트에 대응하는 음성 데이터를 생성하고 이를 수신측 단말기(200)에 제공할 수 있다. 한편 본 발명의 통신 서비스 지원 시스템이 TTS 서비스 지원의 경우 수신측 단말기(200)에 사전 저장된 데이터베이스를 이용하도록 설계되는 경우, 제2 음성 처리 지원 장치(500)는 상기 TTS 서비스 지원을 위한 데이터베이스를 포함하지 않을 수도 있다. 여기서 TTS 서비스 지원을 위한 음성 처리 지원 장치는 제2 음성 처리 지원 장치(500)와 별개의 서버 장치로 구성될 수도 있다.

이상에서 설명한 바와 같이 본 발명의 실시 예에 따른 통신 서비스 운용 시스템(10)은 음성 인식 기능을 이용하여 음성 신호에 대하여 텍스트로 변환하여 제공함으로써, 단말기 사용자들의 상황에 따라 보다 적절한 통신 서비스 환경을 이용할 수 있도록 지원할 수 있다. 이하 상술한 다양한 통신 서비스 운용 시스템(10)의 운용 사례에 대하여 각 도면들을 참조하여 보다 상세히 설명하기로 한다.

도 2는 본 발명의 제1 실시 예에 따른 통신 서비스 운용을 위한 단말기들의 구성 중 송신측 단말기(100)의 구성을 보다 상세히 나타낸 도면이다. 즉 도 2는 송신측 단말기(100)가 제1 음성 처리 지원 장치(400)를 이용하여 음성 신호를 텍스트로 전환하고 이를 수신측 단말기(200)에 전송하는 사례에 대하여 설명하기 위한 도면이다. 여기서 도 2의 사례는 수신측 단말기(200)의 요청이나 수신측 단말기(200)의 노이즈 평가 등에 따라 수행되거나, 송신측 단말기(100)의 스케줄 정보에 따라 수행되거나, 송신측 단말기(100)의 주변 환경이나 네트웍 평가에 따라 제어부 제어 하에 수행될 수 있다. 각각의 경우에 대하여 후술하는 도면들을 참조하여 보다 상세히 설명하기로 한다. 한편 이하 설명에서는 송신측 단말기(100)와 수신측 단말기(200)의 구성을 각기 구분되는 구성들로 도시하고 그에 대하여 설명하지만 본 발명이 이에 한정되는 것은 아니다. 즉 송신측 단말기(100)는 수신측 단말기(200)와 통신 서비스를 이용하는 과정에서 수신측 단말기 역할을 수행할 수 있으며, 또한 수신측 단말기(200)는 송신측 단말기 역할을 수행할 수도 있다. 결과적으로 이하에서 설명하는 송신측 단말기(100) 및 수신측 단말기(200)의 구성은 하나의 통신 단말기에 통합된 형태로 장착될 수 있을 것이다. 이에 따라 이하에서 설명하는 송신측 단말기(100)의 구성은 수신측 단말기(200)가 송신 기능을 수행하는 동안 가질 수 있는 구성으로 이해될 수 있으며, 또한 수신측 단말기(200)의 구성은 송신측 단말기(100)가 수신 기능을 수행하는 동안 가질 수 있는 구성으로 이해될 수 있을 것이다.

상기 도 2를 참조하면, 본 발명의 제1 실시 예에 따른 통신 서비스 운용을 지원하기 위하여 송신측 단말기(100)는 제1 통신부(110), 제1 입력부(120), 제1 마이크(131), 제1 스피커(133), 제1 카메라(170), 제1 저장부(150), 제1 표시부(140) 및 제1 제어부(160)의 구성을 포함할 수 있다.

이와 같은 구성을 가지는 본 발명의 송신측 단말기(100)는 제1 음성 처리 지원 장치(400)를 운용하여 수집된 음성 신호에 대하여 텍스트로 전환한 후 이를 수신측 단말기(200)에 전송하는 STT(speech to Text) 서비스를 지원한다. 이를 위하여 송신측 단말기(100)는 메뉴 선택에 따른 사용자 입력 신호, 사전 설정된 스케줄 정보, 수신측 단말기(200)의 요청 및 주변 환경 변화나 네트웍 평가 중 적어도 하나를 확인하고 그에 따라 제1 마이크(131)가 수집하는 음성 신호를 음성 인식하여 텍스트로 변환하도록 제어할 수 있다. 여기서 송신측 단말기(100)는 주변 환경 변화를 확인하기 위하여 다양한 센서 예를 들면 가속도 센서, 조도 센서, 온도 센서, 자이로 센서, 위치 정보 수집 센서 등을 포함할 수 있다. 추가로 송신측 단말기(100)는 내부적으로 마련된 음성 인식 데이터베이스를 기반으로 음성 데이터를 음성 인식하도록 제어할 수도 있다. 또한 송신측 단말기(100)는 사용자가 입력한 문자 정보를 음성으로 변환한 후 이를 수신측 단말기(200)에 전송하는 TTS(Text to speech) 서비스 지원을 수행할 수 있다. 상기 송신측 단말기(100)는 상술한 STT 서비스 및 TTS 서비스 중 적어도 하나를 채팅 서비스 및 영상 통화 서비스를 이용하는 과정 중에 제공할 수 있다. 여기서 송신측 단말기(100)가 수신측 단말기(200)와 형성하는 채팅 서비스는 텍스트 송수신 기능뿐만 아니라, 음성, 영상, 자막 송수신 기능 중 적어도 하나를 사용자들의 선택이나 사전 스케줄 정보 또는 제어부 제어에 따라 지원하는 서비스가 될 수 있다.

이를 위하여 제1 통신부(110)는 통신 시스템(300)을 통하여 수신측 단말기(200)와 데이터 통신 채널을 형성할 수 있다. 이러한 제1 통신부(110)는 송신측 단말기(100)의 기기 특성에 따라 다양한 형태의 통신 방식을 지원하는 통신 모듈로 구성될 수 있다. 예를 들어, 제1 통신부(110)는 2G, 3G, 4G 등을 지원하는 이동통신 모듈, 와이파이 등을 지원하는 통신 모듈 등 다양한 통신 모듈로 구성될 수 있다. 특히 상기 제1 통신부(110)는 사용자 입력에 따라 수신측 단말기(200)와 본 발명의 실시 예에 따른 음성 인식 기반의 텍스트 송수신을 위한 데이터 통신 채널을 형성할 수 있다. 이때 형성되는 데이터 통신 채널은 음성 인식으로 생성된 텍스트뿐만 아니라, 음성, 영상, 제1 입력부(120)로부터 입력된 문자 중 적어도 하나를 전송할 수 있다. 또한 데이터 통신 채널은 제1 입력부(120)로부터 입력된 문자를 음성으로 변환한 정보를 전송할 수도 있다.

한편 상기 제1 통신부(110)는 수신측 단말기(200)와 채팅 서비스 또는 영상 통화 서비스를 위한 데이터 통신 채널을 기본으로 형성하고 있는 상태에서 추가적으로 상술한 음성 인식으로 생성된 텍스트 중 적어도 하나를 전송하도록 지원할 수도 있다. 상기 제1 통신부(110)는 송신측 단말기(100)가 수신측 단말기 역할을 수행하는 경우 네트웍 평가를 위한 신호 수집을 지원할 수도 있다. 그리고 제1 통신부(110)는 수신측 단말기(200)와 통신 서비스를 지원하는 과정에서 앞서 설명한 각 통신 서비스들에 대하여 일방향으로 지원하거나 또는 양방향으로 지원할 수 있다. 이를 보다 상세히 설명하면, 제1 통신부(110)는 수신측 단말기(200)와 채팅 서비스 채널, 영상 통화 서비스 채널을 양방향으로 형성하되, 음성 서비스 채널, 음성 인식된 텍스트 제공 서비스 채널은 단말기 사용자의 선택 또는 단말기 설정에 따라 일방향으로만 수행되도록 지원할 수 있다. 각 서비스 채널의 방향성에 대해서는 후술하는 도면들을 참조하여 보다 상세히 설명하기로 한다.

제1 입력부(120)는 송신측 단말기(100) 운용에 필요한 다양한 입력 신호를 생성하는 구성이다. 상기 제1 입력부(120)는 버튼키나, 사이드 키, 홈 키 등 특정 키 형태로 형성됨은 물론, 풀 터치스크린 지원을 위해 터치 맵으로 제공될 수도 있다. 여기서 터치 맵은 제1 표시부(140) 상에 표시되어 사용자 터치에 따른 입력 신호를 생성할 수 있도록 지원하는 구성이 될 수 있다. 상기 제1 입력부(120)는 수신측 단말기(200)와 통신 서비스 연결을 위한 입력 신호, 연결된 통신 서비스 운용을 위한 입력 신호, 문자 입력을 위한 입력 신호, 특정 통신 서비스 운용 중에 다른 통신 서비스 활성화를 지시하기 위한 입력 신호 등을 사용자 제어에 따라 생성할 수 있다. 생성된 입력 신호는 제1 제어부(160)에 전달되어 해당 입력 신호에 따른 기능 지원을 수행할 수 있다.

제1 마이크(131)는 송신측 단말기(100)의 기능 운용에 따라 활성화되어 주변 오디오 신호 특히 음성 신호를 수집하는 구성이다. 제1 마이크(131)가 수집한 음성 신호는 제1 제어부(160)에 전달되며, 제1 제어부(160) 제어에 따라 음성 인식되어 텍스트로 변환되거나 수집된 형태대로 인코딩되어 수신측 단말기(200)에 전달될 수 있다.

제1 스피커(133)는 송신측 단말기(100)의 오디오 신호 출력을 지원하는 구성이다. 이러한 제1 스피커(133)는 송신측 단말기(100)에 저장된 오디오 파일 재생에 따른 오디오 데이터, 외부 서버나 타 단말기로부터 수신된 오디오 파일 재생에 따른 오디오 데이터 등의 출력을 지원할 수 있다. 특히 제1 스피커(133)는 수신측 단말기(200)가 전송하는 오디오 데이터를 출력할 수 있다. 또한 제1 스피커(133)는 수신측 단말기(200)로부터 문자나, 비디오 신호 등의 전송이 있을 경우 그에 대응하는 알람음이나 안내음을 출력할 수 있다. 본 발명에서 제1 스피커(133)는 제1 마이크(131)가 수집한 음성 신호를 음성 인식하여 생성한 텍스트의 전송을 알리는 알람음, 수신측 단말기(200)가 제공하는 텍스트 수신을 알리는 알람음, 수신측 단말기(200)의 TTS 서비스 요청에 따라 수신된 텍스트에 대응하는 안내음 등을 제1 제어부(160) 제어에 따라 출력할 수 있다.

제1 카메라(170)는 송신측 단말기(100) 일측에 배치되어 피사체에 대한 영상을 수집하는 구성이다. 제1 카메라(170)가 수집한 영상은 제1 제어부(160)에 전달될 수 있다. 제1 제어부(160)는 현재 활성화된 기능 및 사용자 제어에 따라 수집된 영상을 제1 저장부(150)에 저장하거나 수신측 단말기(200)에 전송하도록 지원할 수 있다. 특히 제1 카메라(170)는 수신측 단말기(200)와의 영상 통화를 운용하는데 있어서 필용한 영상을 수집하는 구성이 될 수 있다. 상기 제1 카메라(170)는 하나의 구성으로 도시하고 설명하지만 필요에 따라 사진 촬영을 위한 카메라와 영상 통화를 위한 카메라가 별도로 마련될 수도 있다.

제1 표시부(140)는 송신측 단말기(100) 운용에 필요한 다양한 화면 인터페이스를 제공하는 구성이다. 상기 제1 표시부(140)는 터치 기능 지원을 위해 터치 패널 및 표시 패널을 포함하는 구조로 형성될 수 있다. 이러한 상기 제1 표시부(140)는 수신측 단말기(200)와의 통신 서비스 종류에 따른 각각의 화면 또는 복합 화면을 제공할 수 있다. 예를 들어 제1 표시부(140)는 수신측 단말기(200)와의 채팅 서비스 지원 화면, 음성 서비스 지원 화면, 문자 서비스 지원 화면, 음성 인식 기반의 자막 서비스 지원 화면, 영상 통화 서비스 지원 화면 중 적어도 하나의 화면을 각 통신 서비스 운용에 따라 개별적으로 출력할 수 있다.

또는 제1 표시부(140)는 상술한 화면들 중 적어도 하나 이상의 화면들이 복합적으로 구성된 화면을 제공할 수 있다. 예를 들어 제1 표시부(140)는 채팅 서비스 지원 화면을 바탕으로 음성 서비스를 지원하면서 음성 서비스 지원 중임을 나타내는 이미지나 텍스트 등을 화면의 적어도 일측에 출력할 수 있다. 또한 제1 표시부(140)는 채팅 서비스 지원 화면 출력 중에 영상 통화 서비스 지원을 위한 영상 표시 영역을 출력하고, 일측에 음성 인식으로 생성된 텍스트를 출력하도록 지원할 수 있다. 또는 제1 표시부(140)는 채팅 서비스 지원 화면 출력 중에, 영상 표시 영역과 텍스트나 자막을 출력함과 아울러 음성 서비스 지원 중임을 나타내는 이미지나 텍스트 등을 화면 일측에 출력할 수 있다.

추가로 제1 표시부(140)는 상술한 다양한 통신 서비스 중 적어도 하나를 사용자가 선택할 수 있도록 메뉴 화면을 제공할 수 있다. 또한 제1 표시부(140)는 주변 환경이나 네트웍 평가 등에 따라 특정 통신 서비스 운용을 자동으로 수행하는 상황을 인지시키기 위한 화면 정보, 특정 종류의 통신 서비스 운용을 제안하기 위한 화면 정보, 사용자 선택에 따른 통신 서비스 운용을 안내하는 화면 정보 등의 출력을 수행할 수 있다. 상기 제1 표시부(140)에서 제공되는 각 화면들은 기기의 표시 영역 크기에 따라 다양한 형태의 포맷으로 제공될 수 있다. 그리고 제1 표시부(140)는 특히 휴대용 기반의 기기의 경우 한정된 표시 영역에서의 정보 출력을 위하여 다양한 정보들의 중첩이나 페이지 전환 등을 지원할 수 있다.

제1 저장부(150)는 송신측 단말기(100) 운용에 필요한 운영체제, 송신측 단말기(100)가 제공하는 기능 지원을 위한 응용 프로그램 등을 저장할 수 있다. 특히 제1 저장부(150)는 본 발명의 통신 서비스 운용을 지원하기 위한 통신 서비스 운용 프로그램(151) 및 내부 음성 인식 지원을 위한 음성 인식 데이터베이스(153), TTS 서비스 지원을 위한 음성 전환 데이터베이스(155), 주변 환경 평가 및 네트웍 평가를 위한 기준 값들(157)을 저장할 수 있다.

통신 서비스 운용 프로그램(151)은 본 발명의 실시 예에 따른 통신 서비스 운용을 위한 다양한 루틴들을 포함한다. 예를 들어 통신 서비스 운용 프로그램(151)은 수신측 단말기(200)와 채팅 서비스 채널을 형성하고 운용하기 위한 루틴들, 음성 서비스 채널을 형성하고 운용하기 위한 루틴들, 문자 서비스 채널을 형성하고 운용하기 위한 루틴들, 영상 통화 서비스 채널을 형성하고 운용하기 위한 루틴들을 포함할 수 있다. 특히 통신 서비스 운용 프로그램(151)은 음성 인식 기반 텍스트 전환하여 문자나 자막 등으로 출력하는 루틴, 전환된 텍스트를 수신측 단말기(200)에 전송하는 루틴 등을 포함할 수 있다. 추가로 통신 서비스 운용 프로그램(151)은 수신측 단말기(200)로부터 수신한 음성 신호를 음성 인식 처리하여 텍스트로 전환한 후 출력하는 루틴, 수신된 텍스트를 음성으로 전환하여 출력하는 루틴 등을 더 포함할 수 있다. 또한 통신 서비스 운용 프로그램(151)은 주변 환경을 센서 등을 이용하여 확인하고 해당 환경에 따라 특정 통신 서비스가 자동으로 활성화되도록 지원하거나 사용자가 선택할 수 있도록 제안하는 루틴, 네트웍 평가 또는 노이즈와 같은 주변 환경 평가를 수행하고 평가 결과에 따라 음성 인식을 송신측에서 수행할지 또는 수신측에 이관할지를 결정하는 루틴을 포함할 수 있다. 여기서 송신측에서 처리하도록 지원하는 루틴은 송신측 단말기(100)가 접속 가능한 제1 음성 처리 지원 장치(400)를 이용하여 처리할지 또는 자체 내부 음성 인식 데이터베이스 기반으로 수행할지를 결정하고 결정에 따라 처리하는 루틴을 더 포함할 수 있다. 수신측 단말기(200)에서 처리하도록 결정된 경우, 수신측 단말기(200)는 제2 음성 처리 지원 장치(500)를 이용하여 처리할지 또는 자체 내부 음성 인식 데이터베이스를 기반으로 처리할지를 결정할 수 있다.

음성 인식 데이터베이스(153)는 송신측 단말기(100)가 음성 인식을 수행하는데 있어서 제1 음성 처리 지원 장치(400)를 이용하지 않거나 또는 제1 음성 처리 지원 장치(400)와 병행하여 이용하는 경우 내부적으로 음성 인식 기능을 지원하는 구성이다. 이러한 음성 인식 데이터베이스(153)는 상대적으로 제1 음성 처리 지원 장치(400)에 비하여 음성 인식 결과에 대한 낮은 신뢰도와 느린 연산 속도를 제공할 수 있지만, 송신측 단말기(100) 사용자에게 특화된 형태의 음성 인식 기능을 지원할 수 있다. 즉 음성 인식 데이터베이스(153)에 저장된 데이터는 송신측 단말기(100) 사용자가 입력한 음성 신호를 음성 인식한 결과들을 이력으로 저장하여, 특정 패턴을 가지는 사용자 음성 신호가 어떠한 텍스트에 대응하는지에 대한 결과를 포함할 수 있다. 이에 따라 내부적으로 저장된 음성 인식 데이터베이스(153)는 다양한 단말기들이 접속하여 음성 인식을 요청하는 제1 음성 처리 지원 장치(400)와 다르게 사용자에게 특화된 형태의 음성 인식 기능을 지원할 수 있다. 따라서 음성 인식 데이터베이스(153)는 수집된 음성 신호에 따라서 제1 음성 처리 지원 장치(400)가 제공하는 음성 인식 결과와 유사한 신뢰도 및 정확도를 가지는 결과를 제공할 수도 있으며, 보다 빠른 음성 인식 결과를 제공할 수도 있다. 이를 위하여 음성 인식 데이터베이스(153)는 제1 제어부(160) 제어 하에 학습 기능이 제공될 수 있다. 여기서 학습 기능은 사용자가 입력한 음성 신호에 대하여 특정 음성 인식 결과를 매칭하는 과정에서 정정 등의 입력이 발생하여 특정 음성 인식 결과로 조정하는 이벤트가 발생하면 이를 기록하여 추후 음성 인식 결과 반영하는 기능이 될 수 있다. 학습 기능은 상술한 과정이 반복되면서 사용자가 입력한 음성 신호에 대하여 음성 인식 결과의 정확성을 높일 수 있도록 지원한다.

음성 전환 데이터베이스(155)는 문자나 텍스트로 입력되는 단어나 어구, 조사나 문장 등을 음성 신호로 전환하기 위한 음성들을 포함하는 데이터베이스이다. 이 음성 전환 데이터베이스(155)는 TTS 서비스 지원을 위해 이용될 수 있다. 예를 들어 음성 전환 데이터베이스(155)는 TTS 서비스 지원을 위한 모드가 활성화된 상태에서 제1 입력부(120) 및 키맵 등의 제1 표시부(140)를 포함하는 입력 수단에서 문자 입력을 위한 입력 신호가 발생하면 제1 제어부(160)에 의하여 호출되어 해당 문자들에 대한 음성 데이터를 제공할 수 있다. 제공된 음성 데이터는 제1 제어부(160)에 의하여 타 단말기에게 전송될 수 있다.

기준 값들(157)은 주변 환경 평가 또는 네트웍 평가를 수행하기 위한 기준이 되는 값들이다. 예를 들어, 네트웍 평가에서의 기준 값들(157)은 네트웍의 지연을 구분하기 위한 값들이 될 수 있다. 또한 주변 환경 평가를 위한 기준 값들(157)은 제1 마이크(131)에서 수집된 오디오 신호가 가지는 노이즈 신호의 데시벨 정도 및 빈도수 정도 중 적어도 하나가 될 수 있다. 여기서 제1 마이크(131)가 수집한 오디오 신호로부터 노이즈 신호를 분리하기 위하여 필터링 과정이 수행될 수 있으며, 사전 정의된 사용자 음성 신호의 주파수 영역대 이외의 신호를 노이즈 신호로 결정함으로써 노이즈 신호를 확인할 수 있다. 또한 기준 값들(157)은 주변 환경 평가를 위하여 특정 위치 예를 들면 도서관 등의 위치 정보가 될 수도 있으며, 낮과 밤 등을 구분하기 위한 조도 정보가 될 수도 있다. 낮과 밤 구분을 위해서는 조도 정보뿐만 아니라 시간 정보도 함께 이용될 수 있으므로 낮과 밤 구분을 위한 기준 값들(157)은 조도 정보 및 시간 정보를 포함할 수 있다. 또한 상기 기준 값들(157)은 송신측 단말기(100)가 제1 음성 처리 지원 장치(400)와 형성하는 수신 상태 정보에 대한 기준 값을 포함할 수 있다. 예를 들어 기준 값들(157)은 송신측 단말기(100)와 제1 음성 처리 지원 장치(400) 간의 데이터 전송 지연 정도, 패킷 손실율 등에 대한 사전 정의된 일정 기준 값을 포함할 수 있다.

제1 제어부(160)는 본 발명의 실시 예에 따른 송신측 단말기(100) 운용에 필요한 다양한 전원 공급과 신호 제어를 지원하는 구성이다. 특히 제1 제어부(160)는 본 발명의 통신 서비스 운용 지원을 위한 신호 제어 및 데이터 전달을 제어할 수 있다. 이를 위하여 제1 제어부(160)는 도 3에 도시된 바와 같은 구성을 포함할 수 있다.

도 3은 송신측 단말기(100)의 제1 제어부(160) 구성을 보다 상세히 나타낸 도면이다.

도 3을 참조하면, 제1 제어부(160)는 제1 음성 처리부(167), 제1 텍스트 처리부(168), 제1 비디오 처리부(169), 제1 STT 매니저(164), 제1 TTS 매니저(165), 미디어 동기화부(166), 제1 TTS/STT 결정부(163), 제1 네트웍 모니터(162), 제1 네트웍 패킹/언패킹 지원부(161)를 포함할 수 있다.

제1 음성 처리부(167)는 제1 마이크(131)가 수집한 음성 신호를 처리하여 음성 데이터를 생성하는 구성이다. 예를 들어, 제1 음성 처리부(167)는 음성 신호 처리를 위한 인코딩부가 될 수 있다. 제1 음성 처리부(167)가 처리한 음성 데이터는 제1 STT 매니저(164)에 전달될 수 있다.

제1 텍스트 처리부(168)는 제1 입력부(120) 및 입력 기능의 제1 표시부(140)로부터 입력되는 신호를 문자로 전환하는 구성이다. 제1 텍스트 처리부(168)가 전환한 문자는 제1 TTS 매니저(165)에 전달될 수 있다.

제1 비디오 처리부(169)는 수신측 단말기(200)와 형성되는 통신 서비스 채널에 따라 제1 카메라(170)를 활성화하도록 제어한다. 즉 제1 비디오 처리부(169)는 수신측 단말기(200)와 영상 통화 서비스가 운용되는 경우 활성화되어 제1 카메라(170) 제어 및 수집된 영상 처리 제어를 지원할 수 있다. 그리고 제1 비디오 처리부(169)는 제1 카메라(170)가 수집한 영상을 수신측 단말기(200)에 전달할 수 있도록 미디어 동기화부(166)에 전달할 수 있다.

제1 STT 매니저(164)는 송신측 단말기(100)의 음성 인식 기능을 제어하는 구성이다. 이러한 제1 STT 매니저(164)는 제어에 따라 제1 음성 처리부(167)가 전달한 음성 데이터의 음성 인식을 수행하여 텍스트로 전환하도록 제어할 수 있다. 이때 제1 STT 매니저(164)는 제1 음성 처리부(167)가 제공하는 음성 데이터를 실시간으로 또는 일정 주기로 제1 음성 처리 지원 장치(400)에 전달할 수 있다. 또는 제1 STT 매니저(164)는 제어에 따라 제1 저장부(150)에 저장된 음성 인식 데이터베이스(153) 기반의 음성 인식을 수행할 수도 있다. 여기서 제1 STT 매니저(164)는 제어에 따라 제1 음성 처리 지원 장치(400)를 이용한 음성 인식 및 음성 인식 데이터베이스(153)를 이용한 음성 인식을 혼용하여 음성 데이터를 텍스트로 변환할 수 있다. 이 과정에서 제1 STT 매니저(164)는 제1 음성 처리 지원 장치(400)에서 전달된 텍스트를 기반으로 음성 인식 데이터베이스(153)의 학습 기능을 수행하도록 제어할 수 있다. 즉 제1 STT 매니저(164)는 제1 음성 처리 지원 장치(400)로부터 수신된 텍스트를 기준으로 음성 인식 데이터베이스(153)의 인식된 결과와 비교하여 에러를 정정함과 아울러 해당 음성 신호에 대한 정보를 제1 음성 처리 지원 장치(400)로부터 수신된 텍스트를 기준으로 갱신하도록 제어할 수 있다. 제1 STT 매니저(164)가 처리한 텍스트는 미디어 동기화부(166) 및 제1 네트웍 패킹/언패킹 지원부(161) 중 적어도 하나에 전달될 수 있다. 한편 제1 STT 매니저(164)는 제1 TTS/STT 결정부(163) 제어에 따라 음성 인식 기능을 지원할 수 있다. 이러한 제1 STT 매니저(164)는 도 4에 도시된 바와 같은 구성을 포함할 수 있다.

도 4를 참조하면, 제1 STT 매니저(164)는 ASR 제어부(41) 및 내부 ASR 처리부(43)를 포함할 수 있다. 상기 ASR 제어부(41)는 송신측 단말기(100)의 제1 음성 처리 지원 장치(400) 이용을 제어하는 구성이다. 이러한 ASR 제어부(41)는 제1 TTS/STT 결정부(163)로부터 제1 음성 처리 지원 장치(400) 이용을 위한 제어 신호가 전달되면, 제1 음성 처리부(167)가 제공하는 음성 데이터를 제1 음성 처리 지원 장치(400)에 전달하여 음성 인식하도록 제어할 수 있다. 이를 위하여 ASR 제어부(41)는 제1 통신부(110)를 제어하여 제1 음성 처리 지원 장치(400)와 통신 채널을 형성하고 제1 음성 처리부(167)가 전달하는 음성 데이터를 제1 음성 처리 지원 장치(400)에 전달할 수 있다. 이때 ASR 제어부(41)는 필요에 따라 음성 데이터를 이동통신 시스템을 통하여 제1 음성 처리 지원 장치(400)에 전달하도록 제어할 수도 있다. ASR 제어부(41)는 제1 음성 처리 지원 장치(400)로부터 전송한 음성 데이터에 대한 텍스트를 수신하면 이를 미디어 동기화부(166)에 전달하도록 제어할 수 있다. 또한 ASR 제어부(41)는 수신된 텍스트를 제1 네트웍 패킹/언패킹 지원부(161)에 전달하도록 제어할 수 있다.

한편 내부 ASR 처리부(43)는 시스템 설계에 따라 또는 외부 제1 음성 처리 지원 장치(400) 접속이 불가능한 경우에는 내부 제1 저장부(150)에 위치한 음성 인식 데이터베이스(153)를 이용하여 음성 데이터를 텍스트로 변환하도록 제어할 수 있다. 내부 ASR 처리부(43)는 시스템 설계 방식이 내부 음성 인식 데이터베이스(153)를 활용하도록 설계되어 있거나, 제1 음성 처리 지원 장치(400) 접속이 불가능한 경우 내부 제1 저장부(150)에 저장된 음성 인식 데이터베이스(153)를 기반으로 음성 데이터를 인식하여 텍스트로 전환하도록 제어할 수 있다. 여기서 제1 음성 처리 지원 장치(400) 접속이 불가능한 경우는 송신측 단말기(100)가 정상적으로 제1 음성 처리 지원 장치(400)와 통신 채널을 형성할 수 없는 무선 환경으로서 제1 음성 처리 지원 장치(400) 사이의 네트웍 문제이거나 제1 음성 처리 지원 장치(400) 자체의 문제 등에 의하여 발생할 수 있다. 한편 내부 ASR 처리부(43)는 전환된 텍스트를 ASR 제어부(41)와 같이 제1 네트웍 패킹/언패킹 지원부(161) 및 미디어 동기화부(166) 중 적어도 하나에 전달할 수 있다.

여기서 상기 제1 STT 매니저(164)는 ASR 제어부(41) 및 내부 ASR 처리부(43)를 모두 활성화하도록 지원할 수도 있다. 즉 제1 STT 매니저(164)는 제1 마이크(131)로부터 음성 신호가 전달되고, 제1 음성 처리부(167)가 음성 신호를 음성 데이터로 전달하면, 이를 음성 인식하기 위하여 ASR 제어부(41) 및 내부 ASR 처리부(43)를 모두 운용하도록 제어할 수 있다. 그리고 제1 STT 매니저(164)는 ASR 제어부(41) 및 내부 ASR 처리부(43) 운용에 따라 수집된 결과물을 수신측 단말기(200)에 모두 전송하거나, 결과물 중 적어도 하나를 선택하여 수신측 단말기(200)에 전송하도록 제어할 수 있다.

다시 도 3을 참조하면, 제1 TTS 매니저(165)는 제1 텍스트 처리부(168)가 제공하는 문자를 음성으로 전환 처리하는 구성이다. 제1 TTS 매니저(165) 또한 제1 TTS/STT 결정부(163) 제어에 따라 활성화되어 문자의 음성 전환을 제어할 수 있다. 이때 제1 TTS 매니저(165)는 음소 단위, 단어 단위, 어구 단위, 문장 단위 중 적어도 하나에 따라 문자의 음성 전환을 제어할 수 있다. 제1 TTS 매니저(165)가 변환한 음성은 미디어 동기화부(166) 및 제1 네트웍 패킹/언패킹 지원부(161) 중 적어도 하나에 전달될 수 있다. 한편 제1 TTS 매니저(165)가 변환한 음성은 별도로 미디어 동기화부(166)에 전달되지 않고 제1 네트웍 패킹/언패킹 지원부(161)를 통하여 수신측 단말기(200)에 전송될 수도 있다. 그리고 여기서 제1 음성 처리 지원 장치(400)는 문자를 음성을 전환해주는 서비스를 제공해주는 장치로서 송신측 단말기(100)의 외부에 배치되는 구성에 해당할 수 있다. 제1 TTS 매니저(165)는 시스템 설계자의 의도에 따라 제1 저장부(150)에 저장된 음성 전환 데이터베이스(155)를 기반으로 문자의 음성 전환을 지원할 수도 있다.

미디어 동기화부(166)는 시스템 설계 방식에 따라 수집된 신호들의 동기화를 지원하는 구성이다. 즉 미디어 동기화부(166)는 제1 마이크(131)가 수집한 음성 신호를 텍스트로 전환하여 전송하는 과정에서 제1 비디오 처리부(169)가 전달하는 영상 데이터와 음성 인식된 텍스트와의 동기화, 제1 음성 처리부(167)가 전달하는 음성 데이터와 음성 인식된 텍스트와의 동기화 중 적어도 하나를 제어할 수 있다. 또한 미디어 동기화부(166)는 제1 TTS 매니저(165)가 전달하는 텍스트를 전환하여 구성된 음성과 제1 비디오 처리부(169)가 전달하는 화면과의 동기화 등도 제어할 수 있다. 미디어 동기화부(166)가 동기화한 데이터는 제1 네트웍 패킹/언패킹 지원부(161)에 전달될 수 있다. 이러한 미디어 동기화부(166)는 도 5에 도시된 바와 같은 구성을 포함할 수 있다.

도 5를 참조하면, 본 발명의 미디어 동기화부(166)는 텍스트 버퍼링부(61), 이미지 변환부(62), 이미지 버퍼부(63), 통합 제어부(64), 타임스탬프 비교부(65), 이미지 버퍼링부(66), 지연부(67)를 포함하여, 선택적으로 이미지 오버레이부(68)를 더 포함할 수 있다.

텍스트 버퍼링부(61)는 제1 STT 매니저(164)로부터 전달된 텍스트를 버퍼링하는 구성이다. 이때 텍스트 버퍼링부(61)는 제1 STT 매니저(164)가 전달하는 텍스트를 일정량만큼씩 버퍼링할 수 있다. 예를 들어 텍스트 버퍼링부(61)는 제1 STT 매니저(164)가 전달하는 텍스트를 단어 단위, 어구 단위, 문장 단위 중 어느 하나의 단위로 버퍼링할 수 있다. 텍스트 버퍼링부(61)는 텍스트를 버퍼링한 후 기 설정된 일정 시간 후 또는 통합 제어부(64) 제어에 따라 이미지 변환부(62)로 해당 텍스트를 전달할 수 있다. 추가로 텍스트 버퍼링부(61)는 텍스트 버퍼링 과정 특히 텍스트 버퍼링의 버퍼링 시간 정보 및 제1 음성 처리 지원 장치(400)에 음성 인식을 의뢰하고 해당 텍스트를 수신하는데 소요된 시간 정보, 음성 인식 데이터베이스(153)를 기반으로 텍스트로 전환하는데 소요된 시간 정보 적어도 하나에 대하여 통합 제어부(64) 및 타임스탬프 비교부(65)에 전달할 수 있다.

이미지 변환부(62)는 텍스트 버퍼링부(61)가 전달한 텍스트를 이미지로 변환하거나, 자막으로 변환하거나 또는 특정 이미지에 삽입하도록 제어하는 구성이다. 이미지 변환부(62)는 수신된 텍스트를 이미지로 변환하고, 해당 이미지를 이미지 버퍼부(63)에 전달할 수 있다. 또는 이미지 변환부(62)는 수신된 텍스트를 자막 정보로 변환하고 해당 자막 정보를 이미지 버퍼부(63)에 전달할 수 있다. 또한 이미지 변환부(62)는 수신된 텍스트를 제1 비디오 처리부(169)가 수집한 이미지 중 적어도 일부 이미지 예를 들면 제1 비디오 처리부(169)가 수집한 이미지 중 배경 이미지와 통합하여 텍스트가 기입된 이미지를 생성하고 이를 이미지 버퍼부(63)에 전달할 수 있다. 또는 이미지 변환부(62)는 투명 레이어에 수신된 텍스트를 기입하고, 텍스트가 기입된 투명 레이어에 해당하는 이미지를 이미지 버퍼부(63)에 전달할 수 있다.

이미지 버퍼부(63)는 이미지 변환부(62)가 전달한 텍스트 관련 이미지를 전송하기 이전에 버퍼링하는 구성이다. 이미지 버퍼부(63)가 버퍼링한 텍스트 관련 이미지는 제1 네트웍 패킹/언패킹 지원부(161)에 전달되거나 또는 이미지 오버레이부(68)에 전달될 수 있다.

통합 제어부(64)는 음성 인식된 텍스트와 수신측 단말기(200)에 전송할 정보 예를 들면 제1 비디오 처리부(169)가 전달한 영상의 동기화 및 전송을 제어하는 구성이다. 이러한 통합 제어부(64)는 제1 입력부(1220) 및 입력 기능의 제1 표시부(140)로부터 음성 인식 기반의 텍스트 제공 서비스인 STT 서비스에 대한 사용자 옵션 설정이나 또는 디폴트 설정이 있는지 여부를 확인한다. 그리고 통합 제어부(64)는 해당 설정이 활성화되어 있는 경우, 이미지 변환부(62)를 제어하여 음성 인식된 텍스트의 이미지 변환을 수행하도록 제어할 수 있다. 또한 통합 제어부(64)는 텍스트 관련 이미지와 제1 비디오 처리부(169)가 수집한 영상과의 오버레이를 위하여 이미지 오버레이부(68) 제어를 수행할 수 있다. 즉 통합 제어부(64)는 본 발명의 음성 인식된 텍스트 제공 서비스가 비활성화되어 있는 경우에는 이미지 오버레이부(68)가 별도의 텍스트 관련 이미지의 오버레이를 수행함 없이 제1 비디오 처리부(169)가 수집한 영상 또는 사용자 설정이나 스케줄 설정에 따른 이미지를 수신측 단말기(200)에 전송하도록 제어할 수 있다.

타임스탬프 비교부(65)는 텍스트 버퍼링부(61)로부터 제1 마이크(131)가 수집한 음성 신호를 텍스트로 변환하기 위해 소요된 시간 정보 및 해당 텍스트를 버퍼링하는데 소요되는 시간 정보 등을 확인하고, 해당 시간에 대한 타임스탬프를 비교하는 구성이다. 이를 위하여 송신측 단말기(100)의 제1 제어부(160)는 제1 비디오 처리부(169)가 특정 영상을 수집하는 시점과 제1 마이크(131)가 음성 신호를 수집하는 시점 각각에 대하여 타임스탬프를 할당할 수 있다. 결과적으로 제1 STT 매니저(164)가 미디어 동기화부(166)에 전달하는 음성 인식된 텍스트에는 해당 텍스트에 대응하는 음성 신호가 수집된 타임스탬프 정보를 포함하게 된다. 타임스탬프 비교부(65)는 이미지 버퍼링부(66)로부터 버퍼링하는 영상에 대한 타임스탬프 정보를 수신하고, 상호 동일한 타임스탬프를 가지는 정보들이 일치될 수 있도록 지연부(67)를 제어할 수 있다.

이미지 버퍼링부(66)는 제1 비디오 처리부(169)가 처리한 영상 데이터를 버퍼링하여 구성이다. 이미지 버퍼링부(66)가 전달받는 영상 데이터에는 해당 영상이 수집된 시점의 타임스탬프 정보도 함께 포함될 수 있다. 이미지 버퍼링부(66)는 해당 영상의 타임스탬프 정보를 타임스탬프 비교부(65)에 전달하는 한편, 버퍼링되는 영상 데이터는 지연부(67)에 전달할 수 있다.

지연부(67)는 타임스탬프 비교부(65) 제어에 따라 이미지 버퍼링부(66)로부터 전달된 영상 데이터의 지연을 수행하는 구성이다. 일반적으로 제1 비디오 처리부(169)가 처리한 영상 데이터가 이미지 버퍼링부(66)를 거쳐 전달되는 속도가 제1 음성 처리 지원 장치(400)를 통하여 음성 인식된 텍스트를 수신하는 속도보다 빠를 수 있기 때문에 지연부(67)는 해당 시간 차이만큼 영상 데이터의 전달을 지연하도록 제어할 수 있다. 한편 지연부(67)는 텍스트 버퍼링부(61)가 버퍼링한 텍스트와 이미지 버퍼링부(66)가 버퍼링하는 영상 데이터 간의 타임스탬프 비교 차이가 기 설정된 차이 이상인 경우 영상 데이터의 추가 지연을 해제하고 해당 영상 데이터를 이미지 오버레이부(68)에 전달할 수 있다. 이에 따라 다른 영상 데이터라 하더라도 동일한 텍스트 관련 이미지가 포함되어 수신측 단말기(200)에 전달될 수 있다. 또는 동일한 텍스트 관련 이미지가 전달되어야 할 경우 송신측 단말기(100)는 통합 제어부(64) 제어에 따라 해당 텍스트 관련 이미지를 전달하지 않고 동일한 텍스트 관련 이미지가 삽입되어야 함을 나타내는 정보를 해당 영상 데이터에 포함시켜 수신측 단말기(200)에 전달할 수도 있다. 또는 송신측 단말기(100)는 통합 제어부(64) 제어에 따라 동일한 텍스트 관련 이미지를 전송해야 할 경우에는 별도의 정보 제공 없이 텍스트 관련 이미지 오버레이를 수행하지 않도록 지원할 수도 있다.

이미지 오버레이부(68)는 지연부(67)에서 전달된 영상 데이터와 이미지 버퍼부(63)에서 전달된 텍스트 관련 이미지를 통합하는 구성이다. 이때 이미지 오버레이부(68)는 단순히 영상 데이터 상에 텍스트 관련 이미지를 오버레이하여 통합 영상 프레임을 구성하고, 구성된 통합 영상 프레임을 제1 네트웍 패킹/언패킹 지원부(161)에 전달할 수 있다. 이에 따라 통합 영상 프레임은 영상 데이터 레이어와 텍스트 레이어로 구성될 수 있다. 또는 이미지 오버레이부(68)는 텍스트 관련 이미지가 자막 처리된 경우 영상 데이터에 자막 정보로서 기입하여 영상 프레임을 구성하고, 해당 영상 프레임을 제1 네트웍 패킹/언패킹 지원부(161)에 전달할 수도 있다. 또는 이미지 오버레이부(68)는 텍스트 관련 이미지와 영상 데이터를 하나의 이미지로 조합할 수 있는데 예를 들어 영상 데이터의 일정 영역에 텍스트 관련 이미지 영역을 할당하고, 해당 영역의 영상 데이터를 텍스트 관련 이미지로 교체하거나, 해당 영상 데이터 영역 상에서 텍스트가 식별 가능하도록 처리하여 영상 프레임을 생성할 수 있다. 그리고 이미지 오버레이부(68)는 통합된 영상 프레임을 제1 네트웍 패킹/언패킹 지원부(161)에 전달할 수 있다.

한편 상술한 설명에서는 텍스트 관련 이미지를 영상 데이터에 통합하여 제1 네트웍 패킹/언패킹 지원부(161)에 전달하는 것으로 설명하였으나, 본 발명이 이에 한정되는 것은 아니다. 즉 상술한 텍스트 관련 이미지와 영상 데이터의 통합 처리는 제1 네트웍 패킹/언패킹 지원부(161)에서 처리할 수도 있으며, 또는 각각의 데이터가 별도의 통합 과정 없이 개개별로 수신측 단말기(200)에 전송될 수 있다. 그러면 수신측 단말기(200)는 수신된 텍스트 관련 이미지와 영상 데이터를 제2 표시부(240)에 출력하도록 제어할 수 있다. 이때 수신측 단말기(200)는 텍스트 관련 이미지 및 영상 데이터에 대한 타임스탬프 정보를 함께 수신하고, 이를 기반으로 텍스트 관련 이미지와 영상 데이터의 동기화를 제어할 수 있다. 이 경우 상기 이미지 오버레이부(68)의 구성은 송신측 단말기(100)의 구성에서 생략될 수도 있다.

다음으로 본 발명의 미디어 동기화부(166)의 운용에 대하여 도 6을 참조하여 보다 상세히 설명하기로 한다.

도 6을 참조하면, 본 발명의 송신측 단말기(100)의 미디어 동기화 과정은 먼저, 601 단계에서 제1 비디오 처리부(169)로부터 영상 프레임을 전송받을 수 있다. 그러면 통합 제어부(64)는 603 단계에서 새로운 텍스트 관련 이미지가 생성되는지 여부를 확인할 수 있다. 즉 이미지 변환부(62)는 제1 STT 매니저(164)로부터 전달된 텍스트를 영상 프레임으로 변환한다. 이 과정에서 통합 제어부(64)는 텍스트 버퍼링부(61)로부터 영상 프레임 변환에 대하여 통보 받음으로써 603 단계를 수행할 수 있다.

한편 603 단계에서 통합 제어부(64)는 새로운 텍스트 관련 이미지가 있는 경우 605 단계로 분기하여 사전 배치된 타이머(clock)를 리셋(t=0)할 수 있다. 그리고 통합 제어부(64)는 607 단계로 분기하여 새 텍스트 관련 이미지를 영상 데이터와 통합하도록 하기 위한 명령어(merge)를 이미지 오버레이부(68)에 전달할 수 있다. 이와 함께 통합 제어부(64)는 이미지 버퍼부(63)에 저장된 새 텍스트 관련 이미지를 이미지 오버레이부(68)에 전달하도록 제어할 수 있다. 이후 통합 제어부(64)는 609 단계로 분기하여 타이머의 시간(t)을 증가시키고(t<-t+1) 601 단계로 복귀할 수 있다.

한편 통합 제어부(64)는 603 단계에서 새로 기입해야 할 텍스트 관련 이미지가 없는 경우 611 단계로 분기하여 현재 타이머의 시간(t)이 기 설정된 설정 시간(Ti)보다 큰지 여부를 확인한다. 그리고 통합 제어부(64)는 현재 타이머의 시간(t)이 설정 시간(Ti)보다 작지 않은 경우 즉 큰 경우, 613 단계로 분기하여 텍스트 관련 이미지와 영상 데이터를 통합하지 않도록 제어할 수 있다. 즉 통합 제어부(64)는 텍스트 관련 이미지를 영상 데이터들에 대하여 새 텍스트 관련 이미지가 생성되기 이전까지 일정 시간 동안 동일한 텍스트 관련 이미지를 영상 데이터들에 통합하도록 지원할 수 있다. 그리고 통합 제어부(64)는 일정 시간이 경과하는 경우 해당 텍스트 관련 이미지 사용을 중지하고 버퍼에서 제거하도록 제어할 수 있다. 이후 통합 제어부(64)는 609 단계로 분기하여 이하 과정을 재수행하도록 지원할 수 있다.

이상에서 설명한 바와 같이 본 발명의 실시 예에 따른 송신측 단말기(100)는 음성 인식된 텍스트를 이미지로 변환하여 영상 데이터와 통합하는 과정에서 일정 시간 동안 동일한 텍스트 관련 이미지가 다수의 영상 데이터에 일정하게 통합되도록 지원할 수 있다. 이때 송신측 단말기(100)는 새 텍스트 관련 이미지가 생성되는 경우 사전 정의된 텍스트 출력 최소 시간이 경과하면 새 텍스트 관련 이미지를 새 영상 데이터에 통합함으로써 새로 생성된 텍스트 관련 이미지에 의한 정보 전달을 신속하게 수행되도록 지원할 수 있다. 한편 상술한 설명에서는 제1 카메라(170)가 수집한 영상을 제1 비디오 처리부(169)가 처리하여 제공하는 것으로 설명하지만 제1 카메라(170)가 수집한 영상 이외에 별도로 텍스트 관련 이미지 제공을 위하여 제1 저장부(150)에 저장된 특정 영상 또는 특정 이미지가 제1 카메라(170)의 영상 신호를 대체할 수도 있다. 상기 영상 신호의 대체 기능은 제1 카메라(170)가 없는 송신측 단말기(100)에서 운용될 수도 있으며, 제1 카메라(170)가 있더라도 사용자 옵션 선택에 따라 제1 카메라(170)를 운용하지 않는 상황 즉 영상 통화를 수행하지 않는 통신 서비스 환경에서 이용될 수도 있다.

한편, 다시 도 3을 참조하면, 제1 TTS/STT 결정부(163)는 사용자 옵션에 따라 또는 수신측 단말기(200)로부터 수신된 수신측 단말기(200) 주변의 노이즈 측정값에 따라, 또는 제1 네트웍 모니터(162)의 네트웍 평가에 따라 STT 서비스 및 TTS 서비스 중 적어도 하나를 운용하도록 결정할 수 있다. 이를 위하여 제1 TTS/STT 결정부(163)는 제1 네트웍 모니터(162)로부터 네트웍 평가와 관련된 패킷 손실율, 지연 정도 등에 대한 정보를 수신할 수 있다. 또한 제1 TTS/STT 결정부(163)는 제1 네트웍 패킹/언패킹 지원부(161)로부터 수신측 단말기(200)가 전달한 노이즈 정보를 수신할 수 있다. 추가로 제1 TTS/STT 결정부(163)는 송신측 단말기(100) 주변 환경 평가에 따른 정보를 기반으로 TTS 서비스 및 STT 서비스 중 적어도 하나를 결정할 수 있다. 여기서 주변 환경 평가에 따른 정보는 송신측 단말기(100)가 포함하는 다양한 센서 및 제1 마이크(131)를 이용하여 수집되는 주변 온도 정보, 주변 조도 정보, 주변 노이즈 정보, 이동 정보, 위치 정보 중 적어도 하나를 포함할 수 있다. 결과적으로 제1 TTS/STT 결정부(163)는 송신측 단말기(100)가 위치한 지역에 따라, 또는 시간에 따라, 주변에서 검출되는 노이즈에 따라, 이동 속도나 이동 환경에 따라 TTS 서비스 또는 STT 서비스 수행 여부를 결정할 수 있다. 이러한 서비스 수행 여부 결정은 수신측 단말기(200)로부터 전달되는 정보를 기반으로 수행될 수도 있다. 즉 상술한 설명에서는 수신측 단말기(200)가 주변에서 검측되는 노이즈 정보만을 전송하는 것으로 설명하였지만, 상기 수신측 단말기(200)가 다양한 센서를 포함하여, 수신측 단말기(200)의 위치 정보나, 이동 속도나 이동 방향 및 이동 지역에 대한 정보, 수신측 단말기(200)가 위치한 지역의 시간 정보 등을 수집할 수 있다. 수신측 단말기(200)가 수집한 상기 정보들이 사전 정의된 TTS 서비스 또는 STT 서비스를 운용하기 위해 설정한 기준 값을 넘는 경우, 상기 제1 TTS/STT 결정부(163)는 상술한 정보들과 기 설정된 기준 값을 기반으로 TTS 서비스 또는 STT 서비스 운용을 제어할 수 있다. 여기서 상기 기준 값 비교는 제1 TTS/STT 결정부(163)가 수행할 수 있으나, 수신측 단말기(200)에서도 수행될 수 있다. 수신측 단말기(200)에서 기준 값 비교가 발생하는 경우, 제1 TTS/STT 결정부(163)는 수신측 단말기(200)로부터 상기 기준 값 비교에 따른 TTS 서비스 또는 STT 서비스 운용을 요청하는 메시지를 수신할 수 있다. 상술한 제1 TTS/STT 결정부(163)는 도 7에 도시된 바와 같은 구성을 포함할 수 있다.

도 7을 참조하면, 제1 TTS/STT 결정부(163)는 기본 결정부(31) 및 최종 결정부(33)를 포함할 수 있다.

기본 결정부(31)는 제1 입력부(120) 및 입력 기능의 제1 표시부(140)로부터 송신측 단말기(100)의 통신 서비스 선택 신호 예를 들면 송신측 단말기(100) 사용자에 의한 음성 통화 선택 신호 또는 본 발명의 음성 인식 기반 텍스트 제공 서비스 선택 신호 등을 수신할 수 있다. 또한 기본 결정부(31)는 송신측 단말기(100) 사용자가 수신측 단말기(200) 사용자와 이용하고자 하는 다른 통신 서비스 종류 예를 들면 영상 통화 서비스 또는 채팅 서비스 등을 선택하는 신호를 수신할 수 있다. 또한 기본 결정부(31)는 송신측 단말기(100) 사용자의 통신 서비스 연결 요청에 따라 수신측 단말기(200) 사용자가 응답한 통신 서비스 종류에 대한 신호를 확인할 수 있다. 기본 결정부(31)는 이러한 다양한 선택 신호에 따라 기본적으로 송신측 단말기(100)가 운용해야 할 통신 서비스 종류를 결정할 수 있다. 결정된 정보는 최종 결정부(33)에 전달될 수 있다.

최종 결정부(33)는 기본 결정부(31)가 전달한 정보와 기타 정보를 기반으로 송신측 단말기(100)가 운용하게 될 통신 서비스 종류를 최종 결정하는 구성이다. 즉 최종 결정부(33)는 기본 결정부(31)가 전달한 통신 서비스 종류의 운용을 기본으로 하되, 기타 정보에 의하여 선택된 통신 서비스 종류를 다른 종류로 변경하거나, 제한하도록 제어할 수 있다. 여기서 기타 정보는 네트웍의 패킷 손실 정보, 네트웍의 지연 정보 등을 포함하는 네트웍 평가 정보, 수신측 단말기(200)가 제공한 수신측 단말기(200)의 주변 노이즈 정보, 송신측 단말기(100)의 주변 노이즈 정보 중 적어도 하나를 포함할 수 있다. 그리고 네트웍 평가 정보는 송신측 단말기(100)와 수신측 단말기(200) 사이의 통신 네트웍, 송신측 단말기(100)와 제1 음성 처리 지원 장치(400) 사이의 통신 네트웍, 수신측 단말기(200)와 제2 음성 처리 지원 장치(500) 사이의 통신 네트웍 중 적어도 하나를 포함할 수 있다. 최종 결정부(33)는 상술한 정보들을 기반으로 어떠한 통신 서비스를 어떠한 형태로 제공할지를 결정할 수 있다. 예를 들어 최종 결정부(33)는 STT 서비스의 활성화 또는 비활성화 제어, TTS 서비스의 활성화 또는 비활성화 제어 중 적어도 하나를 수행할 수 있다.

다시 도 3을 참조하면, 제1 네트웍 모니터(162)는 제1 네트웍 패킹/언패킹 지원부(161)로부터 네트웍 관련 정보를 수신한다. 그리고 제1 네트웍 모니터(162)는 해당 네트웍 관련 정보를 기반으로 현재 네트웍 상태에 대한 정보를 수집할 수 있다. 즉 제1 네트웍 모니터(162)는 현재 네트웍 상태에서의 패킷 손실율, 현재 네트웍 상태에서의 패킷 전달 지연 정도나 전달 속도 등에 대한 정보를 수집할 수 있다. 그리고 제1 네트웍 모니터(162)는 수집된 해당 정보를 제1 TTS/STT 결정부(163)에 제공할 수 있다. 제1 네트웍 모니터(162)는 이러한 정보 수집을 위하여 사전 정의된 테스트 신호를 제1 네트웍 패킹/언패킹 지원부(161)를 통하여 수신측 단말기(200)와 송수신할 수 있다. 이후 제1 네트웍 모니터(162)는 전송한 테스트 신호와 수신된 테스트 신호를 비교하여 네트웍 평가를 수행할 수 있다. 이때 제1 네트웍 모니터(162)는 수신측 단말기(200)와의 네트웍 평가뿐만 아니라 제1 음성 처리 지원 장치(400)와의 네트웍 평가 또한 수행할 수 있다. 제1 네트웍 모니터(162)가 수집한 네트웍 평가 결과는 수신측 단말기(200)에 전송될 수도 있다. 추가로 제1 네트웍 모니터(162)는 별도의 테스트 신호를 이용하지 않고, 수신측 단말기(200)와 통신 서비스 채널을 형성한 이후 송수신되는 음성 데이터나 영상 데이터를 테스트 신호로 대체하여 네트웍 평가를 수행할 수도 있다.

제1 네트웍 패킹/언패킹 지원부(161)는 제1 통신부(110)의 활성화 제어, 제1 통신부(110)를 통한 수신측 단말기(200)와의 특정 통신 서비스 채널 형성 등을 지원할 수 있다. 이러한 제1 네트웍 패킹/언패킹 지원부(161)는 제1 STT 매니저(164)가 전달하는 음성 데이터, 텍스트, 음성 인식된 텍스트 중 적어도 하나를 패킹하여 제1 통신부(110)를 통하여 수신측 단말기(200)에 전달할 수 있다. 또한 제1 네트웍 패킹/언패킹 지원부(161)는 제1 TTS 매니저(165)가 전달하는 텍스트, 텍스트를 변환한 음성 데이터 중 적어도 하나를 패킹하여 제1 통신부(110)를 통하여 수신측 단말기(200)에 전달할 수 있다. 또한 제1 네트웍 패킹/언패킹 지원부(161)는 미디어 동기화부(166)로부터 전달되는 영상 프레임을 패킹할 수 있다. 이때 제1 네트웍 패킹/언패킹 지원부(161)가 패킹하는 영상 프레임은 현재 제공되는 통신 서비스 종류에 따라 제1 비디오 처리부(169)가 처리한 영상 데이터, 제1 STT 매니저(164)가 제공한 텍스트 관련 이미지가 혼합된 영상 데이터 중 적어도 하나를 포함할 수 있다.

상기 제1 네트웍 패킹/언패킹 지원부(161)는 또한 제1 통신부(110)를 통하여 수신측 단말기(200)로부터 수신되는 신호를 언패킹하는 기능을 수행한다. 즉 제1 네트웍 패킹/언패킹 지원부(161)는 제1 통신부(110)가 수신한 데이터들 중에 수신측 단말기(200)가 제공한 노이즈 정보를 확인하고 이를 제1 TTS/STT 결정부(163)에 제공할 수 있다. 또한 제1 네트웍 패킹/언패킹 지원부(161)는 수신측 단말기(200)가 제공한 수신측 단말기(200)의 음성 데이터 및 텍스트를 확인하고 이를 제1 TTS/STT 결정부(163)에 전달할 수 있다. 그리고 제1 네트웍 패킹/언패킹 지원부(161)는 제1 네트웍 모니터(162)의 네트웍 평가 지원을 위하여 사전 정의된 테스트 신호를 수신측 단말기에 전송하거나, 수신측 단말기(200)가 전송하는 테스트 신호를 제1 네트웍 모니터(162)에 전달할 수 있다.

상술한 바와 같이 본 발명의 제1 실시 예에 따른 송신측 단말기(100)는 STT 서비스 및 TTS 서비스 중 적어도 하나를 사용자 요청에 따라, 단말기 설정에 따라, 주변 환경 정보나 네트웍 정보 등에 따라 적응적으로 운용할 수 있도록 지원한다. 또한 본 발명의 제1 실시 예에 따른 송신측 단말기(100)는 STT 서비스 및 TTS 서비스를 영상 통화 서비스 화면 및 채팅 서비스 화면을 기반으로도 지원할 수 있어, 다른 통신 서비스와 함께 복합적인 운용이 가능하도록 지원할 수 있다.

한편, 다시 도 2를 참조하면, 수신측 단말기(200)는 제2 통신부(210), 제2 입력부(220), 제2 마이크(231), 제2 스피커(233), 제2 카메라(270), 제2 저장부(250), 제2 표시부(240) 및 제2 제어부(260)의 구성을 포함할 수 있다.

이와 같은 구성을 가지는 수신측 단말기(200)는 송신측 단말기(100)의 통신 서비스 연결 요청 및 사용자가 결정한 입/출력 모드에 해당하는 사용자 조작에 따라 해당 통신 서비스를 연결하도록 지원한다. 여기서 사용자가 결정한 입/출력 모드는 STT 서비스 및 TTS 서비스 중 적어도 하나를 운용하도록 결정함에 따른 모드가 될 수 있다. 이때 수신측 단말기(200)는 수신측 단말기(200) 사용자 요청에 따라 특정 통신 서비스 방식에 따라 운용되도록 송신측 단말기(100)에 요청할 수 있다. 예를 들어 송신측 단말기(100)에서 음성 통화 서비스 연결을 요청한 경우 수신측 단말기(200)는 사용자 요청에 따라 수신 기능은 음성 인식 기반 텍스트 서비스를 이용하되, 송신 기능은 텍스트 전송 서비스 또는 TTS 서비스를 이용하도록 송신측 단말기(100)에 요청할 수 있다. 이후 수신측 단말기(200)는 송신측 단말기(100)가 해당 요청을 수락하는 경우 요청한 방식을 기반으로 통화 서비스에 필요한 데이터 처리 및 송수신을 지원할 수 있다.

이를 위하여 제2 통신부(210)는 송신측 단말기(100)의 제1 통신부(110)와 통신 채널을 형성할 수 있다. 이러한 제2 통신부(210)는 제1 통신부(110)와 동일한 통신 모듈 또는 제1 통신부(110)와 통신 채널 형성이 가능한 통신 모듈로 구성될 수 있다. 예를 들어 제2 통신부(210)는 이동통신 모듈이 될 수 있으며, 이 경우 기지국을 통하여 제1 통신부(110)와 통신 채널을 형성할 수 있다. 제2 통신부(210)가 형성하는 통신 채널은 제1 통신부(110)와 유사하게 음성 통화 서비스 채널, 영상 통화 서비스 채널, 문자 서비스 채널을 지원하는 영상 데이터에 텍스트 관련 이미지를 통합한 서비스 지원 채널 등을 포함할 수 있다. 또한 제2 통신부(210)는 제1 통신부(110)와 채팅 서비스 채널을 형성할 수도 있다. 제2 통신부(210)는 채팅 서비스 채널 형성과 함께 상술한 음성 통화 서비스 채널, 영상 통화 서비스 채널, 문자 서비스 채널 중 적어도 하나를 추가로 형성하거나, 상기 채팅 서비스 채널을 기반으로 음성 데이터, 영상 데이터, 텍스트 중 적어도 하나를 송수신하도록 지원할 수 있다. 또한 제2 통신부(210)는 영상 통화 서비스 채널을 기반으로 하되 수신될 음성 데이터를 텍스트로 출력하는 STT 서비스를 지원을 위한 채널을 형성할 수 있다.

제2 입력부(220)는 수신측 단말기(200) 운용을 위해 필요한 입력 신호를 생성하는 구성이다. 이러한 제2 입력부(220)는 키 버튼, 사이드키, 메뉴키, 홈키 등 다양한 키를 포함하여 구성될 수 있다. 또는 제2 입력부(220)는 터치 패널과 표시 패널 상에 표시되는 터치 맵을 포함하는 제2 표시부(240) 구성으로 마련될 수도 있다. 이러한 제2 입력부(220)는 송신측 단말기(100)로부터 통신 서비스 연결 요청이 수신되는 경우, 해당 통신 서비스 연결을 거부하거나 수락하기 위한 입력 신호, 수락에 따른 통신 서비스 연결에 따라 송신측 단말기(100)가 연결 요청한 통신 서비스 운용을 위한 입력 신호, 사용자 설정이나 제2 제어부(260) 제어에 따라 송신측 단말기(100)가 요청한 통신 서비스 방식과 다른 방식의 통신 서비스 연결을 요청하는 입력 신호, 선택된 다른 방식의 통신 서비스 연결에 따라 해당 통신 서비스 운용을 위한 입력 신호 등을 사용자 제어에 따라 생성할 수 있다. 여기서 통신 서비스 방식은 STT 서비스 지원 방식, TTS 서비스 지원 방식 중 적어도 하나를 포함할 수 있으며, 상기 STT 서비스 및 TTS 서비스는 음성 통화, 영상 통화, 채팅 등 다양한 통신 방식과 함께 동시에 수행될 수 있다. 추가로 제2 입력부(220)는 통신 서비스 연결 해제 또는 종료를 위한 입력 신호를 사용자 제어에 따라 생성할 수 있다.

제2 마이크(231)는 수신측 단말기(200)의 오디오 신호를 수집하는 구성이다. 이러한 제2 마이크(231)는 수신측 단말기(200) 사용자의 음성 신호를 수집하고 이를 제2 제어부(260)에 전달할 수 있다. 한편 제2 마이크(231)는 제2 제어부(260) 제어에 따라 노이즈 정보 수집을 위하여 주변 오디오 신호의 수집 및 전달을 수행할 수도 있다. 제2 마이크(231)는 음성 통화 서비스가 운용 중인 경우 활성화될 수 있으며, 또한 앞서 설명한 바와 같이 노이즈 정보 수집을 위하여 별도의 음성 통화 서비스 운용이 수행되지 않더라도 활성화되어 사전 정의된 일정 시간 동안 수신측 단말기(200)의 주변 오디오 신호를 수집할 수 있다. 이러한 제2 마이크(231)는 채팅 서비스 채널 및 영상 통화 서비스 채널 중 적어도 하나가 운용 중인 상태에서 추가적으로 음성 통화 서비스를 지원하거나 또는 음성 인식 기반 텍스트 제공 서비스 수행을 위해 활성화될 수 있다.

제2 스피커(233)는 수신측 단말기(200)의 오디오 신호의 출력을 지원하는 구성이다. 이러한 제2 스피커(233)는 수신측 단말기(200)의 오디오 파일 재생에 따른 오디오 신호의 출력, 제2 통신부(210)가 수신한 오디오 신호의 출력 등을 지원할 수 있다. 특히 제2 스피커(233)는 특정 통신 서비스가 운용 중일 경우 제2 제어부(260)의 제어에 따라 활성화되어 오디오 신호의 출력을 지원할 수 있다. 또한 제2 스피커(233)는 특정 통신 서비스 선택에 따라 오디오 신호 출력을 제안할 수 있다. 예를 들어 제2 스피커(233)는 송신측 단말기(100)와 음성 통화 서비스나 영상 통화 서비스를 운용 중인 경우 활성화되어 송신측 단말기(100)가 전송한 오디오 신호를 출력할 수 있다. 한편 제2 스피커(233)는 송신측 단말기(100)와 음성 인식 기반 텍스트 제공 서비스를 수신 기능을 운용 중인 경우 영상 통화 서비스를 운용 중이라 하더라도 별도의 오디오 신호 출력을 중지할 수 있다. 그리고 제2 스피커(233)는 TTS 서비스 지원 중인 경우 송신측 단말기(100)의 사용자가 입력한 텍스트에 대응하는 음성 신호를 출력할 수 있다.

제2 카메라(270)는 수신측 단말기(200)의 영상 통화 서비스 지원 및 피사체의 영상을 수집하기 위한 구성이다. 이를 위하여 제2 카메라(270)는 영상 통화 서비스 지원을 위한 카메라 및 피사체 영상 수집을 위한 카메라를 포함하는 복수개로 구성될 수도 있다. 한편 제2 카메라(270)는 수신측 단말기(200) 사용자의 통신 서비스 선택에 따라 활성화될 수 있으며, 제2 카메라(270)가 수집한 영상은 제2 통신부(210)를 통하여 송신측 단말기(100)에 전송될 수 있다. 제2 카메라(270)는 수신측 단말기(200)가 별도의 영상 통화 서비스를 지원하지 않는 경우 생략될 수도 있다.

제2 저장부(250)는 수신측 단말기(200) 운용에 필요한 다양한 응용 프로그램 및 기본 동작 지원을 위한 운영체제를 포함할 수 있다. 또한 제2 저장부(250)는 송신측 단말기와 유사하게 제1 저장부(150)에 저장된 각 구성들 즉 음성 인식 데이터베이스, 음성 전환 데이터베이스, 기준 값들을 포함할 수 있다. 특히 제2 저장부(250)는 제1 저장부(150)에서의 음성 인식 데이터베이스(153)와 동일한 또는 구별되는 별도의 음성 인식 데이터베이스를 저장할 수 있다. 제2 저장부(250)에 저장된 음성 인식 데이터베이스는 수신측 단말기(200) 사용자에게 특화된 정보가 될 수 있다. 즉 제2 저장부(250)에 저장되는 음성 인식 데이터베이스는 수신측 단말기(200) 사용자의 음성 데이터를 텍스트 데이터로 전환하도록 구성된 정보가 될 수 있다.

제2 표시부(240)는 수신측 단말기(200) 운용에 필요한 다양한 화면을 제공하는 구성이다. 또한 제2 표시부(240)는 입력 기능을 지원하도록 마련될 수 있다. 이를 위하여 제2 표시부(240)는 터치 패널과 표시 패널의 중첩된 구성을 포함할 수 있다. 상기 제2 표시부(240)는 송신측 단말기(100)의 통신 서비스 연결 요청을 알리기 위한 화면, 송신측 단말기(100)와 연결 가능한 통신 서비스 종류 중 어느 하나를 선택할 수 있는 화면, 사용자 선택에 따라 또는 디폴트로 설정된 특정 통신 서비스 종류에 따라 운용되는 화면 등을 출력할 수 있다. 제2 표시부(240)를 통하여 제공되는 수신측 단말기(200)의 화면 예시들에 대하여 후술하는 도면들을 참조하여 보다 상세히 설명하기로 한다.

제2 제어부(260)는 수신측 단말기(200) 운용에 필요한 신호 제어와 신호 처리 및 신호의 전달을 지원하는 구성이다. 또한 제2 제어부(260)는 수신측 단말기(200)의 전원 공급과 슬립 모드 진입 및 통신 서비스 운용에 필요한 다양한 신호 전달과 처리를 지원할 수 있다. 이러한 제2 제어부(260)는 도 8과 같은 구성을 포함할 수 있다.

도 8은 본 발명의 제1 실시 예에 따른 수신측 단말기(200)의 제2 제어부(260) 구성을 보다 상세히 나타낸 도면이다.

도 8을 참조하면, 본 발명의 제2 제어부(260) 구성은 제2 네트웍 패킹/언패킹 지원부(261), 제2 네트웍 모니터(262), 노이즈 측정부(201), 제2 음성 처리부(267), 제2 텍스트 처리부(268), 제2 비디오 처리부(269), 이미지 통합부(266)를 포함할 수 있다.

제2 네트웍 패킹/언패킹 지원부(261)는 제2 통신부(210)를 통하여 수신되는 송신측 단말기(100)의 신호를 언패킹하고, 해당 데이터의 특성에 따라 제2 네트웍 모니터(262), 제2 음성 처리부(267), 제2 텍스트 처리부(268), 제2 비디오 처리부(269) 중 적어도 하나에 전달할 수 있다. 즉 제2 네트웍 패킹/언패킹 지원부(261)는 수신된 신호에서 네트웍 평가와 관련된 테스트 신호가 수신되는 경우 이를 제2 네트웍 모니터(262)에 전달할 수 있다. 그리고 제2 네트웍 패킹/언패킹 지원부(261)는 수신된 신호 중에 음성 신호를 제2 음성 처리부(267)에 전달하며, 텍스트를 제2 텍스트 처리부(268)에 전달할 수 있다. 제2 네트웍 패킹/언패킹 지원부(261)는 수신된 신호 중에 영상 프레임에 해당하는 영상 데이터가 포함된 경우 해당 영상 데이터를 제2 비디오 처리부(269)에 전달할 수 있다.

한편 제2 네트웍 패킹/언패킹 지원부(261)는 수신된 신호 중에 음성 인식된 텍스트와 영상 데이터가 각각 구분되어 수신된 경우 이를 각각 제2 텍스트 처리부(268) 및 제2 비디오 처리부(269)에 전달할 수 있다. 실질적으로 제2 네트웍 패킹/언패킹 지원부(261)는 음성 인식된 텍스트 전달을 위한 별도의 텍스트 서비스 채널과 영상 데이터 전송을 위한 별도의 영상 서비스 채널을 각각 형성하고, 해당 서비스 채널들을 통하여 상술한 각 신호들을 수신하는 경우 제2 텍스트 처리부(268) 및 제2 비디오 처리부(269)에 전달할 수 있다. 영상 데이터에 음성 인식된 텍스트가 포함된 경우 제2 네트웍 패킹/언패킹 지원부(261)는 해당 영상 데이터를 제2 비디오 처리부(269)에 전달할 수 있다.

제2 네트웍 모니터(262)는 제2 네트웍 패킹/언패킹 지원부(261)로부터 테스트 신호를 수신하고, 수신된 테스트 신호를 기반으로 네트웍 평가를 수행할 수 있다. 여기서 상기 테스트 신호는 송신측 단말기(100)가 전송한 사전 정의된 신호이거나 수신측 단말기(200)가 송신측 단말기(100)에 전송한 신호에 대한 회신 신호가 될 수 있다. 제2 네트웍 모니터(262)는 상기 테스트 신호를 기반으로 송신측 단말기(100)와 수신측 단말기(200) 사이의 패킷 손실율과 네트웍에서의 패킷 전송 지연 정도를 확인할 수 있다. 또한 제2 네트웍 모니터(262)는 상술한 신호를 제2 음성 처리 지원 장치(500) 간의 네트웍 평가를 위해 이용할 수도 있다. 즉 제2 네트웍 모니터(262)는 테스트 신호를 제2 음성 처리 지원 장치(500)에 전달하여 제2 음성 처리 지원 장치(500)와 수신측 단말기(200) 사이의 네트웍 상태를 확인할 수 있다. 제2 음성 처리 지원 장치(500)와의 네트웍 상태에 대한 정보는 송신측 단말기(100)에 전송될 수 있다.

노이즈 측정부(201)는 수신측 단말기(200)의 주변 노이즈 신호를 측정하는 구성이다. 이러한 노이즈 측정부(201)는 제2 마이크(231)가 전달하는 오디오 신호에서 노이즈 성분이 얼마만큼 포함되어 있는지를 확인할 수 있다. 특히 노이즈 측정부(201)는 송신측 단말기(100)의 통신 서비스 연결 요청이 발생하는 경우 제2 마이크(231)를 활성화하고, 제2 마이크(231)에서 수집되는 신호의 노이즈 정도를 검출할 수 있다. 노이즈 측정부(201)는 측정된 노이즈 정보를 제2 네트웍 패킹/언패킹 지원부(261)를 통하여 송신측 단말기(100)에 전달할 수 있다. 또한 노이즈 측정부(201)는 측정된 노이즈 정보에 따라 자동으로 특정 통신 서비스 예를 들면 음성 신호를 인식하여 텍스트로 전송하는 STT 서비스 송신 기능을 활성화하도록 제어할 수 있다. 이 과정에서 노이즈 측정부(201)는 음성 인식의 인식율 개선을 위하여 노이즈 제거를 위한 필터링 과정을 수행하고, 필터링된 음성 신호를 음성 인식 처리하도록 지원할 수 있다.

제2 음성 처리부(267)는 제2 네트웍 패킹/언패킹 지원부(261)로부터 영상 프레임이 전달되면 이를 디코딩하는 구성이다. 이를 위하여 제2 음성 처리부(267)는 음성 처리를 위한 디코딩 모듈을 포함할 수 있다. 제2 음성 처리부(267)가 처리한 영상 프레임 또는 오디오 신호는 통신 서비스 종류에 따라 제2 스피커(233)를 통하여 전달될 수 있다. 한편 이어폰이 연결된 경우 제2 음성 처리부(267)가 처리한 오디오 신호는 이어폰 또는 근거리 통신 모듈을 통하여 타 출력 장치에 전달될 수도 있다.

제2 텍스트 처리부(268)는 제2 네트웍 패킹/언패킹 지원부(261)로부터 텍스트를 수신한 경우 이를 처리하는 구성이다. 제2 텍스트 처리부(268)가 처리한 텍스트는 이미지 통합부(266)에 전달될 수 있다.

제2 비디오 처리부(269)는 제2 네트웍 패킹/언패킹 지원부(261)로부터 영상 데이터를 수신하는 경우 이를 처리하는 구성이다. 즉 제2 비디오 처리부(269)는 영상 데이터를 복호하는 복호 모듈로 구성될 수 있다. 제2 비디오 처리부(269)가 복호한 영상 데이터는 이미지 통합부(266)에 전달될 수 있다.

이미지 통합부(266)는 제2 텍스트 처리부(268) 및 제2 비디오 처리부(269)로부터 각각 텍스트 및 영상 데이터를 전달받는 경우 해당 신호들을 통합하는 구성이다. 이때 이미지 통합부(266)는 해당 신호들의 동기를 조정하여 통합하고, 통합 이미지를 제2 표시부(240)를 통하여 출력하도록 지원할 수 있다. 이를 위하여 이미지 통합부(266)는 각 데이터에 포함된 타임스탬프를 확인하고 타임스탬프가 서로 일치하도록 텍스트를 영상 데이터에 통합할 수 있다.

상술한 설명에서 수신측 단말기(200)는 STT 서비스 및 TTS 서비스 중 적어도 하나를 운용하도록 결정하기 위한 정보로서 노이즈 정보 수집 이외에 다른 주변 환경 정보 수집을 수행할 수 있다. 이를 위하여 수신측 단말기(200)는 앞서 설명한 바와 같이 다양한 센서들을 포함할 수 있으며, 각 센서들을 이용하여 수집된 정보는 노이즈 정보와 같이 STT 서비스 및 TTS 서비스 중 적어도 하나를 운용하기 위한 기준 값과 비교될 수 있다.

상술한 바와 같이 본 발명의 실시 예에 따른 통신 서비스 운용 시스템(10)은 송신측 단말기(100)가 제1 음성 처리 지원 장치(400)를 이용하여 음성 인식을 통한 텍스트를 생성하고 이를 수신측 단말기(200)에 전송하는 사례에 대하여 설명하였다. 이하에서는 상술한 단말기들의 운용 화면에 대하여 보다 상세히 설명하기로 한다.

도 9 내지 도 12는 본 발명의 제1 실시 예에 따른 통신 서비스 운용을 지원하기 위한 다양한 화면 인터페이스를 나타낸 도면이다.

특히, 도 9는 본 발명의 제1 실시 예에 따른 송신측 단말기(100)의 음성 인식 기능 운용을 위한 화면 인터페이스를 나타낸 도면이다.

도 9를 참조하면, 송신측 단말기(100)는 사용자 요청에 따라 전화번호 입력을 위한 입력 화면을 901 화면에서와 같이 출력할 수 있다. 또는 송신측 단말기(100)는 수신측 단말기(200)의 전화번호 등록이 있는 경우 사용자 제어에 따라 폰북 정보 화면을 제1 표시부(140)에 출력할 수 있다. 한편 사용자는 901 화면을 이용하여 수신측 단말기(200)의 전화번호 입력을 수행할 수 있다. 입력된 전화번호는 도시된 바와 같이 화면 일정 영역에 출력될 수 있다.

전화번호 입력이 완료된 후 "통화"연결을 위한 입력 신호가 발생하면 송신측 단말기(100)는 903 화면에서와 같이 입력된 전화번호에 대응하는 수신측 단말기(200)와 통신 서비스 연결을 위한 화면을 출력할 수 있다. 이 과정에서 송신측 단말기(100)는 수신측 단말기(200)와 통신 서비스 연결을 위하여 제1 통신부(110)를 활성화하고, 통신 서비스 지원을 위해 마련된 기지국을 통하여 통화 연결 요청 메시지를 수신측 단말기(200)에 전달할 수 있다. 한편 송신측 단말기(100)의 제1 표시부(140)는 음성 인식 기반 텍스트 제공 기능인 STT 서비스 활성화를 선택할 것인지 여부를 확인하기 위한 제1 팝업창(910)을 출력할 수 있다.

송신측 단말기(100) 사용자가 제1 팝업창(910)을 통하여 STT 서비스 활성화를 선택하는 경우, 송신측 단말기(100)는 905 화면에서와 같이 STT 서비스 지원을 위한 제1 음성 처리 지원 장치(400) 연결을 수행할 수 있다. 이 과정에서 송신측 단말기(100)는 제1 음성 처리 지원 장치(400)와의 연결을 위하여 사전 저장된 제1 음성 처리 지원 장치(400)의 주소 정보를 이용하여 제1 음성 처리 지원 장치(400)에 접속할 수 있다. 이때 필요한 송신측 단말기(100)는 통신 시스템(300)을 통하여 제1 음성 처리 지원 장치(400)에 접속할 수도 있다.

제1 음성 처리 지원 장치(400) 접속이 완료되면, 송신측 단말기(100)는 제1 마이크(131)가 수집한 음성 신호를 제1 음성 처리 지원 장치(400)에 전달할 수 있다. 그러면 송신측 단말기(100)는 제1 음성 처리 지원 장치(400)로부터 수신한 음성 데이터에 대응하는 텍스트를 수신할 수 있다. 이때 수신된 텍스트는 다시 통신 시스템(300)을 통하여 수신측 단말기(200)에 전달될 수 있다. 또한 수신된 텍스트는 907 화면에서와 같이 제1 표시부(140) 일측에 별도로 마련된 송신 텍스트 영역(930)에 출력될 수 있다. 한편 송신측 단말기(100)는 수신측 단말기(200)가 전송한 텍스트를 수신 텍스트 영역(920)에 출력할 수 있다. 여기서 송신측 단말기(100)는 음성 인식한 텍스트를 출력하는 송신 텍스트 영역(930)을 제1 표시부(140)에 출력하지 않도록 제어할 수도 있다.

여기서 송신측 단말기(100) 및 수신측 단말기(200) 중 적어도 하나가 TTS 서비스를 활성화하도록 요청하고, 송신측 단말기(100) 사용자가 TTS 서비스를 운용하도록 수락하거나 또는 TTS 서비스가 디폴트로 운용되도록 설정된 경우, 수신측 단말기(200)가 전송한 텍스트는 음성 데이터 및 음성 신호로 전환되어 제1 스피커(133)를 통하여 출력될 수도 있다. 이때 음성 데이터로 전환되는 과정은 수신측 단말기(200)에서 텍스트가 음성 데이터로 전환되어 전달되는 과정 및 송신측 단말기(100)에서 텍스트가 음성 데이터로 전환되어 전달되는 과정 중 적어도 하나의 과정을 포함할 수 있다.

한편 상술한 설명에서는 수신측 단말기(200) 전화번호 입력 후 STT 서비스 수행 여부를 선택하도록 설명하였으나, 선행적으로 STT 서비스 수행 여부 선택에 따라 901 화면이 출력될 수 있다. 이를 위하여 송신측 단말기(100)는 STT 서비스 활성화를 선택할 수 있는 화면을 제공하고, 해당 항목이 선택되면, 901 화면 출력 후 903 화면 출력을 지원하지 않고, 905 화면으로 진입할 수 있다. 한편 상기 송신측 단말기(100)는 제1 팝업창(910)을 통하여 STT 서비스 운용을 선택할 수 있도록 지원하는 것으로 설명하였지만 상기 제1 팝업창(910)은 STT 서비스 및 TTS 서비스 중 적어도 하나를 선택할 수 있도록 제공될 수도 있다. 그러면 사용자는 상기 제1 팝업창(910)에 출력된 항목 선택을 통하여 수신측 단말기(200)에게 STT 서비스 및 TTS 서비스 중 적어도 하나를 운용하도록 요청할 수 있다.

도 10은 본 발명의 제1 실시 예에 따른 음성 인식 기반의 텍스트 제공 서비스의 자동 수행 또는 자동 추천을 설명하기 위한 도면이다.

도 10을 참조하면, 송신측 단말기(100)는 1001 화면에서와 같이 수신측 단말기(200)와 통화 연결을 위한 화면을 출력할 수 있다. 이를 위하여 사용자는 수신측 단말기(200)의 전화번호를 입력하거나 또는 수신측 단말기(200)에 대응하는 폰북 정보를 선택할 수 있다. 그러면 제1 표시부(140)는 도시된 바와 같이 해당 수신측 단말기(200)와 통화 연결을 위한 화면을 제공할 수 있다.

이 과정에서 사용자가 "통화"를 위한 입력 신호를 생성하는 경우, 송신측 단말기(100)의 제1 표시부(140)는 1003 화면에서와 같이 네트웍 평가 정보 및 노이즈 정보 중 적어도 하나를 출력하고, 음성 인식 기반 텍스트 제공 서비스를 자동 수행함을 지시하는 안내를 출력할 수 있다. 이를 위하여 송신측 단말기(100)는 수신측 단말기(200) 사이에 형성된 네트웍 평가를 위한 사전 정의된 테스트 신호를 통신 시스템(300) 및 수신측 단말기(200)에 전송 및 피드백 받을 수 있다. 한편 제1 표시부(140)에 출력된 노이즈 정보는 송신측 단말기(100)의 제1 마이크(131)에서 수집된 오디오 신호의 노이즈 정보 및 수신측 단말기(200)의 제2 마이크(231)에서 수집된 오디오 신호의 노이즈 정보 중 적어도 하나가 될 수 있다. 즉 도시된 도면에서는 하나의 노이즈 정보만 표시하는 것으로 나타내었으나, 제1 표시부(140)는 송신측 단말기(100)의 노이즈 정보 및 수신측 단말기(200)의 노이즈 정보를 각각 출력할 수 있다. 또는 제1 표시부(140)는 수신측 단말기(200)로부터 수신된 노이즈 정보만을 출력할 수도 있다.

한편 송신측 단말기(100)는 네트웍 평가 정보 및 노이즈 정보 중 적어도 하나를 기반으로 음성 인식 기반 텍스트 제공 서비스 즉 STT 서비스를 자동으로 수행할지 여부를 결정할 수 있다. 이를 위하여 송신측 단말기(100)는 제1 저장부(150)에 저장된 기준 값들(157)을 이용할 수 있다. 그리고 송신측 단말기(100)는 STT 서비스를 자동으로 수행하는 경우 도시된 바와 같이 STT 서비스 자동 수행 중임을 사용자가 확인할 수 있도록 제공할 수 있다. 이때 송신측 단말기(100)는 STT 서비스 중지를 위한 사용자 편의를 위하여 도시된 바와 같이 중지 버튼을 화면 일측에 제공할 수 있다.

한편 송신측 단말기(100)는 STT 서비스 지원을 위하여 제1 마이크(131)에서 음성 신호가 수집되면, 해당 음성 신호를 음성 인식하여 텍스트로 전환할 수 있다. 이때 송신측 단말기(100)는 제1 음성 처리 지원 장치(400)를 이용하거나 제1 저장부(150)에 저장된 음성 인식 데이터베이스(153)를 이용할 수 있다. 이와 함께 송신측 단말기(100)는 현재 선택된 통신 서비스가 영상 통화 서비스인 경우 1005 화면에서와 같이 영상 통화 서비스에 대응하는 화면이 구성되도록 제1 표시부(140)를 제어할 수 있다. 즉 제1 표시부(140)는 송화자 화면 영역(1010) 및 수화자 화면 영역(1030)을 각각 포함하여 제공할 수 있다. 여기서 제1 표시부(140)에 출력되는 화면에는 음성 인식된 텍스트 정보가 함께 출력되는 영역이 마련될 수 있다. 즉 송신 텍스트 영역(1020)이 송화자 화면 영역(1010)의 인접된 영역에 배치될 수 있으며, 수신 텍스트 영역(1040)이 수화자 화면 영역(1030)의 인접된 영역에 배치될 수 있다. 추가로 제1 표시부(140)는 스피커 모드 전환을 위한 버튼 맵, 통화 서비스 종료를 위한 버튼 맵 등이 더 표시될 수 있다.

상술한 설명에서는 STT 서비스 자동 수행 조건으로 네트웍 평가 정보 및 노이즈 정보 중 적어도 하나를 예시적으로 설명하였지만 본 발명이 이에 한정되는 것은 아니다. 즉 수신측 단말기(200)는 노이즈 정보뿐만 아니라, 수신측 단말기(200)의 현재 위치 정보, 주변 조도 정보, 현재 시간 정보, 이동 정보 등에 따라 STT 서비스 또는 TTS 서비스를 자동으로 수행하도록 송신측 단말기(100)와 협상할 수 있다. 여기서 협상은 STT 서비스 및 TTS 서비스 중 적어도 하나를 운용하기 위해 송신측 단말기(100)와 수신측 단말기(200) 간의 신호 송수신을 포함한다.

이에 따라 본 발명의 수신측 단말기(200)는 현재 위치가 도서관과 같이 사용자가 사전 정의한 또는 지도 정보에 의하여 사전 정의된 특수한 위치인 경우, 영화관이나 실험실과 같이 단말기의 표시부 밝기가 주변에 영향을 미칠 수 있는 환경인 경우 등에 따라 적절한 STT 서비스 및 TTS 서비스 중 적어도 하나가 자동으로 수행되도록 지원할 수 있다. 또한 수신측 단말기(200)는 취침시간과 같이 특정 시간대인 경우, 차량 운전이나 운동 중인 경우 등 다양한 환경에 대해서 사용자가 기 설정한 STT 서비스 및 TTS 서비스 중 적어도 하나를 자동으로 운용하도록 지원할 수 있다.

상기 수신측 단말기(200)는 상술한 각 경우에 있어서 STT 서비스 및 TTS 서비스 중 적어도 하나가 수행되도록 설정하기 위한 화면 인터페이스를 제공할 수 있다. 사용자는 상기 화면 인터페이스를 통하여 상술한 각 경우들에 대한 단말기 운용을 설정할 수 있다. 추가로 상기 수신측 단말기(200)는 상술한 각 경우들에 대하여 설계자가 설계한 일정 경우들에 대한 디폴트로 기능 지원 스케줄을 가질 수 있으며, 사용자는 해당 스케줄 조정을 통하여 자신이 원하는 기능 설정을 조정할 수도 있다.

도 11은 본 발명의 제1 실시 예에 따른 수신측 단말기 요청에 따른 송신측 단말기의 음성 인식 기반의 텍스트 제공 서비스를 설명하기 위한 도면이다.

도 11을 참조하면, 먼저 송신측 단말기(100)와 수신측 단말기(200)는 상호 채팅 서비스 채널을 형성하고, 해당 채팅 서비스 채널을 통하여 채팅 메시지를 송수신할 수 있다. 이 경우 송신측 단말기(100)는 1101 화면에서와 같이 채팅 서비스 화면을 제1 표시부(140)에 출력할 수 있다. 도시된 도면에서는 송신측 단말기(100)와 수신측 단말기(200)가 일정 채팅 메시지를 송수신한 결과를 도시하였다.

한편 해당 화면에서 사용자가 수신측 단말기(200)의 채팅 메시지(1110)를 기 정의된 방식에 따라 선택하는 경우 1103 화면에서와 같이 수신측 단말기(200)와 다른 종류의 통신 서비스 연결 예를 들면 영상 통화 서비스 연결을 위한 화면으로 전환될 수 있다. 예를 들어 송신측 단말기(100) 사용자가 채팅 메시지(1110)를 롱-프레스하거나, 일정 횟수 이상 연속적으로 터치하거나, 기 설정된 제스처를 발생시키는 경우, 제1 제어부(160)가 채팅 메시지(1110)에 대응하는 수신측 단말기(200)의 전화번호를 자동으로 수집하고, 통화 연결을 수행할 것인지를 확인하기 위한 1103 화면을 제1 표시부(140)에 출력하도록 지원할 수 있다.

이때 송신측 단말기(100) 사용자가 통화 연결 요청을 위한 입력 신호를 생성하거나 그에 대응하는 이벤트를 발생시키면, 송신측 단말기(100)는 해당 통화 연결 요청 메시지를 수신측 단말기(200)에 전달할 수 있다. 여기서 송신측 단말기(100)는 수신측 단말기(200)로부터 음성 인식 기반 텍스트 제공 기능인 STT 기능으로서 통화 연결을 수행할 것을 요청하는 메시지를 수신하면 1105 화면에서와 같은 화면이 제1 표시부(140)에 출력될 수 있다. 즉 제1 표시부(140)는 수신측 단말기(200)가 STT 기반 통화 연결을 요청한 것을 표시하며, 해당 통화 연결 요청을 수락할 것인지를 묻는 수락 팝업창(1120)을 출력할 수 있다.

1105 화면에서 송신측 단말기(100) 사용자가 STT 기반 통화 연결을 수락하면, 송신측 단말기(100)는 1107 화면에서와 같이 STT 기반 통화 연결 수락에 따른 화면을 제1 표시부(140)에 출력할 수 있다. 이때 STT 기반 통화 연결 수락 화면은 1101 화면에 출력된 채팅 서비스 화면 상에 오버레이 되어 출력되거나, 화면 전환을 통하여 새로운 화면으로 구성될 수 있다. 또는 STT 기반 통화 연결 수락 화면은 영상 통화 화면의 기본 구성 기반으로 운용될 수도 있다. 즉 제1 표시부(140)는 도시된 바와 같이 송화자 화면 영역(1130), 수화자 화면 영역(1150), 송신할 음성 인식한 텍스트가 출력되는 송신 텍스트 영역(1140), 수신한 음성 인식한 텍스트가 출력되는 수신 텍스트 영역(1160)을 포함할 수 있다. 여기서 수화자 화면 영역(1150)은 수신측 단말기(200) 사용자의 요청에 따라 또는 수신측 단말기(200)가 영상 통화 미지원 단말기인 경우 별도의 영상 데이터를 출력하지 못할 수 있으며, 이 경우 수신측 단말기(200) 사용자가 지정한 특정 화면 또는 송신측 단말기(100)가 디폴트로 제공하는 특정 화면 예를 들면 회의 중임을 지시하는 화면을 출력될 수 있다.

한편 상술한 설명에서는 송신 텍스트 영역(1140) 및 수신 텍스트 영역(1160)이 모두 제1 표시부(140)에 출력되는 것으로 나타내었으나 본 발명이 이에 한정되는 것은 아니다. 즉 송신 텍스트 영역(1140) 및 수신 텍스트 영역(1160) 중 수신 텍스트 영역(1160)은 음성 인식된 텍스트가 아닌 수신측 단말기(200) 사용자가 입력한 문자 또는 채팅 메시지가 출력되는 영역으로 구성될 수 있다. 또는 해당 수신 텍스트 영역(1160)은 수신측 단말기(200)에만 제공되고 송신측 단말기(100)에는 생략되거나 TTS 서비스로 대체될 수 있다.

도 12는 본 발명의 제1 실시 예에 따른 수신측 단말기(200)의 STT 서비스 운용을 위한 화면 인터페이스를 설명하기 위한 도면이다.

도 12를 참조하면, 수신측 단말기(200)는 사용자 운용에 따라 특정 단말기 기능을 수행하거나 또는 1201 화면에서와 같이 슬립(Sleep) 상태를 유지할 수 있다. 여기서 슬립 상태는 일정 시간 동안 단말기 기능 사용을 위한 별도의 입력 신호 수신이 없거나, 슬립 상태 천이를 위한 입력 신호 발생에 따라 슬립 상태로 진입할 수 있다. 이러한 슬립 상태는 단말기의 전원 절약을 위하여 제2 표시부(240)에 공급되는 전원을 차단하도록 제어하되, 백그라운드 프로세싱을 통하여 수신측 단말기(200)의 고유 기능 또는 사용자 설정에 따른 기능을 유지하는 상태가 될 수 있다. 예를 들어 1201 화면에 나타낸 슬립 상태는 제2 표시부(240)의 전원 공급은 중지되어 있으나 제2 통신부(210)의 전원 공급은 유지하여 송신측 단말기(100)의 통화 연결 요청 메시지를 수신할 수 있는 상태가 될 수 있다.

한편 상술한 설명에서 수신측 단말기(200)의 상태가 슬립 상태를 유지하는 것으로 나타내었으나 본 발명이 이에 한정되는 것은 아니다. 즉 상기 1201 화면은 수신측 단말기(200) 사용자 제어에 따라 다양한 화면 상태가 될 수도 있다. 예를 들어 1201 화면은 수신측 단말기(200)에 저장된 특정 파일 재생을 위한 화면, 특정 서버 접속에 따라 해당 서버가 제공하는 페이지를 출력하는 화면, 카메라를 이용하여 수집된 영상을 출력하는 화면, 송신측 단말기(100)와 채팅 서비스를 운용 중인 화면 등이 될 수 있다. 이와 같이 수신측 단말기(200)의 1201 화면은 송신측 단말기(100)로부터 통신 서비스 연결 요청을 수신할 수 있는 상태 중 적어도 하나의 상태가 될 수 있다. 이하 설명에서는 수신측 단말기(200)가 슬립 상태를 유지하는 것을 예로 하여 설명하기로 한다.

수신측 단말기(200)는 송신측 단말기(100)로부터 통신 서비스 연결 요청 메시지를 수신할 수 있다. 그러면 수신측 단말기(200)는 1203 화면에서와 같이 송신측 단말기(100)로부터 통신 서비스 연결 요청 메시지를 수신하였음을 안내하기 위한 정보 출력을 지원할 수 있다. 예를 들어 수신측 단말기(200)는 제2 표시부(240)를 통하여 통신 서비스 연결 요청 메시지 수신을 알리는 텍스트나 이미지 중 적어도 하나를 출력할 수 있다. 추가로 수신측 단말기(200)는 사용자 설정에 따라 통신 서비스 연결 요청 메시지 수신에 대응하여 사전 정의된 오디오 신호나 진동, 램프 점멸 등을 운용할 수도 있다.

한편 수신측 단말기(200)는 송신측 단말기(100)가 연결을 요청한 방식으로 통신 서비스를 이용할 것인지 선택할 수 있는 "연결 항목(1210)", 수신측 단말기(200) 사용자 환경에 따라 특정 통신 서비스 예를 들면 본 발명의 음성 인식 기반의 텍스트 제공 서비스를 선택할 수 있는 "STT 서비스 항목(1220)"을 제2 표시부(240)에 출력할 수 있다. 사용자는 음성 통화 또는 영상 통화 등 송신측 단말기(100)가 연결을 요청한 통신 서비스를 이용하고자 할 경우 "연결 항목(1210)"을 선택할 수 있으며, 음성 등을 이용한 통신 서비스 이용이 곤란한 경우 "STT 서비스 항목(1220)"을 선택할 수 있다.

1203 화면에서 사용자가 "STT 서비스 항목(1220)"을 선택한 경우 수신측 단말기(200)는 송신측 단말기(100)에 STT 서비스 기반의 통신 서비스 연결을 위한 메시지를 전송할 수 있다. 그러면 송신측 단말기(100)는 설계 방식에 따라 제1 음성 처리 지원 장치(400) 또는 제1 저장부(150)에 저장된 음성 인식 데이터베이스(153)를 이용하여 제1 마이크(131)가 수집한 음성 신호를 음성 인식하여 텍스트를 생성하고 이를 수신측 단말기(200)에 전송할 수 있다. 수신측 단말기(200)는 송신측 단말기(100)로부터 음성 인식된 텍스트를 수신하면 이를 1205 화면에서와 같이 수신 텍스트 영역(1230)에 출력할 수 있다. 한편 수신측 단말기(200)는 텍스트를 송신측 단말기(100)에 전송하기 위하여 텍스트 입력 화면을 1205 화면에서와 같이 출력할 수 있다. 수신측 단말기(200)는 텍스트 입력 화면을 이용하여 특정 텍스트를 입력하여 송신측 단말기(100)에 전송될 수 있다. 수신측 단말기(200) 사용자가 입력한 텍스트는 송신 텍스트 영역(1240)에 출력될 수 있다. 이때 수신측 단말기(200)는 주변 오디오 신호 수집을 위하여 제2 마이크(231)를 활성화할 수 있으며, 제2 마이크(231)가 수집한 오디오 신호는 송신측 단말기(100)에 전송될 수 있다.

한편 상술한 설명에서는 1203 화면을 통하여 수신측 단말기(200) 사용자가 특정 통신 서비스를 선택할 수 있도록 지원하는 사례에 대하여 설명하였으나, 본 발명의 수신측 단말기(200)는 디폴트 설정에 따른 통신 서비스 연결을 지원할 수도 있다. 즉 디폴트 설정으로서 통신 서비스 연결 방식을 STT 서비스 기반으로 수행되도록 설정된 경우, 수신측 단말기(200)는 1203 화면에서 제공하는 통신 서비스 선택 기능 및 해당 화면 출력을 제거하고, 디폴트 설정에 따른 통신 서비스 연결 협상 및 해당 통신 서비스 지원을 위한 신호 처리를 지원할 수 있다.

그리고 상술한 설명에서는 STT 서비스 운용만을 예시적으로 설명하지만 본 발명이 이에 한정되는 것은 아니다. 즉 상기 STT 서비스는 TTS 서비스로 대체될 수 있으며, 또한 본 발명은 1207 화면에서와 같이 STT 서비스와 별개로 TTS 서비스 운용을 위한 화면이 추가 제공되어 사용자 요청에 따라 STT 서비스 및 TTS 서비스 중 적어도 하나를 선택 운용할 수 있도록 지원할 수 있다. 1207 화면에서 TTS 서비스 선택의 경우 1209 화면에서와 같이 본 발명은 TTS 서비스 지원을 위한 텍스트 작성기 및 작성된 텍스트를 송신측 단말기(100)에게 전송하는 화면으로 구성될 수 있다. 이때 수신측 단말기(200)의 제2 표시부(240)는 1209 화면에서와 같이 현재 TTS 서비스 지원 중임을 나타내는 정보를 화면 일측에 출력할 수 있다.

이상에서는 본 발명의 제1 실시 예에 따른 통신 서비스 운용을 위한 시스템과 각 시스템의 구성들의 역할 및 기능에 대하여 설명하였다. 이하에서는 본 발명의 통신 서비스 운용 방법에 대하여 도면을 참조하여 보다 상세히 설명하기로 한다.

도 13은 본 발명의 제1 실시 예에 따른 통신 서비스 운용 방법을 설명하기 위한 순서도이다.

도 13을 참조하면, 본 발명의 제1 실시 예에 따른 통신 서비스 운용 방법은 먼저, 1301 단계에서 송신측 단말기(100)가 수신측 단말기(200)에 통화 연결을 요청할 수 있다. 이를 위하여 송신측 단말기(100)는 수신측 단말기(200)의 전화번호 선택을 위한 과정을 수행하고, 사용자 요청에 따라 수신측 단말기(200)에 음성 통화 또는 영상 통화 중 어느 하나의 통신 서비스 연결을 요청하는 메시지를 전송할 수 있다. 여기서 송신측 단말기(100)는 사용자가 입력한 번호 정보를 기반으로 수신측 단말기(200)의 전화번호를 수집하거나, 폰북 정보 선택을 통하여 전화번호를 수집하거나, 채팅 서비스 환경에서 제공되는 전화번호를 수집할 수 있다. 송신측 단말기(100)는 수신측 단말기(200)와 통신 서비스 연결을 위하여 통신 시스템(300)에 해당 메시지를 전송할 수 있다.

다음으로 1303 단계에서 송신측 단말기(100)와 수신측 단말기(200)가 음성 인식 기반 텍스트 제공 기능인 STT 서비스 지원을 위한 협상을 수행할 수 있다. 이 협상 단계는 시스템 설계 방식에 따라 다양하게 변화될 수 있으나 결과적으로 본 발명의 음성 인식 기반 텍스트 제공 서비스 운용을 상호 인식하는 단계가 될 수 있다. 이를 위하여 송신측 단말기(100)는 1301 단계에서 STT 서비스 기반으로 통신 서비스를 운용할 것을 지시하는 메시지를 작성하여 수신측 단말기(200)에 전송할 수도 있다. 한편 수신측 단말기(200)는 1303 단계에서 송신측 단말기(100)에게 STT 서비스를 기반으로 통신 서비스를 운용하도록 요청하는 메시지를 전송할 수 있다.

송신측 단말기(100)는 해당 메시지 수신 시 수락을 통하여 수신측 단말기(200)에게 수집된 음성 신호를 음성 인식한 텍스트로서 제공하도록 지원할 수 있다. 즉 송신측 단말기(100)는 1305 단계에서 제1 음성 처리 지원 장치(400) 및 음성 인식 데이터베이스(153) 중 적어도 하나를 기반으로 텍스트를 생성할 수 있다. 여기서 송신측 단말기(100)는 디폴트로 제1 음성 처리 지원 장치(400)를 기반으로 음성 인식을 수행하다가 제1 음성 처리 지원 장치(400)와의 접속 상태가 좋지 않아 음성 인식이 정상적으로 수행되지 않는 경우 음성 인식 데이터베이스(153) 기반의 음성 인식을 수행하도록 제어할 수 있다. 또는 송신측 단말기(100)는 기본적으로 음성 인식 데이터베이스(153) 기반으로 음성 인식을 수행하고, 사용자가 결정한 입/출력 모드에 해당하는 사용자 조작에 따라 또는 제1 음성 처리 지원 장치(400) 접속 환경이 사전 설정된 값 이상인 경우 제1 음성 처리 지원 장치(400) 접속 및 음성 인식을 위한 데이터 송수신을 지원할 수 있다. 한편 상기 송신측 단말기(100)는 제1 음성 처리 지원 장치(400) 이용에 별도의 과금이 발생하는 경우 사용자 설정에 따라 음성 인식 데이터베이스(153) 기반의 음성 인식만을 수행하도록 지원할 수도 있다.

다음으로 송신측 단말기(100)는 1307 단계에서 생성된 텍스트를 수신측 단말기(200)에 전송할 수 있다. 이를 위하여 송신측 단말기(100)는 텍스트에 해당하는 패킷의 전송을 위한 통신 채널을 이용할 수 있다. 상기 통신 채널은 1301 단계에서 수신측 단말기(200) 사이에 형성된 통신 채널이거나 이전 수신측 단말기(200) 사이에 형성되던 통신 채널 예를 들면 채팅 서비스 채널이 될 수도 있다. 송신측 단말기(100)로부터 음성 인식된 텍스트를 수신하면 수신측 단말기(200)는 해당 텍스트를 제2 표시부(240)에 출력할 수 있다. 이때 수신측 단말기(200)는 송신측 단말기(100)와 영상 통화 채널을 형성한 경우, 송신측 단말기(100)로부터 영상 데이터를 해당 텍스트와 함께 수신할 수 있다. 이에 따라 수신측 단말기(200)는 영상 데이터 상에 해당 텍스트를 오버레이시켜 출력하거나 별도 영역을 할당하여 텍스트를 출력할 수 있다. 수신측 단말기(200)가 영상 데이터와 텍스트 데이터를 각각 출력하도록 시스템이 설계된 경우, 수신측 단말기(200)는 수신된 데이터들로부터 타임스탬프 정보를 획득하여 해당 데이터들의 출력 시 동기화되도록 제어할 수 있다. 송신측 단말기(100)가 영상 데이터와 텍스트를 합성하여 전송한 경우, 수신측 단말기(200)는 별도 타임스탬프 정보 수집 및 동기화 과정 없이 데이터 출력을 지원할 수 있다.

한편 수신측 단말기(200)는 1309 단계에서 사용자가 입력한 텍스트를 송신측 단말기(100)에 전송할 수 있다. 이를 위하여 수신측 단말기(200)는 텍스트 입력을 위한 입력창을 제2 표시부(240)에 출력할 수 있다. 사용자가 입력한 텍스트는 송신측 단말기(100)에 전송되고, 이 과정에서 입력된 텍스트는 제2 표시부(240)에도 출력될 수 있다. 추가로 수신측 단말기(200)는 STT 서비스 이용 중에 카메라를 활성화하고 주변 영상을 수집하여 송신측 단말기(100)에 전송하도록 지원할 수도 있다.

한편 상술한 1305 단계 내지 1309 단계는 송신측 단말기(100)와 수신측 단말기(200) 사이에 통신 서비스 채널이 해제되거나 또는 본 발명의 STT 서비스 해제를 위한 입력 신호 발생 이전까지 지속적으로 유지 및 수행될 수 있다.

예를 들어, 송신측 단말기(100)는 음성이나 영상 데이터를 기반으로 하는 통신 서비스를 제공하고 수신측 단말기(200)가 텍스트 기반의 통신 서비스를 제공할 수 있다. 즉 송신측 단말기(100)는 제1 마이크(131)를 이용하여 음성으로 정보를 전달하고, 수신측 단말기(200)는 해당 음성에 대한 텍스트를 출력함과 아울러 작성된 텍스트 전송으로서 정보 전달을 수행할 수 있다. 송신측 단말기(100)는 수신측 단말기(200)가 텍스트를 전송하면 이를 제1 표시부(140)에 출력할 수 있다.

영상 통화의 경우, 송신측 단말기(100)는 제1 마이크(131)와 제1 카메라(170)가 수집한 음성 및 영상을 기반으로 정보를 전달하고, 수신측 단말기(200)는 별도의 음성 신호 출력 없이 영상과 해당 음성 신호에 대응하는 텍스트 출력을 수행하는 한편 텍스트 작성을 통하여 정보 전달을 수행할 수 있다. 이때 수신측 단말기(200) 또한 카메라 및 마이크를 활성화하여 영상 및 오디오 신호를 송신측 단말기(100)에 전송할 수 있다. 그러면 송신측 단말기(100)는 수신측 단말기(200)가 전송한 영상 및 오디오 신호를 각각 제1 표시부(140) 및 제1 스피커(133)를 통하여 출력할 수 있다. 여기서 송신측 단말기(100)는 수신측 단말기(200)가 문자 입력을 통하여 작성한 텍스트를 전송하는 경우 해당 텍스트를 별도의 텍스트 영역 또는 영상 출력 영역 일측에 출력할 수 있다. 또는 송신측 단말기(100)는 사용자 설정 등에 따라 수신된 텍스트를 음성으로 전환하고 이를 제1 스피커(133)를 통하여 출력할 수도 있다.

도 14는 본 발명의 제2 실시 예에 따른 통신 서비스 운용을 위한 단말기들의 제어부 구성을 보다 상세히 나타낸 도면이다.

도 14를 참조하면, 본 발명의 제2 실시 예에 따른 통신 서비스 운용을 위한 단말기들은 수신측 단말기(200)에서 제2 음성 처리 지원 장치(500)를 이용하여 음성 신호를 음성 인식하고, 음성 인식에 따라 생성된 텍스트를 제2 표시부(240)에 출력하도록 지원한다. 이에 따라 송신측 단말기(100)는 수집되는 음성 신호에 대하여 별도의 음성 인식을 수행하지 않고, 수집된 음성 신호를 패킷 서비스 스위칭 망 기반으로 수신측 단말기(200)에 전송하도록 지원할 수 있다. 여기서 도 14에 나타낸 도면은 송신측 단말기(100) 및 수신측 단말기(200)의 제어부들(160, 260)의 구성을 나타낸 것이다.

본 발명의 송신측 단말기(100)의 제1 제어부(160)는 제1 네트웍 모니터(162), 제1 네트웍 패킹/언패킹 지원부(161), 제1 음성 처리부(167), 제1 텍스트 처리부(168), 제1 비디오 처리부(169) 및 미디어 동기화부(166)의 구성을 포함할 수 있다. 이와 같은 구성의 송신측 단말기(100)는 본 발명의 음성 인식 기반의 텍스트 제공 서비스 지원을 위하여 음성 신호 수집과 전송을 지원할 수 있다.

이를 보다 상세히 설명하면, 송신측 단말기(100)의 제1 제어부(160)는 사용자 요청에 따라 통신 서비스 연결 요청 메시지를 통신 시스템(300)을 통하여 수신측 단말기(200)에 전송하도록 제1 통신부(110) 제어를 수행할 수 있다. 이때, 제1 음성 처리부(167)는 제1 마이크(131)를 활성화하도록 제어하고, 제1 마이크(131)에서 수집된 음성 신호를 음성 데이터로 변환한 뒤, 이를 제1 네트웍 패킹/언패킹 지원부(161)에 전달할 수 있다. 제1 텍스트 처리부(168)는 제1 입력부(120) 및 입력 기능의 제1 표시부(140)에서 입력되는 입력 신호에 해당하는 텍스트를 생성하고, 해당 텍스트를 제1 네트웍 패킹/언패킹 지원부(161)에 전달할 수 있다. 또한 제1 텍스트 처리부(168)는 생성된 텍스트를 미디어 동기화부(166)에 전달할 수 있다. 제1 비디오 처리부(169)는 송신측 단말기(100)와 수신측 단말기(200) 간에 영상 통화 서비스가 운용 중인 경우 제1 카메라(170)를 활성화하고, 해당 제1 카메라(170)를 통하여 수집된 영상 신호를 영상 데이터로 전환한다. 그리고 제1 비디오 처리부(169)는 영상 데이터를 미디어 동기화부(166)에 전달할 수 있다. 미디어 동기화부(166)는 제1 텍스트 처리부(168) 및 제1 비디오 처리부(169)로부터 전달받은 텍스트 및 영상 데이터를 동기화하도록 제어하고, 동기화된 데이터를 제1 네트웍 패킹/언패킹 지원부(161)에 전달할 수 있다.

제1 네트웍 모니터(162)는 제1 네트웍 패킹/언패킹 지원부(161)를 통하여 네트웍 평가를 수행할 수 있다. 이를 위하여 제1 네트웍 모니터(162)는 사전 정의된 테스트 신호를 제1 네트웍 패킹/언패킹 지원부(161)를 통하여 수신측 단말기(200)에 전송하도록 제어할 수 있다. 이후 제1 네트웍 모니터(162)는 전송한 테스트 신호에 대응하는 신호를 수신하여 네트웍 평가를 수행할 수 있다. 또는 제1 네트웍 모니터(162)는 수신측 단말기(200)로 전송하는 음성 데이터, 텍스트, 영상 데이터 중 적어도 하나에 대하여 해당 신호에 대한 품질 피드백을 받고, 이를 기반으로 네트웍 평가를 수행할 수 있다. 또는 제1 네트웍 모니터(162)는 통신 시스템(300)이 제공하는 네트웍 품질과 관련된 정보 또는 수신측 단말기(200)가 제공하는 네트웍 품질과 관련된 정보를 기반으로 네트웍 평가를 수행할 수 있다. 제1 네트웍 모니터(162)가 결정한 네트웍 평가나 수신측 단말기(200)가 제공하는 수신측 단말기(200) 주변 환경에 대한 노이즈 정보 등은 송신측 단말기(100)의 STT 서비스 결정을 위해 이용될 수 있다.

제1 네트웍 패킹/언패킹 지원부(161)는 제1 음성 처리부(167)로부터 전달받은 음성 데이터, 제1 텍스트 처리부(168)로부터 전달받은 텍스트, 미디어 동기화부(166)로부터 전달받은 영상 데이터 중 적어도 하나를 수신측 단말기(200)에 전송할 수 있는 형태로 패킹한다. 그리고 제1 네트웍 패킹/언패킹 지원부(161)는 패킹된 데이터를 제1 통신부(110)를 통하여 수신측 단말기(200)에 전송하도록 지원할 수 있다. 또한 제1 네트웍 패킹/언패킹 지원부(161)는 수신측 단말기(200)가 전송한 데이터를 언패킹하고, 이를 출력 수단 예를 들면 제1 스피커(133), 제1 표시부(140) 등에 전달할 수 있다.

한편 본 발명의 수신측 단말기(200)의 제2 제어부(260)는 제2 네트웍 모니터(262), 제2 네트웍 패킹/언패킹 지원부(261), 노이즈 측정부(201), 제2 TTS/STT 결정부(263), 제2 TTS 매니저(265), 제2 STT 매니저(264), 제2 음성 처리부(267), 제2 텍스트 처리부(268), 제2 비디오 처리부(269) 및 이미지 통합부(266)의 구성을 포함할 수 있다.

이와 같은 구성의 수신측 단말기(200)는 송신측 단말기(100)로부터 통신 서비스 연결 요청을 수신하면, 디폴트 설정에 따라 또는 사용자 설정에 따라 음성 인식 기반의 텍스트 제공 서비스인 STT 서비스 지원을 위하여 제2 음성 처리 지원 장치(500) 접속을 수행할 수 있다. 또는 수신측 단말기(200)는 STT 서비스 지원을 위한 제2 저장부(250)에 저장된 음성 인식 데이터베이스를 이용할 수 있다. 즉 수신측 단말기(200)는 송신측 단말기(100)가 전달하는 음성 데이터를 음성 인식하여 텍스트를 생성하고, 생성된 텍스트를 제2 표시부(240)에 출력할 수 있다. 여기서 음성 데이터의 제2 스피커(233) 출력 기능은 사용자 설정에 따라 또는 시스템 설계 방식에 따라 지원되거나 또는 차단될 수 있다. 즉 본 발명의 STT 서비스 지원에서 음성 데이터는 수신측 단말기(200)에서 음성 인식된 텍스트와 함께 출력되거나 또는 폐기될 수 있다.

상술한 수신측 단말기(200)들의 각 구성에 대하여 보다 상세히 설명하면, 먼저 제2 네트웍 모니터(262)는 제2 네트웍 패킹/언패킹 지원부(261)를 통하여 네트웍 평가를 수행하는 구성이다. 이러한 제2 네트웍 모니터(262)는 제2 네트웍 패킹/언패킹 지원부(261)를 통하여 사전 정의된 테스트 신호를 네트웍으로 또는 송신측 단말기(100)로 전송하고 그에 대응하는 피드백 신호를 수신하여 네트웍 상태에 대한 평가를 수행할 수 있다. 여기서 제2 네트웍 모니터(262)는 통신 시스템(300) 또는 송신측 단말기(100)로 전송되어야 할 신호 예를 들면, 채널 형성 과정에서 송수신되는 신호, 제2 마이크(231)가 수집한 음성 신호, 카메라가 수집하여 송신측 단말기(100)로 전송해야 할 영상 데이터, 사용자가 작성하여 송신측 단말기(100)로 전송할 텍스트 중 적어도 하나를 테스트 신호와 대체하여 이용할 수 있다. 한편 제2 네트웍 모니터(262)는 송신측 단말기(100) 및 통신 시스템(300) 중 적어도 하나로부터 네트웍 상태 예를 들면 데이터 전송에 있어서 지연의 정도, 패킷의 손실율 등에 대한 정보를 수신하고, 이를 기반으로 네트웍 상태에 대한 평가를 수행할 수 있다. 제2 네트웍 모니터(262)가 수행한 네트웍 평가 결과는 제2 TTS/STT 결정부(263)에 제공될 수 있다.

제2 네트웍 패킹/언패킹 지원부(261)는 수신측 단말기(200)가 송신할 데이터 및 수신할 데이터의 패킹 및 언패킹을 수행하는 구성이다. 이를 보다 상세히 설명하면, 제2 네트웍 패킹/언패킹 지원부(261)는 송신측 단말기(100)로부터 수신된 데이터를 언패킹하여 포함된 정보들을 각 종류별로 분류할 수 있다. 예를 들어 제2 네트웍 패킹/언패킹 지원부(261)는 송신측 단말기(100)가 전송한 데이터를 데이터 특성에 따라 음성 데이터, 텍스트 데이터, 비디오 데이터, 자막 데이터 중 적어도 하나로 분류할 수 있다. 그리고 제2 네트웍 패킹/언패킹 지원부(261)는 분류된 데이터를 처리하기 위하여 해당 데이터와 관련된 구성에 전달할 수 있다. 예를 들어, 제2 네트웍 패킹/언패킹 지원부(261)는 음성 데이터를 제2 음성 처리부(267)에 전달할 수 있으며, 텍스트 데이터를 제2 텍스트 처리부(268)에 전달할 수 있고, 비디오 데이터를 제2 비디오 처리부(269)에 전달할 수 있다. 자막 데이터의 경우 해당 자막 데이터의 특성에 따라 제2 텍스트 처리부(268)에 전달되거나 제2 비디오 처리부(269)에 전달될 수 있다. 즉 자막 데이터가 텍스트 형태로 제작 및 수신된 경우 제2 텍스트 처리부(268)에 전달되어 처리될 수 있으며, 자막 데이터가 영상 프레임 타입으로 제작 및 수신된 경우 제2 비디오 처리부(269)에 전달되어 처리될 수 있다.

한편 제2 네트웍 패킹/언패킹 지원부(261)는 수신측 단말기(200)의 제2 마이크(231)가 수집한 음성 신호를 제2 음성 처리부(267)가 처리하여 생성된 음성 데이터를 패킹하고, 이를 송신측 단말기(100)에 전송하기 위하여 제2 통신부(210)에 전달할 수 있다. 또한 제2 네트웍 패킹/언패킹 지원부(261)는 제2 입력부(220) 및 입력 기능의 제2 표시부(240) 중 적어도 하나를 이용하여 작성된 텍스트를 사전 정의된 규격에 따라 패킹하고 이를 송신측 단말기(100)에 전송하기 위하여 제2 통신부(210)에 전달할 수 있다. 상기 제2 네트웍 패킹/언패킹 지원부(261)는 장착된 카메라가 수집한 영상 데이터 전송 시 사용자가 입력한 텍스트가 통합된 영상 데이터를 패킹할 수도 있다. 또는 제2 네트웍 패킹/언패킹 지원부(261)는 영상 통화 연결을 요청한 송신측 단말기(100)에 대응하여 단말기 설정이나 사용자 조작에 따라 사전 저장된 특정 영상 데이터를 패킹하여 전송할 수 있다. 이때 상기 특정 영상 데이터는 사용자 제어에 따라 입력된 텍스트가 통합된 영상 데이터로 전환된 후, 제2 네트웍 패킹/언패킹 지원부(261)에서 패킹될 수 있다. 추가로 제2 네트웍 패킹/언패킹 지원부(261)는 노이즈 측정부(201)가 수집한 수신측 단말기(200) 주변 노이즈 정보를 패킹하여 제2 통신부(210)를 통하여 송신측 단말기(100)에 전달될 수 있다.

노이즈 측정부(201)는 수신측 단말기(200) 주변 환경에서 발생하는 노이즈를 측정하여 노이즈 정보를 생성하고, 해당 노이즈 정보를 제2 TTS/STT 결정부(263) 및 송신측 단말기(100) 중 적어도 하나에 전송하도록 지원하는 구성이다. 이를 위하여 노이즈 측정부(201)는 수신측 단말기(200)에 포함된 제2 마이크(231)를 활성화하고, 제2 마이크(231)가 수집한 일정 시간 동안의 오디오 신호를 분석하여 노이즈 포함 여부를 확인할 수 있다. 이때 노이즈 측정부(201)는 송신측 단말기(100)로부터 통화 연결 요청 메시지를 수신하는 경우, 제2 마이크(231)를 활성화하여, 사전 정의된 일정 시간 동안 주변 오디오 신호의 수집 및 수집된 신호 기반의 노이즈 측정을 수행할 수 있다. 또는 노이즈 측정부(201)는 사전 정의된 스케줄 정보에 따라 일정 시간 간격으로 오디오 신호를 수집하고 해당 오디오 신호의 노이즈 측정값을 평균하거나 또는 그 중 가장 높은 노이즈 측정값을 노이즈 정보로 채택할 수 있다.

제2 TTS/STT 결정부(263)는 수신측 단말기의 TTS 서비스 또는 STT 서비스 수행 여부를 결정하는 구성이다. 이를 위하여 제2 TTS/STT 결정부(263)는 노이즈 측정부(201)로부터 전달되는 노이즈 정보, 제2 입력부(220) 및 입력 기능의 제2 표시부(240)로부터 입력되는 사용자 제어, 제2 네트웍 패킹/언패킹 지원부(261)로부터 전달되는 송신측 단말기(100)의 음성 및 텍스트 중 적어도 하나를 기반으로 TTS 서비스 또는 STT 서비스 수행을 결정할 수 있다. 예를 들어 제2 TTS/STT 결정부(263)는 노이즈 측정부(201)로부터 일정 크기 이상의 노이즈 측정치에 대한 노이즈 정보를 수신하면 사용자 제어 또는 송신측 단말기(100) 요청에 관계없이 STT 서비스가 수행되도록 제2 STT 매니저(264)를 제어할 수 있다. 동일한 방식으로 제2 TTS/STT 결정부(263)는 노이즈 측정부(201)로부터 일정 기준 이상의 노이즈 측정치를 포함하는 정보를 수신하면 TTS 서비스를 수행하도록 제2 TTS 매니저(265)를 제어할 수 있다. 또한 제2 TTS/STT 결정부(263)는 수신측 단말기(200) 사용자가 STT 서비스 운용을 위한 입력 신호를 생성한 경우 또는 TTS 서비스 운용을 위한 입력 신호를 생성한 경우 제2 TTS 매니저(265) 또는 제2 STT 매니저(264)를 각각 제어하여 해당 서비스 운용이 지원되도록 제어할 수 있다. 한편 제2 TTS/STT 결정부(263)는 송신측 단말기(100)로부터 STT 서비스 또는 TTS 서비스 활성화를 요청받는 경우 송신측 단말기(100) 요청에 따른 STT 서비스 또는 TTS 서비스가 운용되도록 제어할 수도 있다. 추가로 제2 TTS/STT 결정부(263)는 송신측 단말기(100)로부터 노이즈 정보를 수집하고, 송신측 단말기(100)가 전송한 노이즈 정보가 일정 기준치 이상인 경우 자동으로 STT 서비스가 운용되도록 제어할 수도 있다.

상기 제2 TTS/STT 결정부(263)는 제2 네트웍 모니터(262)로부터 네트웍 평가 정보를 수신하고, 네트웍 평가 정보에 따른 TTS 서비스 또는 STT 서비스 지원을 위한 제2 STT 매니저(264) 또는 제2 TTS 매니저(265) 제어를 수행할 수 있다. 이를 보다 상세히 설명하면, 제2 TTS/STT 결정부(263)는 네트웍 평가 정보에 포함된 네트웍의 데이터 전송 지연 정도 및 패킷 손실율 중 적어도 하나가 기 설정된 기준치 이상인 경우 STT 서비스 및 TTS 서비스 중 적어도 하나를 수행하기 위한 제어를 수행할 수 있다. 음성 데이터 및 영상 데이터에 비하여 텍스트 및 텍스트 형태의 자막 데이터는 전송되는 데이터양이 상대적으로 적고 문자로 제공된다. 이에 따라 네트웍 상태가 좋지 않은 경우 음성 데이터 및 영상 데이터가 손실이나 지연을 가지며 전송되어 해당 데이터를 올바르게 인식할 확률에 비하여 텍스트 및 자막 데이터가 손실이나 지연을 가지며 전송되어 온전하게 인식될 확률이 상대적으로 높을 수 있다. 따라서 제2 TTS/STT 결정부(263)는 네트웍 평가 정보가 기 설정된 기준치 이상인 경우 음성 데이터에 대한 텍스트를 음성 데이터와 함께 또는 독립적으로 전송하여 수신측 단말기(200) 사용자가 전송하고자 하는 정보를 송신측 단말기(100) 사용자가 올바르게 인식할 수 있도록 지원할 수 있다.

제2 TTS 매니저(265)는 제2 TTS/STT 결정부(263) 제어에 따라 수신측 단말기(200)의 TTS 서비스를 지원하도록 제어하는 구성이다. 이러한 제2 TTS 매니저(265)는 제2 TTS/STT 결정부(263)가 TTS 서비스를 지원하도록 요청하는 경우, 제2 네트웍 패킹/언패킹 지원부(261)로부터 전달받은 텍스트를 음성 데이터로 전환하도록 제어하고, 이를 제2 음성 처리부(267)에 전달할 수 있다. 이때 제2 네트웍 패킹/언패킹 지원부(261)가 제공하는 텍스트는 송신측 단말기(100)가 텍스트 작성기를 통하여 작성한 텍스트이거나, STT 서비스 운용에 따라 음성 신호가 전환된 텍스트가 될 수 있다.

제2 TTS 매니저(265)는 수신측 단말기(200)의 TTS 서비스 지원을 위하여 제2 음성 처리 지원 장치(500)의 접속할 수 있다. 또는 제2 TTS 매니저(265)는 수신측 단말기(200)의 TTS 서비스 지원을 위하여 사전에 마련되어 제2 저장부(250)에 저장된 음성 전환 데이터베이스를 이용할 수도 있다. 즉 제2 TTS 매니저(265)는 수신측 단말기(200)의 TTS 서비스 지원을 위하여 외부 제2 음성 처리 지원 장치(500) 접속을 수행하거나 별도의 제2 음성 처리 지원 장치(500) 접속과정의 수행 없이 음성 전환 데이터베이스 기반의 음성 전환을 지원할 수 있다. 여기서 제2 TTS 매니저(265)는 송신측 단말기(100)가 TTS 서비스 지원을 위하여 사용자가 입력한 텍스트를 제1 음성 처리 지원 장치(400)를 이용하여 음성 데이터로 전환하여 제공한 경우, 별도의 음성 전환을 수행하지 않도록 제어할 수도 있다.

한편 제2 TTS 매니저(265)는 제2 TTS/STT 결정부(263)의 제어에 따라 수신측 단말기(200) 사용자가 입력한 텍스트를 음성 신호로 변환하고, 이를 송신측 단말기(100)에 전송하도록 지원할 수도 있다. 이를 위하여 제2 TTS 매니저(265)는 제2 음성 처리 지원 장치(500) 및 음성 전환 데이터베이스 중 적어도 하나를 기반으로 입력된 텍스트를 음성으로 전환하고, 이를 제2 네트웍 패킹/언패킹 지원부(261)를 통하여 송신측 단말기(100)에 전송하도록 제어할 수 있다.

제2 STT 매니저(264)는 수신측 단말기(200)의 STT 서비스 지원을 위한 제어를 지원하는 구성이다. 제2 STT 매니저(264)는 제2 TTS/STT 결정부(263)로부터 STT 서비스 지원을 위한 요청을 수신하는 경우 해당 요청에 따라 STT 서비스 지원을 수행할 수 있다. 특히 제2 STT 매니저(264)는 수신측 단말기(200)의 STT 수신 서비스 및 STT 송신 서비스 중 적어도 하나를 지원할 수 있다.

먼저 STT 수신 서비스 지원의 경우 제2 STT 매니저(264)는 제2 네트웍 패킹/언패킹 지원부(261)로부터 음성 데이터를 전달받고, 해당 음성 데이터를 텍스트로 전환하도록 작업한다. 그리고 제2 STT 매니저(264)는 텍스트로 전환된 음성 데이터를 제2 텍스트 처리부(268)에 전달할 수 있다. 이를 위하여 제2 STT 매니저(264)는 STT 서비스 지원을 위한 제2 음성 처리 지원 장치(500) 접속 또는 제2 저장부(250)에 저장된 음성 인식 데이터베이스 중 적어도 하나를 이용할 수 있다. 예를 들어, 제2 STT 매니저(264)는 제2 음성 처리 지원 장치(500)와 채널을 형성하도록 제어하고 제2 네트웍 패킹/언패킹 지원부(261)로부터 전달받은 음성 데이터를 제2 음성 처리 지원 장치(500)에 전송하도록 제어할 수 있다. 그리고 제2 STT 매니저(264)는 제2 음성 처리 지원 장치(500)가 제공하는 텍스트를 제2 통신부(210) 및 제2 네트웍 패킹/언패킹 지원부(261)로부터 전달받으면, 해당 텍스트를 제2 텍스트 처리부(268)에 전달할 수 있다.

STT 송신 서비스 지원의 경우 제2 STT 매니저(264)는 제2 음성 처리부(267)가 전달한 음성 데이터를 텍스트로 전환하도록 제어할 수 있다. 이때 제2 STT 매니저(264)는 정책에 따라 제2 음성 처리 지원 장치(500)를 이용하거나 제2 저장부(250)에 저장된 음성 인식 데이터베이스를 이용하여 음성 데이터를 텍스트로 전환하도록 제어할 수 있다. 제2 STT 매니저(264)는 전환된 텍스트를 제2 네트웍 패킹/언패킹 지원부(261)에 전달하여 송신측 단말기(100)에 전송하도록 요청할 수 있다.

제2 음성 처리부(267)는 제2 TTS 매니저(265)가 전달한 음성 데이터를 스피커, 이어폰, 타 음성 신호 출력 장치에 전달할 수 있는 형태로 전환하고, 전환된 음성 신호를 해당 구성에 전달하는 구성이다. 또한 제2 음성 처리부(267)는 제2 네트웍 패킹/언패킹 지원부(261)로부터 직접 음성 데이터를 수신하고, 이를 음성 신호로 전환한 후 상술한 스피커, 이어폰, 타 음성 신호 출력 장치 중 적어도 하나에 전달할 수 있다. 여기서 타 음성 신호 출력 장치는 블루투스 통신 모듈을 통하여 수신측 단말기(200)와 통신 채널을 형성할 수 있는 별도의 기기나 헤드셋 등이 될 수 있다.

제2 텍스트 처리부(268)는 제2 STT 매니저(264)가 전달한 정보를 수신측 단말기(200)에서 출력할 수 있는 형태의 텍스트로 전환하고, 이를 이미지 통합부(266)에 전달하는 구성이다. 예를 들어 제2 STT 매니저(264)가 음성 인식하여 제공하는 텍스트 정보들을 수신측 단말기(200)의 제2 표시부(240)에 출력할 수 있는 단어나, 어구, 문장 등으로 구성하고, 이를 이미지 통합부(266)에 전달할 수 있다. 제2 텍스트 처리부(268)는 제2 네트웍 패킹/언패킹 지원부(261)로부터 텍스트를 직접 전달받고 이를 제2 표시부(240)에 출력할 수 있는 형태로 처리할 수도 있다.

제2 비디오 처리부(269)는 제2 네트웍 패킹/언패킹 지원부(261)가 제공하는 영상 데이터를 제2 표시부(240)에 출력할 수 있는 형태로 처리하는 구성이다. 예를 들어, 제2 비디오 처리부(269)는 제2 네트웍 패킹/언패킹 지원부(261)가 전달한 패킷들로 구성된 영상 데이터를 이용하여 영상 프레임을 생성하는 구성이 될 수 있다. 또한 제2 비디오 처리부(269)는 동영상 프레임 구성을 위하여 이전 영상 프레임과 현재 수신된 영상 프레임과의 비교 및 차이 정보에 대한 처리 등을 수행하는 영상 코덱 등을 포함할 수 있다.

이미지 통합부(266)는 제2 텍스트 처리부(268) 및 제2 비디오 처리부(269)가 제공하는 텍스트 및 영상 프레임을 통합하는 구성이다. 즉 이미지 통합부(266)는 영상 데이터로 구성된 영상 프레임 상에 텍스트를 삽입하거나, 영상 프레임 상에 텍스트를 오버레이 시켜 제2 표시부(240)에 출력할 새로운 영상 프레임을 생성할 수 있다. 이에 따라 제2 표시부(240)는 텍스트와 영상 프레임을 함께 표시할 수 있다. 여기서 이미지 통합부(266)는 출력할 영상 프레임과 텍스트의 동기화를 위하여 수신된 정보에서 타임스탬프 정보를 획득하고, 이를 기반으로 어떠한 영상 프레임에 어떠한 텍스트를 삽입할지를 결정할 수 있다. 타임스탬프 정보는 제2 네트웍 패킹/언패킹 지원부(261)에서 추출되어 제공되거나, 제2 STT 매니저(264)에 의해 추출되어 제공될 수 있다. 한편 송신측 단말기(100)가 STT 서비스를 제공하는 과정에서 텍스트를 전송할 영상 프레임에 이미 삽입하여 제공되는 경우 상기 이미지 통합부(266)는 제거될 수 있다. 이 경우 제2 비디오 처리부(269)가 텍스트가 삽입된 영상 프레임을 제2 표시부(240)에 출력하도록 지원할 수 있다.

도 15는 본 발명의 제2 실시 예에 따른 통신 서비스 운용 방법을 설명하기 위한 신호 흐름도이다. 이하 설명에서는 STT 서비스 운용을 기준으로 설명하기로 한다. 그러나 본 발명은 이에 한정되는 것은 아니며, 송신측 단말기(100) 및 수신측 단말기(200) 사이의 협상에 따라 상기 STT 서비스는 TTS 서비스로 대체되거나 또는 STT 서비스 및 TTS 서비스가 동시 운용될 수도 있다.

도 15를 참조하면, 본 발명의 제2 실시 예에 따른 통신 서비스 운용 방법은 먼저, 1501 단계에서 송신측 단말기(100)가 수신측 단말기(200)에 통화 연결 요청을 수행할 수 있다. 이를 위하여 송신측 단말기(100)는 수신측 단말기(200)의 전화번호 입력 및 특정 종류의 통신 서비스 연결을 위한 요청을 수행할 수 있다. 해당 요청은 메시지 형태로 통신 시스템(300)을 통하여 수신측 단말기(200)에 전달될 수 있다.

1501 단계에서 수신측 단말기(200)가 통신 서비스 운용을 수락한 경우 송신측 단말기(100)와 수신측 단말기(200)는 1503 단계에서와 같이 음성 인식 기반 텍스트 제공 서비스 지원을 위한 협상을 수행할 수 있다. 예를 들어, 송신측 단말기(100)는 본 발명의 STT 서비스 운용을 요청하는 메뉴 선택을 수행할 수 있다. 해당 메뉴 선택에 따라 송신측 단말기(100)는 수신측 단말기(200)에게 STT 서비스 기반으로 통신 서비스를 운용하도록 요청할 수 있다. 또는 수신측 단말기(200)는 송신측 단말기(100)의 통화 연결 요청에 대응하여 STT 서비스로서 동작할 것임을 지시하는 메시지를 송신측 단말기(100)에 전달할 수 있다. 이때 수신측 단말기(200)는 노이즈 정보 및 네트웍 평가 중 적어도 하나를 기반으로 STT 서비스 운용을 자동으로 수행하거나, 사용자 제어에 따라 STT 서비스 운용을 지원할 수 있다. STT 서비스 지원을 위한 협상을 수행하지 않는 경우 송신측 단말기(100)가 연결을 요청한 통신 서비스 종류에 따른 통신 채널이 형성될 수 있다. 한편 송신측 단말기(100)와 수신측 단말기(200)는 통신 서비스 지원을 위한 통신 채널을 형성할 수 있다.

수신측 단말기(200)의 STT 서비스 운용에 대한 협상이 완료되면, 송신측 단말기(100)는 1505 단계에서 음성 신호를 수집하고, 1507 단계에서 수집된 음성 신호를 수신측 단말기(200)에 전달할 수 있다. 이를 위하여 송신측 단말기(100)는 제1 마이크(131)를 활성화하여 음성 데이터를 수집하고 이를 수신측 단말기(200)에 전송할 수 있는 형태의 음성 데이터로 전환한다. 그리고 송신측 단말기(100)는 수신측 단말기(200)와 형성된 통신 채널을 통하여 상기 음성 데이터를 수신측 단말기(200)에 전송할 수 있다.

수신측 단말기(200)는 송신측 단말기(100)로부터 음성 데이터를 수신하는 경우, 1509 단계에서 제2 음성 처리 지원 장치(500) 및 음성 인식 데이터베이스 중 적어도 하나를 기반으로 수신된 음성 데이터를 텍스트로 전환하도록 제어할 수 있다. 이를 위하여 수신측 단말기(200)는 제2 음성 처리 지원 장치(500) 접속 및 음성 인식할 음성 데이터 제공을 수행하거나, 제2 저장부(250)에 저장된 음성 인식 데이터베이스 호출을 수행할 수 있다.

수신측 단말기(200)는 음성 데이터에 대한 텍스트 전환이 완료되면, 1511 단계에서 생성된 텍스트를 제2 표시부(240)에 출력하도록 지원할 수 있다. 이때 수신측 단말기(200)는 생성된 텍스트를 독립적으로 제2 표시부(240)의 일측에 팝업창이나 말풍선 등의 형태로 제공하거나, 사전 정의된 특정 포맷 예를 들면 채팅 창 등의 일측에 표시할 수 있다. 또한 수신측 단말기(200)는 생성된 텍스트를 송신측 단말기(100)가 제공한 영상 데이터로 구성된 영상 프레임 상에 오버레이시켜 출력하거나 영상 프레임의 일측에 삽입 또는 통합하여 출력하도록 지원할 수 있다.

한편 수신측 단말기(200)가 작성한 텍스트는 1513 단계에서 송신측 단말기(100)에 전송될 수 있다. 이를 위해 수신측 단말기(200)는 STT 서비스 지원을 위한 텍스트 작성기를 활성화할 수 있으며, 사용자가 텍스트 작성기를 통하여 입력한 텍스트를 송신측 단말기(100)에 제공할 수 있다. 텍스트 작성기 활성화 기능은 STT 서비스 선택에 따라 자동으로 수행될 수 있다. 또는 텍스트 작성기 활성화 기능은 송신측 단말기(100)가 제공한 음성 데이터에 해당하는 텍스트를 출력하면서 자동으로 수행될 수 있으며, 또는 사용자 호출에 따라 수행될 수 있다.

또 한편, 수신측 단말기(200)는 STT 서비스 지원과는 별개로 음성 신호 및 영상 신호 수집과 전달을 송신측 단말기(100) 사용자가 선택한 통신 서비스 종류에 따라 수행할 수도 있다. 즉 수신측 단말기(200)는 송신측 단말기(100) 사용자가 음성 통화 채널 형성을 위한 통신 연결을 요청한 경우 STT 서비스 지원과는 독립적으로 음성 통화를 위한 제2 마이크(231) 활성화 및 오디오 신호 수집과 전달을 지원할 수 있다. 이러한 기능은 사용자 제어에 따라 또는 STT 서비스 지원 정책에 따라 제공될 수 있다. 예를 들어 STT 서비스를 디폴트로 제공하고, 음성 통화 연결 시 오디오 신호 수집과 전달이 수행되도록 설정되면, 수신측 단말기(200)는 해당 설정에 따라 STT 서비스와는 독립적으로 오디오 신호 수집과 전달을 수행하기 위한 신호 수집과 처리를 지원할 수 있다.

상술한 바와 같이 본 발명의 제2 실시 예에 따른 통신 서비스 운용 방법에서는 송신측 단말기(100)가 음성 데이터를 수신측 단말기(200)에 제공하면, 수신측 단말기(200)가 해당 음성 데이터에 대한 음성 인식을 수행하여 제2 표시부(240)에 출력하도록 수행된다. 이러한 기능은 송신측 단말기(100)의 제1 음성 처리 지원 장치(400) 접속이 원활하지 않거나 접속이 불가능한 경우, 제1 음성 처리 지원 장치(400)의 음성 인식 결과 제공 속도가 제2 음성 처리 지원 장치(500)에 비하여 낮을 경우 등의 상황에서 이용될 수 있다. 또는 본 발명의 제2 실시 예에 따른 통신 서비스 운용 방법은 제1 음성 처리 지원 장치(400)의 음성 인식 신뢰도가 제2 음성 처리 지원 장치(500)에 비하여 낮거나 또는 일정 기준치 이하일 경우 수행될 수 있다. 상술한 상황들을 확인하기 위하여 송신측 단말기(100)와 수신측 단말기(200)는 제1 음성 처리 지원 장치(400) 및 제2 음성 처리 지원 장치(500)에 대한 접속 가능 여부, 음성 인식 제공 속도, 음성 인식의 결과에 대한 신뢰도 등에 대한 정보를 공유하기 위한 절차를 수행할 수 있다.

그리고 본 발명의 제2 실시 예에 따른 통신 서비스 운용 방법은 수신측 단말기(200)의 STT 서비스 협상에 대한 요청 없이 수행될 수도 있다. 즉 송신측 단말기(100)가 음성 신호를 수집하여 수신측 단말기(200)에 제공하면, 수신측 단말기(200)는 송신측 단말기(100)와 별도의 협상 과정 없이 단독으로 제2 음성 처리 지원 장치(500) 및 제2 저장부(250)에 저장된 음성 인식 데이터베이스 중 적어도 하나를 기반으로 STT 서비스 지원을 수행할 수 있다. 이에 따라 상술한 설명에서 본 발명의 통신 서비스 운용 방법은 1503 단계를 포함하지 않고 수행될 수도 있을 것이다. 또한 본 발명의 제2 실시 예에 따른 통신 서비스 운용 방법은 네트웍 모니터링 과정의 수행 없이 송신측 단말기(100)가 일방적으로 음성 신호를 수신측 단말기(200)에 전달하고, 수신측 단말기(200)는 해당 음성 신호를 음성 인식하여 텍스트로 제공할 수 있다. 결과적으로 본 발명의 제2 실시 예에 따른 통신 서비스 운용 방법에서 각 단말기들의 구성은 네트웍 모니터부의 구성을 포함하지 않고 구성될 수도 있다.

도 16은 본 발명의 제2 실시 예에 따른 통신 서비스 운용 중 수신측 단말기의 화면 인터페이스의 일예를 설명하기 위한 도면이다.

도 16을 참조하면, 상기 수신측 단말기(200)는 사용자 운용에 따라 1601 화면에서와 같이 특정 화면 상태를 가질 수 있다. 예를 들어 수신측 단말기(200)는 일정 시간 동안 별다른 입력 신호가 없거나, 슬립 모드 진입을 위한 입력 신호가 발생하는 경우 "슬립 모드" 진입과 함께 도시된 바와 같이 슬립 모드 화면을 제2 표시부(240)에 출력하도록 지원할 수 있다. 여기서 슬립 모드는 제2 표시부(240)의 전원 공급을 억제하여 전원을 절약하는 모드가 될 수 있다. 여기서 슬립 모드는 제2 표시부(240)의 전원 공급이 억제된 상태로서 특정 사용자 기능 예를 들면 파일 재생 기능이 백그라운드 프로세싱을 통하여 수행되는 상태가 될 수도 있다. 한편 1601 화면에서 수신측 단말기(200)가 슬립 모드 진입 상태를 가지는 것으로 설명하지만 본 발명이 이에 한정되는 것은 아니다. 즉 수신측 단말기(200)는 사용자의 단말기 운용에 따라 다양한 화면 상태를 가질 수 있다. 예를 들어, 수신측 단말기(200)는 파일 재생 화면, 웹 서버나 특정 서버 접속 화면, 게임 화면 등을 출력할 수도 있다.

한편 1601 화면 상태에서 송신측 단말기(100)로부터 특정 종류의 통화 연결 요청을 수신하는 경우, 수신측 단말기(200)는 1603 화면에서와 같이 통화 연결 요청 메시지 수신에 따른 화면을 출력할 수 있다. 통화 연결 요청 메시지 수신 화면에는 송신측 단말기(100)의 전화번호 또는 송신측 단말기(100) 전화번호와 관련된 폰북 정보 등이 출력될 수 있다. 특히 수신측 단말기(200)는 도시된 바와 같이 송신측 단말기(100) 사용자가 요청한 통신 서비스 종류에 따른 통화 연결을 위한 연결 버튼(1610)과, 음성 인식 기반의 텍스트 제공 서비스 운용을 위한 STT 버튼(1620)을 제2 표시부(240)에 표시할 수 있다. 상기 연결 버튼(1610) 및 STT 버튼(1620)은 맵의 형태로 출력될 수 있으며, 이에 따라 사용자는 특정 버튼 선택을 수행함에 따라 해당 버튼에 따른 단말기 기능을 이용할 수 있다.

1603 화면에서, 사용자가 STT 버튼(1620)을 선택하는 동작을 수행하는 경우, 수신측 단말기(200)는 1605 화면에서와 같이 STT 서비스 수행과 관련된 정보를 제2 표시부(240)에 출력할 수 있다. 예를 들어, 수신측 단말기(200)는 STT 서비스 지원을 위하여 제2 음성 처리 지원 장치(500) 접속을 위한 과정을 수행하고, 이 과정에서 해당 접속 과정과 관련된 정보를 도시된 바와 같이 출력할 수 있다. 여기서 제2 음성 처리 지원 장치(500)는 수신측 단말기(200)가 제공하는 음성 데이터에 대한 음성 인식 결과를 텍스트로 제공하는 구성이 될 수 있다. 상기 제2 음성 처리 지원 장치(500)는 수신측 단말기(200)가 별도로 마련된 통신 네트웍을 통하여 접속될 수 있는 외부 서버 장치로 구성될 수 있다. 한편 수신측 단말기(200)는 사용자가 STT 버튼(1620)을 선택하는 경우 송신측 단말기(100)와 통신 채널을 형성할 수 있다. 이에 따라 수신측 단말기(200)는 1605 화면에서 제2 음성 처리 지원 장치(500) 접속이 완료되는 동안 송신측 단말기(100)와 통신 서비스 채널을 수행할 수 있다. 이때 수신측 단말기(200)는 제2 음성 처리 지원 장치(500) 접속을 위한 통신 모듈을 별도로 마련하거나, 송신측 단말기(100)와 연결되기 위한 통신 모듈을 이용하여 제2 음성 처리 지원 장치(500) 접속을 수행할 수도 있다.

송신측 단말기(100)와 통신 채널 형성 및 제2 음성 처리 지원 장치(500) 접속이 완료되면, 수신측 단말기(200)는 송신측 단말기(100)가 제공한 음성 데이터를 음성 인식하여 텍스트로 전환하는 과정을 수행할 수 있다. 이를 위하여 수신측 단말기(200)는 송신측 단말기(100)가 제공한 데이터들 중에 음성 데이터를 추출하는 과정, 추출된 음성 데이터를 제2 음성 처리 지원 장치(500)에 제공하는 과정, 제2 음성 처리 지원 장치(500)로부터 음성 인식 결과를 수신하는 과정을 수행할 수 있다. 이때 수신측 단말기(200)는 제2 음성 처리 지원 장치(500) 접속이 불가능하거나, 사용자 제어에 따라 제2 저장부(250)에 저장된 음성 인식 데이터베이스를 기반으로 송신측 단말기(100)가 제공한 음성 데이터의 음성 인식을 수행할 수도 있다.

음성 인식에 따라 텍스트가 생성되면 수신측 단말기(200)는 1607 화면에서와 같이 생성된 텍스트를 제2 표시부(240)에 출력할 수 있다. 이때 수신측 단말기(200)는 송신측 단말기(100)가 제공한 음성 인식된 텍스트를 출력하는 STT 서비스 영역(1630)과, 사용자가 작성하여 송신측 단말기(100)에 전송한 텍스트를 출력하는 텍스트 영역(1640)을 각각 구분하여 출력할 수 있다. 또한 수신측 단말기(200)는 현재 STT 서비스가 운용 중임을 알리기 위한 정보를 화면 일측에 출력할 수 있다. 사용자는 STT 서비스 영역(1630)을 통하여 송신측 단말기(100) 사용자가 어떠한 음성 신호를 전송하였는지를 텍스트로 확인할 수 있다. 또한 사용자는 텍스트 영역(1640)을 통하여 송신측 단말기(100)에 전송할 텍스트를 작성할 수 있다. 사용자가 텍스트 영역(1640)을 터치하는 경우 수신측 단말기(200)는 텍스트 작성을 위한 텍스트 작성기를 활성화하고 그에 대응하는 화면 출력을 지원할 수 있다.

한편 상술한 설명에서는 1603 내지 1605 화면이 표시되면서 STT 서비스 선택과 운용 과정에 대한 화면이 제공되는 것으로 설명하지만 본 발명이 이에 한정되는 것은 아니다. 즉 수신측 단말기(200) 사용자가 STT 서비스를 디폴트로 설정해 놓거나 또는 특정 전화번호의 송신측 단말기(100) 사용자가 통화 연결을 위한 요청 메시지를 전송하는 경우 자동으로 STT 서비스가 수행되도록 설정한 경우, 상술한 1603 화면 및 1605 화면은 생략될 수 있다. 이와 함께 수신측 단말기(200)는 1601 화면 및 1607 화면만이 수신측 단말기(200)의 제2 표시부(240)에 제공될 수도 있다.

도 17은 본 발명의 제3 실시 예에 따른 통신 서비스 운용 시스템의 구성을 개략적으로 나타낸 도면이다. 특히 도 17은 본 발명의 제3 실시 에에 따른 통신 서비스 운용 시스템의 구성 중 송신측 단말기의 제어부 구성과 수신측 단말기의 제어부 구성만을 별도로 나타낸 것이다.

도 17을 참조하면, 본 발명의 제3 실시 예에 따른 통신 서비스 운용 시스템(10)은 송신측 단말기(100) 및 수신측 단말기(200) 각각에서 음성 인식을 지원하는 음성 처리 지원 장치들의 접속 상태를 확인하고, 보다 양한 접속 상태를 보이는 특정 음성 처리 지원 장치를 기반으로 음성 인식을 수행할 수 있도록 지원한다.

이를 위하여 송신측 단말기(100)의 제1 제어부(160)는 도시된 바와 같이 제1 네트웍 모니터(162), 제1 TTS/STT 결정부(163), 제1 네트웍 패킹/언패킹 지원부(161), 제1 음성 처리부(167), 제1 텍스트 처리부(168), 제1 비디오 처리부(169), 제1 STT 매니저(164), 제1 TTS 매니저(165) 및 미디어 동기화부(166)를 포함하여 구성될 수 있다. 이러한 구성의 제1 제어부(160)는 수신측 단말기(200)와의 통신 서비스 연결을 위한 신호 제어와 데이터 송수신 제어를 수행할 수 있다. 특히 제1 제어부(160)는 수신측 단말기(200)와 특정 종류의 통신 서비스 지원을 위한 통화 연결 요청 메시지 전송을 지원할 수 있으며, 이 과정에서 송신측 단말기(100) 및 수신측 단말기(200) 중 적어도 하나의 STT 서비스 운용 요청에 따라 STT 서비스 운용 지원을 위한 처리를 지원할 수 있다. 예를 들어 제1 제어부(160)는 수신측 단말기(200)로부터 STT 서비스 운용 요청을 수신하는 경우, 제1 음성 처리 지원 장치(400)와의 접속 상태에 대한 정보를 수집할 수 있다. 이를 위하여 제1 제어부(160)는 제1 음성 처리 지원 장치(400)에 사전 정의된 테스트 신호를 제공하고, 해당 테스트 신호에 대한 음성 인식 결과에 해당하는 수신 상태 정보를 수집할 수 있다. 여기서 수신 상태 정보는 송신측 단말기(100)와 제1 음성 처리 지원 장치(400)의 접속 상태에 따라 정보가 송수신되는 속도 정보를 포함할 수 있다. 제1 제어부(160)는 수신측 단말기(200)와 제2 음성 처리 지원 장치(500) 간의 수신 상태 정보와 송신측 단말기(100)의 수신 상태 정보를 비교하고 보다 양호한 수신 상태 정보를 가지는 단말기가 음성 인식을 수행하도록 제어할 수 있다. 이를 위하여 제1 제어부(160)는 수신측 단말기(200)로부터 수신측 단말기(200)의 수신 상태 정보를 수신할 수 있다. 한편 음성 인식 수행을 결정하는 단말기가 수신측 단말기(200)로 설계되는 경우 제1 제어부(160)는 자신의 수신 상태 정보를 수신측 단말기(200)에 전송하도록 제어할 수 있다.

제1 네트웍 모니터(162)는 제1 네트웍 패킹/언패킹 지원부(161)를 기반으로 송수신되는 패킷을 확인하고, 이를 기반으로 네트웍의 상태를 확인하기 위한 네트웍 평가를 수행하는 구성이다. 이러한 제1 네트웍 모니터(162)는 송신측 단말기(100)와 통신 시스템(300) 간의 네트웍 상태, 송신측 단말기(100)와 제1 음성 처리 지원 장치(400) 간의 네트웍 상태 등을 확인할 수 있는 네트웍 평가 정보들을 수집할 수 있다. 이때 제1 네트웍 모니터(162)는 네트웍 상태 확인을 위한 테스트 신호를 제1 네트웍 패킹/언패킹 지원부(161)를 통하여 전송하고 그에 따른 신호를 피드백 받아 네트웍 상태 확인을 수행하거나 수신측 단말기(200)로부터 네트웍 상태에 대한 네트웍 평가 정보를 수신할 수 있다. 또는 제1 네트웍 모니터(162)는 네트웍 구성들 예를 들면 통신 시스템(300)을 구성하는 기지국이나, 라우터 장치들, 기타 데이터 패킷을 스위칭하는 구성들로부터 네트웍 상태와 관련된 네트웍 평가 정보를 수신할 수 있다. 특히 제1 네트웍 모니터(162)가 수집하는 네트웍 평가 정보는 제1 음성 처리 지원 장치(400)와 송신측 단말기(100) 사이의 데이터 전송 속도나 데이터 전송 지연 정도, 데이터 손실율 등에 대한 수신 상태 정보를 포함할 수 있다. 제1 네트웍 모니터(162)는 수신 상태 정보를 제1 TTS/STT 결정부(163)에 전달할 수 있다.

제1 TTS/STT 결정부(163)는 제1 STT 매니저(164) 및 제1 TTS 매니저(165)를 제어하여 송신측 단말기(100)의 STT 서비스 및 TTS 서비스 중 적어도 하나를 수행하도록 제어하는 구성이다. 이러한 제1 TTS/STT 결정부(163)는 제1 네트웍 모니터(162)로부터 네트웍 평가 정보 특히 송신측 단말기(100)와 제1 음성 처리 지원 장치(400) 간의 제1 수신 상태 정보 및 수신측 단말기(200)와 제2 음성 처리 지원 장치(500) 간의 제2 수신 상태 정보를 전달받고, 이를 기반으로 제1 STT 매니저(164) 및 제1 TTS 매니저(165) 제어를 수행할 수 있다. 즉 제1 TTS/STT 결정부(163)는 제1 수신 상태 정보가 제2 수신 상태 정보에 비하여 상대적으로 양호한 값을 가지는 경우 제1 TTS/STT 결정부(163)는 제1 STT 매니저(164) 및 제1 TTS 매니저(165) 중 적어도 하나를 제어하여 제1 음성 처리 지원 장치(400) 접속을 수행하도록 제어할 수 있다. 이와 함께 제1 TTS/STT 결정부(163)는 수신측 단말기(200)에게 음성 인식을 송신측 단말기(100)가 처리할 것임을 안내하는 정보를 제공할 수 있다.

제1 네트웍 패킹/언패킹 지원부(161)는 송신측 단말기(100)의 데이터 전송을 위한 데이터 패킹과, 수신측 단말기(200)로부터 수신된 데이터의 언패킹을 수행하는 구성이다. 이러한 제1 네트웍 패킹/언패킹 지원부(161)는 제1 네트웍 모니터(162) 제어에 따라 네트웍 평가 정보를 수집하고, 이를 제1 네트웍 모니터(162)에 전달할 수 있다. 또한 제1 네트웍 패킹/언패킹 지원부(161)는 제1 네트웍 모니터(162) 제어에 따라 송신측 단말기(100)의 수신 상태 정보를 수신측 단말기(200)에 전송하도록 지원할 수도 있다.

한편 제1 네트웍 패킹/언패킹 지원부(161)는 수신측 단말기(200)와 통신 서비스 채널이 형성되면, 해당 통신 서비스 채널을 통하여 다양한 데이터를 패킹하여 전송하도록 지원할 수 있다. 예를 들어, 제1 네트웍 패킹/언패킹 지원부(161)는 수신측 단말기(200)와 영상 통화를 수행하는 중에는 카메라가 수집한 영상과 음성을 사전 정의된 규격에 따라 패킹하여 수신측 단말기(200)에 전송하도록 지원할 수 있고, 수신측 단말기(200)로부터 수신된 데이터들을 확인하여 해당 패킷들로부터 영상과 음성에 대응하는 데이터를 추출할 수 있다. 특히 제1 네트웍 패킹/언패킹 지원부(161)는 송신측 단말기(100)가 제1 음성 처리 지원 장치(400) 또는 제1 저장부(150)에 저장된 음성 인식 데이터베이스(153)를 기반으로 음성 인식을 수행하여 텍스트를 생성하는 경우, 해당 텍스트를 수신측 단말기(200)에 전송하도록 지원할 수 있다. 이때 제1 네트웍 패킹/언패킹 지원부(161)는 해당 텍스트를 영상 데이터에 통합하거나 영상 데이터에 오버레이 시켜 전송하도록 지원할 수 있다.

여기서 네트웍 평가에 따라 음성 인식 기능을 수신측 단말기(200)가 수행하도록 결정된 경우, 제1 네트웍 패킹/언패킹 지원부(161)는 음성 인식된 텍스트 전송 기능을 수행하지 않고 수신측 단말기(200)와 연결된 통신 서비스 종류에 따른 데이터 전송을 지원할 수 있다. 예를 들어, 제1 네트웍 패킹/언패킹 지원부(161)는 통신 서비스 종류에 따라, 영상 데이터, 음성 데이터, 문자 입력 중 적어도 하나를 수신측 단말기(200)에 전송할 수 있으며, 특히 제1 마이크(131)가 수집한 음성 신호에 해당하는 음성 데이터는 별도의 텍스트 전환 없이 수신측 단말기(200)에 전송할 수 있다.

한편 제1 네트웍 패킹/언패킹 지원부(161)는 수신측 단말기(200)로부터 음성 인식된 텍스트를 포함하는 데이터를 수신할 수 있으며, 이때 해당 데이터에서 음성 인식된 텍스트를 추출하여 제1 표시부(140)에 출력하도록 지원할 수 있다. 여기서 음성 인식된 텍스트를 포함하는 데이터는 영상 데이터에 음성 인식된 텍스트가 통합되거나 오버레이 된 데이터, 사전 정의된 특정 이미지에 음성 인식된 텍스트가 통합되거나 오버레이 된 데이터 등이 될 수 있으며, 음성 인식된 텍스트만을 포함하는 데이터가 될 수도 있다.

제1 음성 처리부(167)는 제1 마이크(131)가 수집한 음성 신호를 음성 데이터로 전환하는 구성이다. 제1 음성 처리부(167)가 처리한 음성 데이터는 제1 STT 매니저(164)에 전달될 수 있다.

제1 STT 매니저(164)는 제1 음성 처리부(167)가 전달한 음성 데이터를 STT 서비스 지원 여부에 따라 제1 음성 처리 지원 장치(400) 및 음성 인식 데이터베이스(153) 중 적어도 하나를 이용하여 음성 인식할 수 있다. 또한 제1 STT 매니저(164)는 음성 인식 기능이 수신측 단말기(200)에서 처리되도록 결정된 경우, 별도의 음성 인식 기능 수행 없이 해당 음성 데이터를 제1 네트웍 패킹/언패킹 지원부(161)에 전달할 수 있다. 한편 시스템 설계 방식에 따라 제1 음성 처리부(167)가 처리한 음성 데이터는 제1 STT 매니저(164)를 거치지 않고 제1 네트웍 패킹/언패킹 지원부(161)로 바로 전달될 수도 있다.

제1 텍스트 처리부(168)는 송신측 단말기(100)의 텍스트 처리를 지원하는 구성이다. 이러한 제1 텍스트 처리부(168)는 키패드나, 키보드, 터치 방식으로 지원되는 키맵, 키버튼 등을 포함하는 제1 입력부(120) 및 입력 기능의 제1 표시부(140)로부터 텍스트 입력을 위한 신호가 발생하면, 해당 입력 신호에 대응하는 텍스트 기입을 지원한다. 이러한 제1 텍스트 처리부(168)는 송신측 단말기(100)의 TTS 서비스 지원 여부에 따라 입력된 텍스트를 제1 TTS 매니저(165)에 전달할 수 있다. 또는 제1 텍스트 처리부(168)는 입력된 텍스트를 제1 TTS 매니저(165)에 전달하지 않고 제1 네트웍 패킹/언패킹 지원부(161)에 직접 전달할 수도 있다.

제1 TTS 매니저(165)는 제1 TTS/STT 결정부(163)로부터의 TTS 서비스 지원 설정에 따라 제1 텍스트 처리부(168)로부터 전달된 텍스트를 음성으로 전환하는 구성이다. 이때 제1 TTS 매니저(165)는 송신측 단말기(100)가 TTS 서비스를 지원하도록 결정된 경우, TTS 서비스를 지원하는 제1 음성 처리 지원 장치(400) 접속을 수행할 수 있다. 또는 제1 TTS 매니저(165)는 제1 저장부(150)에 저장된 음성 전환 데이터베이스(155)를 호출하여 입력된 텍스트에 해당하는 음성 데이터 전환을 수행할 수 있다. 제1 TTS 매니저(165)가 텍스트를 전환한 음성 데이터는 제1 네트웍 패킹/언패킹 지원부(161)에 전달되어 수신측 단말기(200)에 전달될 수 있다. 또는 제1 TTS 매니저(165)가 전환한 음성 데이터는 영상 통화 서비스 지원 중인 경우 미디어 동기화부(166)에 전달될 수 있다.

제1 비디오 처리부(169)는 송신측 단말기(100) 사용자가 수신측 단말기(200)와 영상 통화 서비스를 운용하기 위한 입력 신호를 생성한 경우 카메라를 활성화하여 수신된 영상 신호를 영상 데이터로 전환하는 구성이다. 제1 비디오 처리부(169)가 처리한 영상 데이터는 미디어 동기화부(166)에 전달될 수 있다.

미디어 동기화부(166)는 송신측 단말기(100)의 데이터들의 동기화를 지원하는 구성이다. 이러한 미디어 동기화부(166)는 송신측 단말기(100)가 영상 통화 서비스를 운용하는 과정에서 음성 데이터와 영상 데이터 간의 동기화를 지원할 수 있다. 특히 본 발명의 미디어 동기화부(166)는 네트웍 평가 등에 따라 송신측 단말기(100)가 TTS 서비스 및 STT 서비스 중 적어도 하나를 지원하는 것으로 결정된 경우, 제1 STT 매니저(164) 및 제1 TTS 매니저(165)가 전달하는 음성을 전환한 텍스트, 텍스트를 전환한 음성 데이터 중 적어도 하나와 영상 데이터 간의 동기화를 수행할 수 있다. 이를 위하여 미디어 동기화부(166)는 각 데이터들의 타임스탬프를 확인할 수 있다. 타임스탬프는 영상 데이터가 생성되는 과정에서 수집된 음성 데이터 및 텍스트 데이터 중 적어도 하나와 영상 데이터의 수집 시점을 동기화하기 위한 구성이다. 즉 상기 타임스탬프는 영상 데이터가 수집되는 시점에서 수집된 음성 데이터 및 텍스트 데이터에 동일하게 부여됨으로써 각 데이터들의 시점을 일치시키기 위하여 이용될 수 있다.

또한 미디어 동기화부(166)는 영상 데이터와 음성 인식한 텍스트를 동기화하여 하나의 프레임에 해당하는 새로운 영상 데이터를 생성하고, 이를 제1 네트웍 패킹/언패킹 지원부(161)에 전달할 수 있다. 또한 미디어 동기화부(166)는 영상 데이터와 텍스트를 전환한 음성 데이터를 동기화하여 음성 데이터의 타임스탬프에 해당하는 영상 프레임에 해당 음성 데이터가 배열되도록 데이터들을 배치하고 이를 제1 네트웍 패킹/언패킹 지원부(161)에 전달할 수 있다.

한편 본 발명의 제3 실시 예에 따른 통신 서비스 운용 시스템(10)에서 수신측 단말기(200)의 제2 제어부(260)는 도시된 바와 같이 제2 네트웍 모니터(262), 제2 네트웍 패킹/언패킹 지원부(261), 제2 음성 처리부(267), 제2 텍스트 처리부(268), 제2 비디오 처리부(269), 제2 STT 매니저(264), 제2 TTS 매니저(265) 및 이미지 통합부(266)의 구성을 포함할 수 있다. 이러한 구성의 제2 제어부(260)는 송신측 단말기(100)와의 협상 과정에서 네트웍 평가에 따라 수신측 단말기(200)가 STT 서비스 및 TTS 서비스 중 적어도 하나를 지원하도록 결정된 경우 제2 제어부(260)는 제2 음성 처리 지원 장치(500)와의 접속을 수행할 수 있다. 또는 제2 제어부(260)는 제2 저장부(250)에 저장된 음성 인식 데이터베이스 또는 음성 전환 데이터베이스를 이용하여 STT 서비스 및 TTS 서비스 중 적어도 하나를 지원할 수 있다. 제2 제어부(260)는 송신측 단말기(100)가 STT 서비스 및 TTS 서비스 중 적어도 하나를 지원하도록 결정된 경우에는 송신측 단말기(100)로부터 음성 인식된 텍스트 또는 텍스트를 전환한 음성 데이터를 수신하여 독립적으로 또는 영상 데이터와 함께 출력하도록 지원할 수 있다.

상술한 기능 지원을 위하여 제2 네트웍 모니터(262)는 네트웍 평가를 위한 정보를 수집할 수 있다. 즉 제2 네트웍 모니터(262)는 수신측 단말기(200)가 STT 서비스 및 TTS 서비스 중 적어도 하나를 수행하지를 결정하기 위한 수신 상태 정보를 포함하는 네트웍 평가 정보를 수집할 수 있다. 예를 들어 제2 네트웍 모니터(262)는 제2 음성 처리 지원 장치(500)와 수신측 단말기(200) 사이의 데이터 전송 지연 정도나 데이터 전송 속도, 데이터 손실율 등을 포함하는 수신 상태 정보를 수집할 수 있다. 이를 위하여 제2 네트웍 모니터(262)는 사전 정의된 테스트 신호를 제2 음성 처리 지원 장치(500)에 전송하고 그에 따른 피드백 신호를 수신할 수 있다. 그리고 제2 네트웍 모니터(262)는 수집된 수신 상태 정보를 송신측 단말기(100)의 수신 상태 정보와 비교하여 어느 정보가 보다 양호한 신호인지 확인할 수 있다. 여기서 수신 상태 정보들의 비교를 송신측 단말기(100)가 확인하도록 설계된 경우, 수신측 단말기(200)는 송신측 단말기(100)로부터 수신 상태 정보의 양호 상태에 대한 정보를 수신할 수 있다. 즉 수신측 단말기(200)는 송신측 단말기(100)로부터 STT 서비스 또는 TTS 서비스 지원을 위한 제2 음성 처리 지원 장치(500)로의 접속 여부에 대한 결정을 수신할 수 있다. 이를 수신하면 제2 네트웍 모니터(262)는 해당 정보를 제2 TTS/STT 결정부(263)에 전달할 수 있다.

제2 네트웍 패킹/언패킹 지원부(261)는 제2 네트웍 모니터(262)가 네트웍 평가 정보를 수집할 수 있도록 신호 전달과 수신을 지원할 수 있다. 또한 제2 네트웍 패킹/언패킹 지원부(261)는 수신측 단말기(200)의 제2 음성 처리 지원 장치(500) 접속 여부 결정에 따라 송신측 단말기(100)가 제공하는 신호를 언패킹하고 이를 제2 TTS/STT 결정부(263), 제2 TTS 매니저(265), 제2 STT 매니저(264) 등에 전달할 수 있다.

이를 보다 상세히 설명하면, 제2 네트웍 패킹/언패킹 지원부(261)는 송신측 단말기(100)가 제1 음성 처리 지원 장치(400) 접속을 수행하도록 결정된 경우 송신측 단말기(100)가 전달하는 음성을 전환한 텍스트, 텍스트를 전환한 음성 데이터를 수신할 수 있다. 그러면 제2 네트웍 패킹/언패킹 지원부(261)는 텍스트를 전환한 음성 데이터는 제2 음성 처리부(267)에 전달하고, 음성을 전환한 텍스트는 제2 텍스트 처리부(268)에 전달하도록 제어할 수 있다. 이때 제2 네트웍 패킹/언패킹 지원부(261)는 음성 데이터를 제2 TTS 매니저(265)를 거쳐 제2 음성 처리부(267)에 전달할 수 있으며, 텍스트를 제2 STT 매니저(264)를 거쳐 제2 텍스트 처리부(268)에 전달할 수 있다. 이 과정에서 제2 TTS 매니저(265) 및 제2 STT 매니저(264)는 별도의 신호 처리 없이 텍스트 및 음성 데이터 전달만을 수행할 수 있다.

한편 제2 네트웍 패킹/언패킹 지원부(261)는 수신측 단말기(200)가 STT 서비스 또는 TTS 서비스 지원을 위한 제2 음성 처리 지원 장치(500) 접속을 수행하는 경우 수신된 텍스트를 제2 TTS 매니저(265)에 전달할 수 있다. 그러면 제2 TTS 매니저(265)는 전달된 텍스트를 음성으로 전환하고 이를 제2 음성 처리부(267)에 전달할 수 있다. 또한 제2 네트웍 패킹/언패킹 지원부(261)는 수신측 단말기(200)가 STT 서비스 또는 TTS 서비스 지원을 위한 제2 음성 처리 지원 장치(500) 접속을 수행하는 경우 수신된 음성 데이터를 제2 STT 매니저(264)에 전달할 수 있다. 그러면 제2 STT 매니저(264)는 해당 음성 데이터를 제2 음성 처리 지원 장치(500)에 전달하여 텍스트로 전환할 수 있다. 전환된 텍스트는 제2 텍스트 처리부(268)에 전달할 수 있다. 상술한 바와 같이 상기 제2 네트웍 패킹/언패킹 지원부(261)는 송신측 단말기(100)의 제1 음성 처리 지원 장치(400) 접속 여부 및 수신측 단말기(200)의 제2 음성 처리 지원 장치(500) 접속 여부에 따라 각각 제2 STT 매니저(264) 및 제2 TTS 매니저(265)에 전달하는 데이터를 다르게 처리할 수 있다.

제2 TTS/STT 결정부(263)는 수신측 단말기(200)의 STT 서비스 지원 여부 및 TTS 서비스 지원 여부를 결정하는 구성이다. 예를 들어, 제2 TTS/STT 결정부(263)는 제2 네트웍 모니터(262)로부터 STT 서비스 지원 또는 TTS 서비스 지원을 위한 네트웍 평가 정보를 수신하고 이를 기반으로 해당 서비스 지원을 결정할 수 있다. 또는 제2 TTS/STT 결정부(263)는 사용자 입력에 따라 STT 서비스 또는 TTS 서비스 지원여부를 결정할 수 있다. 특히 제2 TTS/STT 결정부(263)는 네트웍 평가 정보에 따라 수신측 단말기(200)가 제2 음성 처리 지원 장치(500) 접속을 수행하도록 결정된 경우 제2 STT 매니저(264) 및 제2 TTS 매니저(265)를 제어하여 해당 서비스 지원이 수행되도록 요청할 수 있다.

노이즈 측정부(201)는 제2 마이크(231)를 활성화하여 수신측 단말기(200)의 주변 오디오 신호를 수집하고, 수집된 오디오 신호에 포함된 노이즈 측정값을 검출할 수 있다. 검출된 노이즈 측정값은 제2 TTS/STT 결정부(263)에 전달될 수 있다. 노이즈 측정을 위하여 노이즈 측정부(201)는 사전 설계된 필터를 이용할 수 있으며, 필터링을 통하여 음성 신호 대역 이외의 영역에 포함된 노이즈 정도를 측정할 수 있다. 제2 TTS/STT 결정부(263)는 노이즈 측정부(201)로부터 전달된 노이즈 측정값이 사전 정의된 기준 값과 비교하여 STT 서비스 또는 TTS 서비스를 수행할지 여부를 자동 결정할 수 있다.

제2 TTS 매니저(265)는 제2 TTS/STT 결정부(263)로부터 TTS 서비스 지원을 수행하도록 요청받는 경우, 제2 네트웍 패킹/언패킹 지원부(261)가 제공하는 텍스트를 제2 음성 처리 지원 장치(500)에 전달하여 해당 텍스트에 대응하는 음성 데이터 전환을 수행하도록 지원할 수 있다. 그리고 제2 TTS 매니저(265)는 음성 데이터를 제2 음성 처리부(267)에 전달할 수 있다. 한편 제2 TTS 매니저(265)는 TTS 서비스 지원을 위한 제2 저장부(250)에 저장된 음성 전환 데이터베이스를 이용하도록 제어할 수도 있다.

제2 STT 매니저(264)는 제2 TTS/STT 결정부(263)로부터 STT 서비스 지원을 수행하도록 요청받는 경우, 제2 네트웍 패킹/언패킹 지원부(261)가 제공하는 음성 데이터를 제2 음성 처리 지원 장치(500)에 전달하도록 제어할 수 있다. 그리고 제2 STT 매니저(264)는 제2 음성 처리 지원 장치(500)가 제공하는 음성을 전환한 텍스트를 제2 텍스트 처리부(268)에 전달할 수 있다. 이때, 제2 STT 매니저(264)는 제2 네트웍 패킹/언패킹 지원부(261)가 제공한 음성 데이터를 텍스트로 전환하기 위하여 제2 저장부에 저장된 음성 인식 데이터베이스를 이용하도록 제어할 수도 있다.

제2 음성 처리부(267)는 제2 TTS 매니저(265)로부터 전달받은 음성 데이터를 스피커 등에 출력할 수 있는 신호 형태로 전환하는 구성이다. 그리고 제2 음성 처리부(267)는 전환된 음성 신호를 스피커, 이어폰, 타 음성 신호 출력 장치 등에 전달하도록 지원할 수 있다. 여기서 제2 음성 처리부(267)가 출력하는 음성 신호는 송신측 단말기(100)의 제1 마이크(131)가 수집한 음성 신호이거나, 송신측 단말기(100)가 전송한 텍스트를 제2 음성 처리 지원 장치(500) 또는 제2 저장부(250)에 저장된 음성 전환 데이터베이스를 이용하여 전환한 음성 신호가 될 수 있다.

제2 텍스트 처리부(268)는 제2 STT 매니저(264)로부터 전달받은 텍스트 데이터를 제2 표시부(240)에 출력할 수 있는 텍스트 이미지나 문자 형태로 전환하는 구성이다. 그리고 제2 텍스트 처리부(268)는 전환된 텍스트를 제2 표시부(240) 또는 이미지 통합부(266)에 전달하도록 지원할 수 있다. 여기서 제2 텍스트 처리부(268)가 제공하는 텍스트는 송신측 단말기(100)가 텍스트 작성기를 통하여 입력한 텍스트이거나, 송신측 단말기(100)가 전달한 음성 신호를 제2 음성 처리 지원 장치(500) 또는 제2 저장부(250)에 저장된 음성 인식 데이터베이스를 이용하여 전환한 텍스트가 될 수 있다.

제2 비디오 처리부(269)는 제2 네트웍 패킹/언패킹 지원부(261)가 전달하는 영상 데이터를 처리하여 제2 표시부(240)에 출력할 수 있는 형태로 전환하는 구성이다. 제2 비디오 처리부(269)가 처리한 영상 프레임은 이미지 통합부(266)에 전달될 수 있다.

이미지 통합부(266)는 제2 텍스트 처리부(268)로부터 전달된 텍스트와 제2 비디오 처리부(269)로부터 전달된 영상 프레임을 통합하고, 이를 제2 표시부(240)에 전달하는 구성이다. 이러한 이미지 통합부(266)는 텍스트를 영상 프레임에 통합하는 과정에서 동기화를 수행할 수 있다. 이를 위하여 이미지 통합부(266)는 텍스트 및 영상 프레임을 전달받는 과정에서 해당 데이터들의 타임스탬프 정보를 함께 수신할 수 있다.

한편 상술한 설명에서는 제1 음성 처리 지원 장치(400) 및 제2 음성 처리 지원 장치(500)가 STT 서비스 지원 및 TTS 서비스 지원을 위한 하나의 구성으로 설명하였지만 본 발명이 이에 한정되는 것은 아니다. 즉 송신측 단말기(100)의 STT 서비스 및 TTS 서비스 지원을 위한 음성 처리 지원 장치는 각각 개별적으로 마련될 수 있으며, 수신측 단말기(200)의 제2 음성 처리 지원 장치(500) 또한 각 서비스 지원을 위하여 별개의 구성으로 마련될 수 있을 것이다.

도 18은 본 발명의 제3 실시 예에 따른 통신 서비스 운용 방법을 설명하기 위한 신호 흐름도이다. 이하 설명에서는 설명의 편의를 위하여 TTS 서비스 및 STT 서비스 중 STT 서비스 지원의 경우를 주 예로서 설명하기로 한다.

도 18을 참조하면, 본 발명의 제3 실시 예에 따른 통신 서비스 운용 방법은 먼저 송신측 단말기(100)가 1801 단계에서 수신측 단말기(200)에 통화 연결 요청을 위한 메시지를 전송할 수 있다. 이를 위하여 송신측 단말기(100)는 수신측 단말기(200)의 전화번호 입력을 통한 메시지 생성 및 통신 시스템(300)을 통하여 수신측 단말기(200)에 해당 메시지 전송을 수행할 수 있다.

통화 연결 요청 메시지를 수신한 수신측 단말기(200)가 통화 연결을 수락하는 경우, 송신측 단말기(100) 및 수신측 단말기(200)는 1803 단계에서 STT 운용을 위한 협상을 수행할 수 있다. 이 과정에서 송신측 단말기(100)는 각각 제1 음성 처리 지원 장치(400)와의 제1 수신 상태 정보를 수집하며, 수신측 단말기(200)는 제2 음성 처리 지원 장치(500)와의 제2 수신 상태 정보를 수집할 수 있다.

여기서 제1 수신 상태 정보가 제2 수신 상태 정보보다 양호한 경우 송신측 단말기(100)는 1805 단계에서 제1 음성 처리 지원 장치(400)를 기반으로 STT 서비스 지원을 수행할 수 있다. 즉 송신측 단말기(100)는 제1 마이크(131)가 수집한 음성 신호를 음성 인식하여 제1 텍스트로 전환하고, 제1 텍스트를 1807 단계에서 수신측 단말기(200)에 전달할 수 있다. 1807 단계에서 송신측 단말기(100)는 제1 마이크(131)가 수집한 음성 신호를 음성 처리한 음성 데이터를 수신측 단말기(200)에 함께 전송할 수도 있다.

한편 제2 수신 상태 정보가 제1 수신 상태 정보에 비하여 양호한 경우 송신측 단말기(100)는 1805 단계를 생략하고, 1807 단계에서 제1 마이크(131)가 수집한 음성 신호를 음성 처리한 음성 데이터를 수신측 단말기(200)에 전송할 수 있다. 그러면 수신측 단말기(200)는 1809 단계에서 송신측 단말기(100)로부터 전달된 음성 데이터를 제2 음성 처리 지원 장치(500)를 기반으로 음성 인식하여 제2 텍스트로 전환하도록 제어할 수 있다.

한편 수신측 단말기(200)는 1811 단계에서 송신측 단말기(100)로부터 제1 텍스트를 수신하는 경우 이를 제2 표시부(240)에 출력하도록 지원할 수 있다. 또한 수신측 단말기(200)는 제2 음성 처리 지원 장치(500)를 기반으로 제2 텍스트가 생성된 경우 이를 제2 표시부(240)에 출력하도록 지원할 수 있다. 그리고 수신측 단말기(200)는 텍스트 작성기를 통하여 작성된 텍스트를 1813 단계에서 송신측 단말기(100)에 전송할 수 있다.

이상에서 설명한 본 발명의 제3 실시 예에 따른 통신 서비스 운용 방법은 송신측 단말기(100) 및 수신측 단말기(200)의 음성 처리 지원 장치 간의 수신 상태에 따라 특정 단말기측 음성 처리 지원 장치를 이용하는 방식으로 설명하였다. 그러나 본 발명의 통신 서비스 운용 방법은 송신측 단말기(100)가 제1 음성 처리 지원 장치(400)를 기반으로 생성한 제1 텍스트 및 제1 마이크(131)를 기반으로 수집한 음성 신호에 해당하는 음성 데이터를 모두 수신측 단말기(200)에 전송하도록 지원할 수 있다. 그리고 수신측 단말기(200)는 송신측 단말기(100)가 제공한 음성 데이터를 음성 인식하여 제2 텍스트를 생성하고, 제1 텍스트 및 제2 텍스트 중 적어도 하나를 제2 표시부(240)에 출력하도록 지원할 수 있다. 이에 따라 본 발명의 통신 서비스 운용 방법은 음성 인식 등의 신뢰도가 낮은 환경에서 두 개의 음성 처리 지원 장치를 운용함으로써 송신측 단말기(100) 사용자가 전달하고자 하는 정보를 보다 잘 인식할 수 있도록 지원할 수 있다.

도 19는 본 발명의 실시 예에 따른 통신 서비스 운용 과정 중 수신측 단말기(200)의 STT 서비스 운용 방법을 설명하기 위한 순서도이다.

도 19를 참조하면, 먼저 수신측 단말기(200)는 송신측 단말기(100)로부터 사전 정의된 테스트 신호 또는 음성 데이터를 수신할 수 있다. 그러면 수신측 단말기(200)는 1901 단계에서 전달받은 음성 데이터를 제2 음성 처리 지원 장치(500)를 이용하여 음성 인식하도록 지원할 수 있다. 이때 수신측 단말기(200)는 음성 데이터의 음성 타임스탬프 정보(Sv)와, 제2 음성 처리 지원 장치(500)를 기반으로 음성 인식한 텍스트의 텍스트 타임스탬프 정보(St)를 추출한다.

다음으로 수신측 단말기(200)는 1903 단계에서 텍스트 타임스탬프 정보(St)에서 음성 타임스탬프 정보(Sv) 값을 차감하고, 차감 결과가 사전 정의된 기준 값(Ts)보다 큰지 여부를 확인한다. 여기서 기준 값(Ts)은 송신측 단말기(100)가 제1 음성 처리 지원 장치(400)를 기반으로 음성 인식한 텍스트 타임스탬프 정보(St)에서 해당 음성 타임스탬프 정보(Sv)를 차감한 결과 값이 될 수 있으며, 추가로 제1 음성 처리 지원 장치(400)의 음성 인식 결과물에 대한 신뢰도 값이 더 반영될 수도 있다. 즉 수신측 단말기(200)는 1903 단계에서 송신측 단말기(100)의 음성 데이터의 음성 인식 처리가 보다 양호한지 여부를 확인할 수 있다.

1903 단계에서 수신측 단말기(200)는 차감 결과가 기준 값(Ts)보다 작은 경우 즉 제1 음성 처리 지원 장치(400)를 이용한 송신측 단말기(100)의 음성 인식 처리가 수신측 단말기(200)의 음성 인식 처리보다 빠른 경우, 1905 단계로 분기하여 송신측 단말기(100)에서 STT 서비스가 수행되도록 안내할 수 있다. 이를 위하여 수신측 단말기(200)는 송신측 단말기(100)에게 음성 데이터를 음성 인식하여 텍스트로 전송할 것을 요청하는 메시지를 전송할 수 있다.

한편 1903 단계에서 차감 결과가 기준 값(Ts)보다 큰 경우 즉 제1 음성 처리 지원 장치(400)를 이용한 송신측 단말기(100)의 음성 인식 처리에 비하여 제2 음성 처리 지원 장치(500)를 이용한 수신측 단말기(200)의 음성 인식 처리가 양호한 경우, 수신측 단말기(200)는 1907 단계로 분기하여 패킷 손실율(PL)이 기 설정된 제1 기준 값(Tp) 보다 크고 네트웍의 전송 지연 정도(Delay)가 기 설정된 제2 기준 값(Td) 보다 큰지 여부를 확인할 수 있다. 즉 수신측 단말기(200)는 제2 음성 처리 지원 장치(500)와의 수신 상태가 기 설정된 기준 값 이상으로 양호한 상태 인지 여부를 확인할 수 있다. 이 단계에서 수신측 단말기(200)는 패킷 손실율 및 전송 지연 정도가 기준 값보다 낮은 경우 1909 단계로 분기하여 제2 음성 처리 지원 장치(500)를 기반으로 송신측 단말기(100)가 제공한 음성 데이터의 음성 인식을 수행하도록 제어할 수 있다. 그리고 수신측 단말기(200)는 패킷 손실율 및 전송 지연 정도가 기준 값보다 큰 경우 1911 단계로 분기하여 제2 저장부(250)에 저장된 음성 인식 데이터베이스를 기반으로 음성 데이터에 대한 음성 인식을 수행하도록 지원할 수 있다.

상기 수신측 단말기(200)는 상술한 제2 음성 처리 지원 장치(500)와의 수신 상태에 대한 검사를 일정 주기로 수행하거나, 실시간으로 수행할 수 있다. 이에 따라, 수신측 단말기(200)는 제2 저장부(250)에 저장된 음성 인식 데이터베이스 기 반의 내부 음성 인식 과정과 제2 음성 처리 지원 장치(500) 기반의 외부 음성 인식 과정을 네트웍 상태에 따라 적응적으로 수행하도록 제어할 수 있다.

한편 본 발명의 제3 실시 예에 따른 통신 서비스 운용을 위한 화면 인터페이스는 앞서 설명한 도 9 내지 도 12에서 설명한 화면 인터페이스와, 도 16에서 설명한 화면 인터페이스가 제1 음성 처리 지원 장치(400) 또는 제2 음성 처리 지원 장치(500) 중 어느 하나가 통신 서비스 연결 협상 결과에 따라 선택되는 경우에 따라 제공될 수 있을 것이다. 예를 들어, 제1 음성 처리 지원 장치(400)가 STT 서비스 및 TTS 서비스 중 적어도 하나의 지원을 위해 이용되는 경우 도 9 내지 도 12에서 설명한 화면 인터페이스가 송신측 단말기 및 수신측 단말기에서 제공될 수 있다. 그리고 제2 음성 처리 지원 장치(500)가 STT 서비스 및 TTS 서비스 중 적어도 하나의 지원을 위해 이용되는 경우 도 16 등에서 설명한 화면 인터페이스가 수신측 단말기에서 제공될 수 있을 것이다.

도 20은 본 발명의 실시 예에 따른 통신 서비스 운용에 있어서 TTS 서비스 운용에 있어서의 송신측 단말기 및 수신측 단말기에 출력될 수 있는 화면 인터페이스의 일예를 나타낸 도면이다.

도 20을 참조하면, 수신측 단말기(200)는 송신측 단말기(100)로부터 특정 종류의 통신 서비스 연결 요청을 수신하는 경우, 사용자 조작에 따라 특정 종류의 통신 서비스 연결을 수락할 수 있다. 특히 수신측 단말기(200)는 STT 서비스 및 TTS 서비스 중 적어도 하나를 선택할 수 있는 화면 인터페이스를 제공할 수 있으며, 사용자가 STT 서비스 및 TTS 서비스를 활성화하도록 선택하는 경우 수신측 단말기(200)는 STT 서비스 및 TTS 서비스 운용을 지원할 수 있다. 이 과정에서 수신측 단말기(200)는 STT 서비스 운용을 위하여 제1 음성 처리 지원 장치(400)가 이용되도록 설계되거나 결정된 경우, STT 서비스 운용을 송신측 단말기(100)에 요청할 수 있다. 또한 수신측 단말기(200)는 TTS 서비스 운용을 위하여 제1 음성 처리 지원 장치(400)가 이용되도록 설계되거나 결정된 경우, TTS 서비스 운용을 요청하는 메시지를 송신측 단말기(100)에 전달할 수 있다. 여기서 수신측 단말기(200)는 STT 서비스 및 TTS 서비스가 제2 음성 처리 지원 장치(500) 및 제2 저장부(250)에 저장된 데이터베이스 중 적어도 하나를 기반으로 수행되는 경우 별도의 서비스 운용 요청을 송신측 단말기(100)에 전송하지 않을 수 있다.

한편, 수신측 단말기(200)는 2001 화면에서와 같이 STT 서비스 지원을 위한 수신측 STT 서비스 출력 영역(2010)과 TTS 서비스 지원을 위한 수신측 TTS 서비스 출력 영역(2020)을 제2 표시부(240) 일측에 출력할 수 있다. 이를 통하여 수신측 단말기(200) 사용자는 송신측 단말기(100)가 전송한 텍스트를 수신측 STT 서비스 출력 영역(2010)에 출력할 수 있다. 여기서 수신측 STT 서비스 출력 영역(2010)에 출력되는 텍스트는 송신측 단말기(100)가 제1 음성 처리 지원 장치(400) 및 제1 저장부(150)에 저장된 데이터베이스를 기반으로 음성 인식한 결과 또는 수신측 단말기(200)가 제2 음성 처리 지원 장치(500) 또는 제2 저장부(250)에 저장된 데이터베이스를 기반으로 음성 인식한 결과가 될 수 있다.

또한 수신측 단말기(200)는 앞서 언급한 바와 같이 TTS 서비스 지원을 위하여 사용자가 입력한 텍스트를 수신측 TTS 서비스 출력 영역(2020)에 출력할 수 있다. 이때 수신측 단말기(200)는 텍스트 입력을 위해 텍스트 작성기(2411)를 제2 표시부(240) 일측에 출력할 수 있다. 이때 수신측 단말기(200)는 텍스트 입력이 완료되면 텍스트 작성기(2011)를 제2 표시부(240)에서 제거할 수 있다. 2001 화면에서는 수신측 STT 서비스 출력 영역(2010) 및 수신측 TTS 서비스 출력 영역(2020)에 일정 내용만을 표시하는 것으로 나타내었으나, 상기 텍스트 작성기(2411) 표시 및 제거에 따라 송신측 단말기(100)와 송수신한 추가적인 정보를 좀 더 표시할 수 있다. 즉 텍스트 작성기(2411)가 제2 표시부(240)에 출력될 때 수신측 단말기(200)는 화면 크기를 고려하여 가장 최근에 송수신된 정보를 수신측 STT 서비스 출력 영역(2010) 및 수신측 TTS 서비스 출력 영역(2020)에 출력하고, 텍스트 작성기(2411)가 제2 표시부(240)에서 제거될 때 사전 정의된 일정 개수의 송수신 정보가 수신측 STT 서비스 출력 영역(2010) 및 수신측 TTS 서비스 출력 영역(2020) 중 적어도 하나에 출력하도록 화면 리사이징 및 표시 포맷 변경을 지원할 수 있다.

한편 송신측 단말기(100)는 기본적으로 별도의 텍스트 출력 필요 없이 음성 입력을 기준으로 통신 서비스를 지원할 수 있다. 그러나 2003 화면에서와 같이 송신측 단말기(100)는 사용자 요청에 따라 또는 단말기 설정에 따라 제공되는 서비스 내용을 확인할 수 있도록 송신측 STT 서비스 출력 영역(2030) 및 송신측 TTS 서비스 출력 영역(2040)을 제공할 수 있다. 이를 통하여 송신측 단말기(100) 사용자는 수신측 단말기(200)에 전송되는 자신의 음성 입력이 어떠한 텍스트로 전달되는지를 확인할 수 있다. 송신측 STT 서비스 출력 영역(2030)에 출력되는 텍스트는 제1 음성 처리 지원 장치(400) 및 제1 저장부(150)에 저장된 데이터베이스를 기반으로 생성된 텍스트이거나, 수신측 단말기(200)가 피드백해준 텍스트가 중 어느 하나가 될 수 있다. 또한 송신측 단말기(100) 사용자는 송신측 TTS 서비스 출력 영역(2040)을 통하여 수신측 단말기(200) 사용자가 어떠한 텍스트를 입력하였는지를 부가적으로 확인할 수 있다. 상기 송신측 STT 서비스 출력 영역(2030) 및 송신측 TTS 서비스 출력 영역(2040)은 사용자 설정에 따라 제거될 수 있으며, 사용자가 단말기를 파지하여 뺨이나 귀 등에 일정 거리 이내로 인접시키는 경우 자동으로 제거될 수 있다. 단말기 근접 인식을 위하여 송신측 단말기(100)는 조도 센서나 근접 센서를 운용할 수 있다.

이상에서 설명한 바와 같이 본 발명의 실시 예에 따른 통신 서비스 운용 방법은 통신 서비스 운용 과정에서 사용자의 다양한 환경에 따라 적응적으로 서비스 운용이 제공되도록 지원할 수 있다. 이에 따라 사용자는 자신의 통신 서비스 환경에 따라 보다 적절한 방식의 통신 서비스를 선택할 수 있음으로 정보 전달을 보다 정확히 할 수 있거나, 정보를 놓치거나 오해할 확률을 줄일 수 있다.

한편 상술한 송신측 단말기 및 수신측 단말기는 그 제공 형태에 따라 다양한 추가 모듈을 더 포함할 수 있다. 즉 상기 단말기들은 근거리 통신을 위한 근거리통신모듈, 상기 단말기들의 유선통신방식 또는 무선통신방식에 의한 데이터 송수신을 위한 인터페이스, 인터넷 네트워크와 통신하여 인터넷 기능을 수행하는 인터넷통신모듈 및 디지털 방송 수신과 재생 기능을 수행하는 디지털방송모듈 등과 같이 상기에서 언급되지 않은 구성들을 더 포함할 수도 있다. 이러한 구성 요소들은 디지털 기기의 컨버전스(convergence) 추세에 따라 변형이 매우 다양하여 모두 열거할 수는 없으나, 상기 언급된 구성 요소들과 동등한 수준의 구성 요소가 상기 디바이스에 추가로 더 포함되어 구성될 수 있다. 또한 본 발명의 단말기는 그 제공 형태에 따라 상기한 구성에서 특정 구성들이 제외되거나 다른 구성으로 대체될 수도 있음은 물론이다. 이는 본 기술분야의 통상의 지식을 가진 자에겐 쉽게 이해될 수 있을 것이다.

또한 본 발명의 실시 예에 따른 상기 단말기들은 다양한 통신 시스템들에 대응되는 통신 프로토콜들(communication protocols)에 의거하여 동작하는 모든 이동통신 단말기(mobile communication terminals)를 비롯하여, PMP(Portable Multimedia Player), 디지털방송 플레이어, PDA(Personal Digital Assistant), 음악 재생기(예컨대, MP3 플레이어), 휴대게임단말, 스마트 폰(Smart Phone), 노트북(Notebook) 및 핸드헬드 PC 등 모든 정보통신기기와 멀티미디어기기 및 그에 대한 응용기기를 포함할 수 있다.

한편, 본 명세서와 도면을 통해 본 발명의 바람직한 실시 예들에 대하여 설명하였으며, 비록 특정 용어들이 사용되었으나, 이는 단지 본 발명의 기술 내용을 쉽게 설명하고 발명의 이해를 돕기 위한 일반적인 의미에서 사용된 것일 뿐, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시 예외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 자명한 것이다.

100 : 송신측 단말기 110, 210 : 통신부
120, 220 : 입력부 131, 231 : 마이크
133, 233 : 스피커 140, 240 : 제1 표시부
150, 250 : 저장부 151 : 통신 서비스 운용 프로그램
153 : 음성 인식 데이터베이스 155 : 음성 전환 데이터베이스
157 : 기준 값들 160, 260 : 제어부
161, 261 : 네트웍 패킹/언패킹 지원부 162, 262 : 네트웍 모니터
163, 263 : TTS/STT 결정부 164, 264 : STT 매니저
165, 265 : TTS 매니저 166 : 미디어 동기화부
167, 267 : 음성 처리부 168, 268 : 텍스트 처리부
169, 269 : 비디오 처리부 170, 270 : 카메라부
200 : 수신측 단말기 201 : 노이즈 측정부
266 : 이미지 통합부 300 : 통신 시스템
400 : 제1 음성 처리 지원 장치 500 : 제2 음성 처리 지원 장치

Claims

전자 장치에 있어서,
디스플레이;
외부 전자 장치 및 음성 처리 지원 장치와 통신을 수행하는 통신 모듈; 및
프로세서를 포함하고,
상기 프로세서는
상기 외부 전자 장치가 전송한 통신 서비스 연결 요청을 수신함에 대응하여, 기 설정되었거나 상기 통신 서비스 연결 수락 요청 수락 시 상기 전자 장치의 사용자가 결정한 입/출력 모드를 이용하여 통신 서비스를 시작하고,
상기 외부 전자 장치가 전송한 데이터를 상기 외부 전자 장치와 상기 전자 장치 사이에 설립된 제 1 통신 채널을 이용하여 수신하고,
상기 제 1 통신 채널이 유지되는 동안 상기 외부 전자 장치가 전송한 데이터 또는 사용자 입력 데이터를 상기 음성 처리 지원 장치와 상기 전자 장치 사이에 설립된 제 2 통신 채널을 이용하여 상기 음성 처리 지원 장치에 전송하고,
상기 외부 전자 장치가 전송한 데이터를 변환한 제 1 변환 데이터 또는 상기 사용자 입력 데이터를 변환한 제 2 변환 데이터를 상기 음성 처리 지원 장치로부터 수신하고,
상기 제 1 변환 데이터를 상기 디스플레이 상에 출력하고,
상기 제 2 변환 데이터를 상기 외부 전자 장치로 전송하도록 설정된 전자 장치.
제 1항에 있어서,
상기 프로세서는
상기 입/출력 모드에 따라 상기 외부 전자 장치로부터 상기 통신 서비스 연결 요청을 수신하는 경우, 상기 외부 전자 장치가 음성 인식 기반의 텍스트를 제공하는 STT(speech to Text) 서비스 및 텍스트를 음성 데이터로 전환하는 TTS(Text to speech) 서비스 중 적어도 하나를 운용하도록 상기 외부 전자 장치에 요청하도록 설정된 전자 장치.
제 1항에 있어서,
상기 프로세서는
상기 전자 장치와 상기 외부 전자 장치 사이에 송수신되는 데이터 패킷의 손실율 및 데이터 전송 지연 정도 중 적어도 하나를 포함하는 네트웍 평가 정보, 상기 전자 장치의 주변 환경 정보, 상기 외부 전자 장치의 주변 환경 정보 중 적어도 하나를 기반으로 상기 외부 전자 장치가 음성 인식 기반의 텍스트를 제공하는 STT(speech to Text) 서비스 및 텍스트를 음성 데이터로 전환하는 TTS(Text to speech) 서비스 중 적어도 하나를 운용하도록 상기 외부 전자 장치에 요청하도록 설정된 전자 장치.
제 3항에 있어서,
상기 주변 환경 정보는
상기 전자 장치 및 외부 전자 장치 중 적어도 하나의 주변 노이즈 정보, 상기 전자 장치 및 외부 전자 장치 중 적어도 하나의 이동 정보, 상기 전자 장치 및 외부 전자 장치 중 적어도 하나의 위치 정보, 상기 전자 장치 및 외부 전자 장치 중 적어도 하나의 조도 정보, 상기 전자 장치 및 외부 전자 장치 중 적어도 하나의 현재 시간 정보 중 적어도 하나를 포함하는 것을 특징으로 하는 전자 장치.
제 1항에 있어서,
상기 프로세서는
채팅 서비스 채널이 형성된 상태에서 음성 인식 기반의 텍스트를 제공하는 STT(speech to Text) 서비스 및 텍스트를 음성 데이터로 전환하는 TTS(Text to speech) 서비스 중 적어도 하나를 지원하기 위한 별도의 채널을 형성하도록 설정된 전자 장치.
제 1항에 있어서,
상기 프로세서는
영상 통화 서비스 채널이 형성된 상태에서 음성 인식 기반의 텍스트를 제공하는 STT(speech to Text) 서비스 및 텍스트를 음성 데이터로 전환하는 TTS(Text to speech) 서비스 중 적어도 하나를 지원하기 위한 별도의 채널을 형성하도록 설정된 전자 장치.
제 6항에 있어서,
상기 프로세서는
상기 STT 서비스 운용에 따라 생성된 텍스트를 상기 영상 통화 서비스 지원을 위해 전송되는 영상 데이터에 통합하여 상기 외부 전자 장치에 전송하도록 설정된 전자 장치.
제 7항에 있어서,
상기 프로세서는
상기 생성된 텍스트에 해당하는 음성 신호가 수집되는 타임스탬프 정보 및 상기 음성 신호가 수집되는 시점에 수집되는 영상 데이터의 타임스탬프 정보를 이용하여 상기 텍스트와 상기 영상 데이터의 동기화를 수행하도록 설정된 전자 장치.
전자 장치에 있어서,
디스플레이;
외부 전자 장치 및 음성 처리 지원 장치와 통신을 수행하는 통신 모듈; 및
프로세서를 포함하고,
상기 프로세서는
상기 외부 전자 장치로 통신 서비스 연결 요청을 전송하고,
상기 외부 전자 장치로부터 상기 통신 서비스 연결 승인 메시지 및 상기 외부 전자 장치가 이용 중인 입/출력 모드에 대한 정보를 상기 외부 전자 장치와 상기 전자 장치 사이에 설립된 제 1 통신 채널을 이용하여 수신하고,
상기 제 1 통신 채널이 유지되는 동안 사용자 입력 데이터를 상기 음성 처리 지원 장치와 상기 전자 장치 사이에 설립된 제 2 통신 채널을 이용하여 상기 음성 처리 지원 장치에 전송하고,
상기 사용자 입력 데이터를 변환한 변환 데이터를 상기 제 2 통신 채널을 이용하여 상기 음성 처리 지원 장치로부터 수신하고,
상기 변환 데이터를 상기 제 1 통신 채널을 이용하여 상기 외부 전자 장치에 전송하도록 설정된 전자 장치.
제 9항에 있어서,
상기 프로세서는
상기 입/출력 모드에 따라 상기 외부 전자 장치로부터 상기 통신 서비스 연결 요청을 전송하는 경우, 상기 외부 전자 장치가 음성 인식 기반의 텍스트를 제공하는 STT(speech to Text) 서비스 및 텍스트를 음성 데이터로 전환하는 TTS(Text to speech) 서비스 중 적어도 하나를 운용하도록 상기 외부 전자 장치에 요청하도록 설정된 전자 장치.
제 9항에 있어서,
상기 프로세서는
상기 전자 장치와 상기 외부 전자 장치 사이에 송수신되는 데이터 패킷의 손실율 및 데이터 전송 지연 정도 중 적어도 하나를 포함하는 네트웍 평가 정보, 상기 전자 장치의 주변 환경 정보, 상기 외부 전자 장치의 주변 환경 정보 중 적어도 하나를 기반으로 상기 외부 전자 장치가 음성 인식 기반의 텍스트를 제공하는 STT(speech to Text) 서비스 및 텍스트를 음성 데이터로 전환하는 TTS(Text to speech) 서비스 중 적어도 하나를 운용하도록 상기 외부 전자 장치에 요청하도록 설정된 전자 장치.
제 11항에 있어서,
상기 주변 환경 정보는
상기 전자 장치 및 외부 전자 장치 중 적어도 하나의 주변 노이즈 정보, 상기 전자 장치 및 외부 전자 장치 중 적어도 하나의 이동 정보, 상기 전자 장치 및 외부 전자 장치 중 적어도 하나의 위치 정보, 상기 전자 장치 및 외부 전자 장치 중 적어도 하나의 조도 정보, 상기 전자 장치 및 외부 전자 장치 중 적어도 하나의 현재 시간 정보 중 적어도 하나를 포함하는 것을 특징으로 하는 전자 장치.
제 9항에 있어서,
상기 프로세서는
채팅 서비스 채널이 형성된 상태에서 음성 인식 기반의 텍스트를 제공하는 STT(speech to Text) 서비스 및 텍스트를 음성 데이터로 전환하는 TTS(Text to speech) 서비스 중 적어도 하나를 지원하기 위한 별도의 채널을 형성하도록 설정된 전자 장치.
제 9항에 있어서,
상기 프로세서는
영상 통화 서비스 채널이 형성된 상태에서 음성 인식 기반의 텍스트를 제공하는 STT(speech to Text) 서비스 및 텍스트를 음성 데이터로 전환하는 TTS(Text to speech) 서비스 중 적어도 하나를 지원하기 위한 별도의 채널을 형성하도록 설정된 전자 장치.
제 14항에 있어서,
상기 프로세서는
상기 STT 서비스 운용에 따라 생성된 텍스트를 상기 영상 통화 서비스 지원을 위해 전송되는 영상 데이터에 통합하여 상기 외부 전자 장치에 전송하도록 설정된 전자 장치.
제 15항에 있어서,
상기 프로세서는
상기 생성된 텍스트에 해당하는 음성 신호가 수집되는 타임스탬프 정보 및 상기 음성 신호가 수집되는 시점에 수집되는 영상 데이터의 타임스탬프 정보를 이용하여 상기 텍스트와 상기 영상 데이터의 동기화를 수행하도록 설정된 전자 장치.
제 9항에 있어서,
상기 프로세서는
상기 외부 전자 장치가 전송한 데이터를 수신하고,
상기 외부 전자 장치가 전송한 데이터를 상기 제 2 통신 채널을 이용하여 상기 음성 처리 지원 장치에 전송하고,
상기 외부 전자 장치가 전송한 데이터를 변환한 변환 데이터를 상기 음성 처리 지원 장치로부터 수신하고,
상기 외부 전자 장치가 전송한 데이터를 변환한 변환 데이터를 상기 디스플레이 상에 디스플레이하도록 설정된 전자 장치.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제