KR20090087279A

KR20090087279A - 음성인식 기반의 영상통화 서비스 구현 방법 및 이에적용되는 장치

Info

Publication number: KR20090087279A
Application number: KR1020080012633A
Authority: KR
Inventors: 하복수; 이성영; 홍성민
Original assignee: 에스케이 텔레콤주식회사
Priority date: 2008-02-12
Filing date: 2008-02-12
Publication date: 2009-08-17

Abstract

본 발명은 음성인식 기반의 영상통화 서비스 구현 방법 및 이에 적용되는 장치를 개시한다. 본 발명에 따른 음성인식 기반의 영상제공 장치는, 영상통화 서비스를 토대로 하는 음성을 문자열로 변환하고, 문자열로부터 기 설정된 텍스트를 추출하여 대응하는 제 1 영상을 로딩하며, 영상통화 서비스를 토대로 하는 제 2 영상에 제 1 영상을 매칭하여 출력하기 위한 것을 특징으로 한다. 따라서, 본 발명은 영상통화 서비스를 이용하는 사용자의 음성통화 내용을 문자열로 변환하여 분석 실행한 후, 기 저장중인 영상 중에서 분석실행한 결과와 대응하는 영상을 로딩하여 영상통화 중에 송출되는 영상과 함께 상대방의 단말장치로 전달하며 이를 단방향 또는 양방향으로 구현함으로써, 사용자들로 하여금 영상통화 서비스를 이용하면서 색다른 재미를 느낄 수 있도록 할 뿐만 아니라, 영상통화 서비스를 더욱 활성화하기 위한 부가 서비스의 창출을 이룰 수 있다.

음성인식, 딕테이션, 영상통화

Description

음성인식 기반의 영상통화 서비스 구현 방법 및 이에 적용되는 장치{METHOD FOR REALIZING VOICE SENSORING-BASED VIDEOTELEPHONY SERVICE, AND APPARATUS APPLIED TO THE SAME}

본 발명은 영상통화 서비스를 구현하는 기술에 관한 것으로, 더욱 상세하게는 영상통화 서비스를 이용하는 사용자의 음성통화 내용을 문자열로 변환하여 분석 실행한 후, 기 저장중인 영상 중에서 분석실행한 결과와 대응하는 영상을 로딩하여 영상통화 중에 송출되는 영상과 함께 상대방의 단말장치로 전달하며, 이를 단방향 또는 양방향으로 구현하기 위한 음성인식 기반의 영상통화 서비스 구현 방법 및 이에 적용되는 장치에 관한 것이다.

최근에는 컴퓨터, 전자, 통신 기술이 비약적으로 발전함에 따라 이동 통신망을 이용한 다양한 이동통신 서비스가 제공되고 있다. 이에 따라 이동통신 서비스 가입자들은 무선 인터넷 서비스를 통해 뉴스, 날씨, 스포츠, 증권, 환율, 교통 정보 등의 각종 정보를 문자, 음성, 정지 영상, 동영상 등의 각종 형태로 제공받을 수 있게 되었다.

이처럼 이동통신 기술의 발달로 인해 이동통신 시스템에서 제공하는 서비스 는 음성 서비스뿐만 아니라, 서킷 데이터, 패킷 데이터 등을 전송하는 멀티미디어 통신 서비스로 발전해 가고 있다.

이를 위한 이동통신 시스템은 제 1 세대 아날로그 AMPS(Advanced Mobile Phone System) 방식과 제 2 세대 셀룰러 및 개인휴대 통신(PCS; Personal Communcation Service) 방식을 거쳐 발전하여 왔으며, 최근에는 ITU-R에서 표준으로 제정하고 있는 제 3 세대 이동통신 시스템인 IMT-2000(International Mobile Telecommunication 2000; 예컨데 CDMA 2000 1X, EV-DO, WCDMA 등)이 상용화되고 있다.

더 상세하게는, 이동통신 시스템은, 3GPP(3^rd Generation Partnership Projects) 국제 표준화 회의에서 규격화한 GSM, GPRS, WCDMA망으로 발전해왔고, 3GPP2(3^rd Generation Partnership Projects 2)국제 표준화 회의에서 규격화한 IS-95A, IS95-B, CDMA20001x, CDMA1x-EVDO로 발전되어 왔다. 이러한 무선 이동통신 기술 중, IMT-2000망의 경우, 동기식 IMT-2000을 CDMA2000 1x-EVDO라고 하고, 비동기식 IMT-2000을 WCDMA라 한다.

IMT-2000은 CDMA 2000 1X, EV-DO, WCDMA 등으로 기존의 IS-95A, IS-95B 망에서 진화한 IS-95C망을 이용하여 IS-95A, IS-95B 망에서 지원 가능한 데이터 전송속도인 14.4Kbps나 56Kbps보다 훨씬 빠른 144Kbps의 전송 속도로 무선 인터넷을 제공할 수 있는 서비스이다. 특히 IMT-2000 서비스를 이용하면 기존의 음성 및 WAP 서비스 품질의 향상은 물론 각종 멀티미디어 서비스를 보다 효율적으로 제공할 수 있 다.

여기서, WCDMA 방식은 IMT-2000 시스템 중에서 비동기식으로 구현된 이동통신 시스템으로, 기지국과 이동통신 단말 간의 통신을 위한 무선 접속방식은 CDMA 방식을 채용하지만 이동통신망 관련 기술은 GSM(Global System for Mobile communication)의 망 기술에 기반을 두고 있다. WCDMA 방식은 전체 기지국의 동기를 맞추기 위해 GPS(Global Positioning System)를 이용할 필요가 없고 국제 로밍 서비스를 지원하며, 주파수 대역폭을 5MHz로 광역화하고 2Mbps의 데이터 전송속도를 가지므로 고속 데이터 전송에 적합하며, 기존의 IS-95 및 GSM 방식에서는 제공할 수 없었던 역방향의 통화 품질에 따라 다이버시티(Diversity)를 제공하여 통신 환경이 좋지 않은 지역에서도 통화 및 데이터 전송 성능이 비교적 양호하다. 다만, WCDMA 방식은 기존의 CDMA 및 GSM 방식과의 역방향 호환성을 지원하지 않기 때문에 이동 통신망을 새로 구축하고 WCDMA 방식을 지원하는 이동통신 단말을 사용하여야 한다.

여기서, 영상통화 서비스를 위하여, WCDMA망에서는 유선 서킷 망을 기반으로 제공되며 ITU-T H.324 프로토콜 규격을 3GPP 표준화기구에서 무선 서킷 망에 맞게 일부 변경하여 3G-324M 프로토콜 규격으로 표준화하여 사용하고 있는 반면, CDMA2000 1x-EVDO망에서는 유선 패킷 망에서 사용되는 ITU-T H.323 프로토콜 규격을 무선 망에서 별도의 표준규격 없이 무선 패킷 망에 맞게 사용하고 있다.

한편, SIP(Session Initiation Protocol)기반에서는 상기 동기 망과 비동기 망을 통합한 화상전화 서비스를 제공하며, 웹폰은 기존의 패킷 데이터망을 이용하 여 화상전화 서비스를 제공하기 때문에 가격이 저렴하고, 컴퓨터 기술과 결합하여 새로운 서비스를 창출할 수 있기 때문에 차세대 기술로써 각광을 받고 있다.

이러한 영상통화 서비스는 이동통신망 또는 공중 전화망을 기반으로 하는 음성통화 서비스에서의 사용자 간에 음성으로 단순한 정보만을 주고 받는 것에 비해, 사용자 간에 서로 간의 얼굴을 보면서 음성으로 통화하는 것뿐만 아니라 음성메일, 이벤트 통지, 인스턴트 메시징 등의 다양한 기능의 구현이 가능하다.

하지만, 이러한 영상통화 서비스에서는 영상통화 단말의 카메라에서 촬영한 영상, 즉 사용자 측 영상만을 상대 측 사용자에게 보여주면서 음성으로 통화하기 때문에 사용자들이 영상통화 서비스에 대해 별다른 흥미를 갖지 못하며, 이에 영상통화 서비스가 활성화되지 못하고 있는 실정이다.

따라서, 사용자들로 하여금 영상통화 서비스에 대한 흥미를 느낄 수 있도록 하기 위한 부가 서비스가 절실히 요구되고 있다.

따라서, 본 발명은 상기의 문제점들을 해결하기 위해 창출된 것으로, 본 발명의 목적은 영상통화를 실행하는 제 1 영상 단말장치 및 제 2 영상 단말장치 중 적어도 하나 이상의 단말에서 영상통화 서비스를 이용하는 사용자의 음성통화 내용을 문자열로 변환하여 분석 실행한 후, 기 저장중인 영상 중에서 분석실행한 결과와 대응하는 영상을 로딩하여 영상통화 중에 송출되는 영상과 함께 상대방의 단말 장치로 전달하기 위한 음성인식 기반의 영상통화 서비스 구현 방법 및 이에 적용되는 장치를 제공하는 데 있다.

또한, 본 발명의 다른 목적은 제 1 영상 단말장치 및 제 2 영상 단말장치 간에 영상통화 세션을 설정하여 영상통화 서비스를 제공하는 서비스 관리서버가 제 1 영상 단말장치 및 제 2 영상 단말장치 중 적어도 어느 하나의 단말장치로부터의 요청에 응답하여 영상통화 서비스를 이용하는 사용자의 음성통화 내용을 문자열로 변환하여 분석 실행한 후, 기 저장중인 영상 중에서 분석실행한 결과와 대응하는 영상을 로딩하여 영상통화 중에 송출되는 영상과 함께 상대방의 단말장치로 전달하기 위한 음성인식 기반의 영상통화 서비스 구현 방법 및 이에 적용되는 장치를 제공하는 데 있다.

그리고, 본 발명의 또 다른 목적은 사용자의 음성통화 내용을 문자열로 변환하여 분석 실행한 후, 기 저장중인 영상 중에서 분석실행한 결과와 대응하는 영상을 로딩하여 영상통화 중에 송출되는 영상과 함께 송출하는 것을 단방향 또는 양방향으로 구현하기 음성인식 기반의 영상통화 서비스 구현 방법 및 이에 적용되는 장치를 제공하는 데 있다.

상기 목적을 달성하기 위한 본 발명의 제 1 관점에 따른 음성인식 기반의 영상제공 장치는, 영상통화 서비스를 토대로 하는 음성을 문자열로 변환하고, 상기 문자열로부터 기 설정된 텍스트를 추출하여 대응하는 제 1 영상을 로딩하며, 상기 영상통화 서비스를 토대로 하는 제 2 영상에 상기 제 1 영상을 매칭하여 출력하기 위한 것을 특징으로 한다.

바람직하게는, 상기 음성인식 기반의 영상제공 장치는 상기 음성 및 상기 제 2 영상을 제공하는 영상통화 세션과 연결하기 위한 영상통화 인터페이스부, 상기 음성을 디지털 음성데이터로 변환하여 적어도 하나 이상의 데이터 블록을 형성하고, 기 설정된 문자변환 테이블을 토대로 상기 적어도 하나 이상의 데이터 블록을 상기 문자열로 변환하기 위한 음성 딕테이션부, 상기 문자열로부터 상기 텍스트를 추출하기 위한 텍스트 추출부, 상기 텍스트를 토대로 적어도 하나 이상의 영상을 기 저장하는 데이터베이스로부터 상기 제 1 영상을 로딩하여 상기 제 2 영상과 매칭하기 위한 영상 매칭부 및 상기 영상통화 서비스를 토대로 하는 사용자의 입력설정에 응답하여 음성인식 기반의 영상제공을 위한 모드 전환을 통해 상기 영상통화 세션으로부터 상기 음성 및 상기 제 2 영상을 제공받고, 상기 음성에 대한 인식을 통해 추출되는 상기 제 1 영상을 상기 제 2 영상에 매칭하여 상기 영상통화 세션으로 출력하기 위한 프로세싱을 실행하는 제어부를 포함하는 것을 특징으로 한다.

바람직하게는, 상기 음성인식 기반의 영상제공 장치는 상기 제 1 영상을 상기 영상통화 세션에 푸시 방식으로 출력하여 상기 제 2 영상과 매칭하기 위한 영상 전송부를 더 포함하는 것을 특징으로 한다.

바람직하게는, 상기 음성인식 기반의 영상제공 장치는 상기 제 1 영상을 상기 제 2 영상에 오버랩 합성하여 상기 영상통화 세션에 출력하기 위한 영상 전송부를 더 포함하는 것을 특징으로 한다.

바람직하게는, 상기 음성인식 기반의 영상제공 장치는 영상통화를 실행하는 제 1 영상 단말장치 및 제 2 영상 단말장치 중 적어도 하나 이상에 구비되는 것을 특징으로 한다.

바람직하게는, 상기 제 1 영상 단말장치 또는 상기 제 2 영상 단말장치는 상기 제 1 영상이 푸시 방식으로 수신되는 경우, 상기 제 2 영상을 디스플레이하는 단말화면에 상기 제 1 영상을 팝-업 하는 것을 특징으로 한다.

바람직하게는, 상기 제 1 영상 단말장치 또는 상기 제 2 영상 단말장치는 상기 제 1 영상이 상기 제 2 영상에 오버랩 합성되어 수신되는 경우, 단말화면에 합성된 영상을 디스플레이하는 것을 특징으로 한다.

바람직하게는, 상기 음성인식 기반의 영상제공 장치는 영상통화를 실행하는 제 1 영상 단말장치 및 제 2 영상 단말장치와 연동하여 상기 영상통화 서비스를 제공하기 위한 서비스 관리서버에 구비되는 것을 특징으로 한다.

바람직하게는, 상기 제어부는 상기 제 1 영상 단말장치로부터 상기 음성에 대한 인식에 기반한 영상제공 요청이 있는 경우, 상기 제 1 영상을 상기 제 2 영상에 매칭하여 상기 제 2 영상 단말장치로 전달하는 것을 특징으로 한다.

바람직하게는, 상기 제어부는 상기 제 2 영상 단말장치로부터 상기 음성에 대한 인식에 기반한 영상제공 요청이 있는 경우, 상기 제 1 영상을 상기 제 2 영상에 매칭하여 상기 제 2 영상 단말장치로 전달하는 것을 특징으로 한다.

바람직하게는, 상기 음성은 영상통화를 실행하는 제 1 영상 단말장치 및 제 2 영상 단말장치 중 어느 하나로부터 형성되는 음성인 것을 특징으로 한다.

바람직하게는, 상기 텍스트는 단어 또는 자연어 문장인 것을 특징으로 한다.

바람직하게는, 상기 제 1 영상은 상기 텍스트와 대응하여 사용자에 의해 임의적으로 설정되는 정지 영상 또는 동영상인 것을 특징으로 한다.

바람직하게는, 상기 제 2 영상은 상기 영상통화 세션 상에서 상기 음성과 동기화되는 영상인 것을 특징으로 한다.

또한, 상기 목적을 달성하기 위한 본 발명의 제 2 관점에 따른 음성인식 기반의 영상통화 서비스 구현 방법은, (가) 제 1 영상 단말장치가 제 2 영상 단말장치와 영상통화 세션을 설정하여 영상통화를 실행하는 단계, (나) 상기 제 2 영상 단말장치로 전달하는 음성에 대한 음성 딕테이션 변환을 실행하여 대응하는 문자열을 형성하는 단계, (다) 상기 문자열로부터 기 설정된 텍스트를 추출하는 단계, (라) 적어도 하나 이상의 영상을 기 저장하는 데이터베이스로부터 상기 텍스트와 대응하는 제 1 영상을 로딩하는 단계 및 (마) 상기 영상통화 세션으로부터 상기 음성과 동기화되는 제 2 영상을 제공받아 상기 제 1 영상과 매칭하여 상기 제 2 영상 단말장치로 전달하는 단계를 포함하는 것을 특징으로 한다.

바람직하게는, 상기 음성인식 기반의 영상통화 서비스 구현 방법은 (바) 상기 제 2 영상 단말장치가 상기 제 1 영상 및 상기 제 2 영상 간에 매칭으로 형성되는 영상을 단말화면에 디스플레이하는 단계를 더 포함하는 것을 특징으로 한다.

바람직하게는, 상기 음성인식 기반의 영상통화 서비스 구현 방법은 (사) 상기 제 2 영상 단말장치가 상기 제 1 영상 단말장치에 전달하는 음성을 토대로 상기 (나) 내지 (마) 단계를 통해 형성되는 영상을 상기 제 1 영상 단말장치에 전달하는 단계를 더 포함하는 것을 특징으로 한다.

바람직하게는, 상기 (바) 단계는 상기 제 1 영상 단말장치가 상기 제 1 영상을 상기 영상통화 세션에 푸시 출력하는 경우, 상기 제 2 영상을 디스플레이하는 단말화면에 상기 제 1 영상을 팝-업 하는 것을 특징으로 한다.

바람직하게는, 상기 (바) 단계는 상기 제 1 영상 단말장치가 상기 제 2 영상에 상기 제 1 영상을 오버랩 합성하여 상기 영상통화 세션에 출력하는 경우, 단말화면에 합성된 영상을 디스플레이하는 것을 특징으로 한다.

그리고, 상기 목적을 달성하기 위한 본 발명의 제 3 관점에 따른 음성인식 기반의 영상통화 서비스 구현 방법은, (가) 영상통화 서비스를 제공하는 서비스 관리서버가 제 1 영상 단말장치 및 제 2 영상 단말장치 간에 영상통화 세션을 설정하여 영상통화를 실행하는 단계, (나) 상기 제 1 영상 단말장치로부터 음성인식 기반의 영상제공에 대한 요청에 응답하여 상기 제 2 영상 단말장치로 전달하는 음성에 대한 음성 딕테이션 변환을 실행한 결과로 문자열을 형성하는 단계, (다) 상기 문자열로부터 기 설정된 텍스트를 추출하는 단계, (라) 적어도 하나 이상의 영상을 기 저장하는 데이터베이스로부터 상기 텍스트와 대응하는 제 1 영상을 로딩하는 단계 및 (마) 상기 영상통화 세션으로부터 상기 음성과 동기화되는 제 2 영상을 제공받아 상기 제 1 영상과 매칭하여 상기 제 2 영상 단말장치로 전달하는 단계를 포함하는 것을 특징으로 한다.

바람직하게는, 상기 (바) 단계는 상기 서비스 관리서버가 상기 제 1 영상을 상기 영상통화 세션에 푸시 출력하는 경우, 상기 제 2 영상을 디스플레이하는 단말화면에 상기 제 1 영상을 팝-업하는 것을 특징으로 한다.

바람직하게는, 상기 (바) 단계는 상기 서비스 관리서버가 상기 제 2 영상에 상기 제 1 영상을 오버랩 합성하여 상기 영상통화 세션에 출력하는 경우, 단말화면에 합성된 영상을 디스플레이하는 것을 특징으로 한다.

따라서, 본 발명에서는 영상통화 서비스를 이용하는 사용자의 음성통화 내용을 문자열로 변환하여 분석 실행한 후, 기 저장중인 영상 중에서 분석실행한 결과와 대응하는 영상을 로딩하여 영상통화 중에 송출되는 영상과 함께 상대방의 단말장치로 전달하며 이를 단방향 또는 양방향으로 구현함으로써, 사용자들로 하여금 영상통화 서비스를 이용하면서 색다른 재미를 느낄 수 있도록 할 뿐만 아니라, 영상통화 서비스를 더욱 활성화하기 위한 부가 서비스의 창출이 가능한 이점이 있다.

이하, 첨부도면들을 참조하여 본 발명에 따른 음성인식 기반의 영상제공 장 치의 바람직한 실시 예를 보다 상세히 설명하면 다음과 같다.

도 1은 본 발명의 일실시 예에 따른 음성인식 기반의 영상제공 장치(110)의 구성도이다. 도 1에 단지 예로써 도시된 바와 같이, 음성인식 기반의 영상제공 장치(110)는 영상통화를 실행하는 제 1 영상 단말장치(100) 및 제 2 영상 단말장치(300) 중 적어도 어느 하나에 구비됨에 따라, 상기 제 1 영상 단말장치(100) 및 제 2 영상 단말장치(300) 중 어느 하나의 단말장치로부터 형성되는 음성을 음성 딕테이션 프로세싱을 통해 해당하는 문자열로 변환하고, 이러한 문자열로부터 기 설정된 텍스트를 추출하여 대응하는 제 1 영상을 로딩하며, 상기 음성과 동기화되어 영상통화 세션으로 전달되는 제 2 영상에 상기 제 1 영상을 매칭하여 영상통화망(200)을 거쳐 상대방 단말장치로 전달하게 된다.

여기서, 음성인식 기반의 영상제공 장치(110)는 제 1 영상 단말장치(100) 및 제 2 영상 단말장치(300)에 모두 구비되어 영상통화 서비스를 기반으로 하는 음성인식을 실행하여 특정되는 영상을 전달하기 위한 서비스를 양방향으로 구현할 수 있으며, 이하에서는 보다 상세한 설명을 위해 상기 제 1 영상 단말장치(100)에서 상기 제 2 영상 단말장치(300)로 전달하는 음성에 관한 것으로 한정하기로 한다.

상기 제 1 영상 단말장치(100)에 구비되는 음성인식 기반의 영상제공 장치(110)는 제 1 영상 단말장치(100)와 제 2 영상 단말장치(300) 간에 형성되는 영상통화 세션으로부터 제 1 영상 단말장치(100)에서 제 2 영상 단말장치(300)로 전달하는 음성 및 상기 음성과 동기화되는 제 2 영상을 제공받기 위한 영상통화 인터페이스부(111), 상기 음성을 디지털 음성데이터로 변환하여 적어도 하나 이상의 데 이터 블록을 형성하고, 기 설정된 문자변환 테이블을 토대로 상기 적어도 하나 이상의 데이터 블록을 문자열로 변환하기 위한 음성 딕테이션부(112), 문자열로부터 기 설정된 텍스트를 추출하기 위한 텍스트 추출부(113), 추출한 텍스트를 토대로 적어도 하나 이상의 영상을 기 저장하는 데이터베이스로부터 제 1 영상을 로딩하여 상기 제 2 영상과 매칭하기 위한 영상 매칭부(114), 및 영상통화 서비스를 토대로 하는 사용자의 입력설정에 응답하여 음성인식 기반의 영상제공을 위한 모드 전환을 통해 영상통화 세션으로부터 음성 및 제 2 영상을 제공받고, 음성에 대한 인식을 통해 추출되는 제 1 영상을 제 2 영상과 매칭하여 상기 영상통화 세션으로 출력하기 위한 일련의 프로세싱을 실행하는 제어부(115)를 포함한다.

더 나아가, 음성인식 기반의 영상제공 장치(110)는 제 1 영상을 영상통화 세션을 푸시 방식으로 전송하여 제 2 영상 단말장치(300)로 하여금 단말화면에 제 2 영상을 디스플레하는 중에 상기 제 1 영상을 제공받아 팝-업하여 디스플레이하도록 하기 위한 영상 전송부(116)를 더 포함한다.

또한, 상기 영상 전송부(116)는 제 1 영상을 제 2 영상에 오버랩 합성하여 재형성된 영상을 제 2 영상 단말장치(300)로 전송하도록 구현하는 것도 가능하다.

상기 텍스트는 '꽃', '자동차' 등과 같은 단어이거나, '사랑한다', '싫다' 등과 같은 자연어 문장일 수 있으며, 이는 사용자에 의해 사전에 설정되는 것이다.

이와 더불어, 상기 제 1 영상은 사용자에 의해 설정된 텍스트와 대응하여 디스플레이 출력되기 위한 것으로, 이도 마찬가지로 상기 텍스트와 대응하여 사용자로 하여금 임의적으로 설정되는 정지 영상 또는 동영상이다.

상기 음성 딕테이션부(112)는 음성에 대한 변환을 거듭하여 대응하는 문자열을 형성하기 위한 것으로서, 이는 현재 당업자에 의해 실현 가능할 수 있을 정도로 구현 가능한 현존하는 기술이므로 이에 대한 구체적인 기재는 하지 않기로 한다.

도 2는 도 1에 도시된 음성인식 기반의 영상제공 장치(110)의 동작과정을 나타내는 순서도이다. 도 2에 단지 예로써 도시된 바와 같이, 음성인식 기반의 영상통화 서비스 구현 방법은 음성인식 기반의 영상제공 장치(110)를 구비하는 제 1 영상 단말장치(100)와 제 2 영상 단말장치(300) 간의 영상통화 세션을 토대로 하는 영상통화를 실행하는 것으로 진행된다(S100).

상기 음성인식 기반의 영상제공 장치(110)는 영상통화 세션으로부터 상기 제 1 영상 단말장치(100)가 송출하는 음성 및 상기 음성과 동기화되는 제 2 영상을 제공받아, 상기 음성에 대한 딕테이션 변환을 실행하여 대응하는 문자열을 형성한다(S102 및 S104).

이후로, 음성인식 기반의 영상제공 장치(110)는 형성한 문자열로부터 기 설정한 소정의 텍스트를 추출하기 위한 과정을 실행하며, 해당하는 텍스트가 존재하지 않을 경우에는 영상통화 서비스에서 통상적으로 송 수신되는 상기 제 2 영상만을 제 2 영상 단말장치(300)에 전달하게 된다(S106).

상기 S106 단계에서 추출한 텍스트를 토대로 하여 사전에 기 저장된 영상 중에서 대응하는 제 1 영상을 로딩한 후(S108), 상기 제 1 영상을 제 2 영상과 매칭하는 과정을 거쳐 상기 제 2 영상에 상기 제 1 영상을 오버랩 합성하여 제 2 영상 단말장치(300)로 전달한다(S110 및 S112).

이후로, 상기 제 2 영상 단말장치(300)는 제공되는 영상을 단말화면에 디스플레이한다(S114).

여기서, 상기 제 1 영상을 제 2 영상과 매칭하는 과정에서 제 1 영상을 제 2 영상 단말장치(300)로 푸시 방식을 통해 전달하게 되면, 상기 제 2 영상 단말장치(300)가 디스플레이 중인 제 2 영상에 상기 제 1 영상을 팝-업 하여 출력하는 것으로 구현할 수도 있다.

도 3은 본 발명의 다른 실시 예에 따른 음성인식 기반의 영상제공 장치(211)의 구성도이다. 도 3에 단지 예로써 도시된 바와 같이, 음성인식 기반의 영상제공 장치(211)가 영상통화를 실행하는 제 1 영상 단말장치(100) 및 제 2 영상 단말장치(300)와 연동하여 영상통화 서비스를 제공하기 위한 서비스 관리서버(210)에 구비되는 것도 가능하다.

상기 서비스 관리서버(210)에 구비되는 음성인식 기반의 영상제공 장치(211)는 제 1 영상 단말장치(100)로부터 제 2 영상 단말장치(300)로 전달하는 음성에 대한 인식에 기반한 영상제공의 요청이 있는 경우, 제 1 영상 단말장치(100) 및 제 2 영상 단말장치(300) 간에 형성되는 영상통화 세션으로부터 상기 음성 및 상기 음성과 동기화되는 제 2 영상을 제공받기 위한 영상통화 인터페이스부(211-1), 음성을 디지털 음성데이터로 변환하여 적어도 하나 이상의 데이터 블록을 형성하고, 기 설정된 문자변환 테이블을 토대로 상기 적어도 하나 이상의 데이터 블록을 문자열로 변환하기 위한 음성 딕테이션부(211-2), 문자열로부터 기 설정된 텍스트를 추출하기 위한 텍스트 추출부(211-3), 텍스트를 토대로 적어도 하나 이상의 영상을 기 저장하는 데이터베이스로부터 대응하는 제 1 영상을 로딩하여 상기 제 2 영상과 매칭하기 위한 영상 매칭부(211-4), 및 영상통화 서비스를 실행하며 음성인식 기반의 영상제공을 위한 모드 전환을 실행하여 영상통화 세션으로부터 음성 및 제 2 영상을 제공받고, 음성에 대한 인식을 통해 추출되는 제 1 영상을 제 2 영상에 매칭하여 제 2 영상 단말장치(300)로 전달하기 위한 일련의 프로세싱을 실행하는 제어부(211-5)를 포함한다.

더 나아가, 상기 음성인식 기반의 영상제공 장치(211)는 제 1 영상을 영상통화 세션을 푸시방식으로 전송하여 제 2 영상 단말장치(300)로 하여금 단말화면에 제 2 영상을 디스플레하는 중에 상기 제 1 영상을 제공받아 팝-업하여 디스플레이하도록 하기 위한 영상 전송부(211-6)를 더 포함한다.

또한, 상기 영상 전송부(211-6)는 제 1 영상을 제 2 영상에 오버랩 합성하여 재형성된 영상을 제 2 영상 단말장치(300)로 전송하도록 구현하는 것도 가능하다.

아울러, 상기 음성인식 기반의 영상제공 장치(211)는 제 2 영상 단말장치(300)로부터 제 1 영상 단말장치(100)로 전달하는 음성에 대한 인식에 기반한 영상제공의 요청이 있는 경우, 상기의 과정을 재차 실행하게 된다.

도 4는 도 3에 도시된 음성인식 기반의 영상제공 장치(211)의 동작과정을 나타내는 순서도이다. 도 4에 단지 예로써 도시된 바와 같이, 음성인식 기반의 영상 통화 서비스 구현 방법은 음성인식 기반의 영상제공 장치(211)를 구비하는 서비스 관리서버(210)가 제 1 영상 단말장치(100)와 제 2 영상 단말장치(300) 간의 영상통화 세션을 토대로 하는 영상통화를 실행하는 것으로 진행된다(S200).

상기 서비스 관리서버(210)는 상기 제 1 영상 단말장치(100)로부터 음성인식 기반의 영상제공에 대한 요청에 응답함에 따라, 구비된 음성인식 기반의 영상제공 장치(211)를 구동하여 영상통화 세션으로부터 상기 제 1 영상 단말장치(100)가 송출하는 음성 및 상기 음성과 동기화되는 제 2 영상을 제공받아, 상기 음성에 대한 딕테이션 변환을 실행하여 대응하는 문자열을 형성한다(S202 내지 S206).

이후로, 음성인식 기반의 영상제공 장치(211)는 형성한 문자열로부터 기 설정한 소정의 텍스트를 추출하기 위한 과정을 실행하며, 해당하는 텍스트가 존재하지 않을 경우에는 영상통화 서비스에서 통상적으로 송 수신되는 상기 제 2 영상만을 제 2 영상 단말장치(300)에 전달하게 된다(S208).

상기 S208 단계에서 추출한 텍스트를 토대로 하여 사전에 기 저장된 영상 중에서 대응하는 제 1 영상을 로딩한 후(S210), 상기 제 1 영상을 제 2 영상과 매칭하는 과정을 거쳐 상기 제 2 영상에 상기 제 1 영상을 오버랩 합성하여 제 2 영상 단말장치(300)로 전달한다(S212 및 S214).

이후로, 상기 제 2 영상 단말장치(300)는 제공되는 영상을 단말화면에 디스플레이한다(S216).

여기서, 상기 제 1 영상을 제 2 영상과 매칭하는 과정에서 제 1 영상을 제 2 영상 단말장치(300)로 푸시 방식을 통해 전달하게 되면, 상기 제 2 영상 단말장 치(300)가 디스플레이 중인 제 2 영상에 상기 제 1 영상을 팝-업 하여 출력하는 것으로 구현할 수도 있다.

상기에서는 본 발명의 바람직한 실시 예를 참조하여 설명하였지만, 해당기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

또한, 본 발명은 영상통화를 실행하는 제 1 영상 단말장치 및 제 2 영상 단말장치 중 적어도 하나 이상의 단말에서 영상통화 서비스를 이용하는 사용자의 음성통화 내용을 문자열로 변환하여 분석 실행한 후, 기 저장중인 영상 중에서 분석실행한 결과와 대응하는 영상을 로딩하여 영상통화 중에 송출되는 영상과 함께 상대방의 단말장치로 전달하기 위한 음성인식 기반의 영상제공 장치를 구현하기 위한 것임에 따라, 상기 음성인식 기반의 영상제공 장치에 대한 시판 또는 영업의 가능성이 충분할 뿐만 아니라 현실적으로 명백하게 실시할 수 있는 정도이므로 산업상 이용가능성이 있는 발명이다.

도 1은 본 발명의 일실시 예에 따른 음성인식 기반의 영상제공 장치의 구성도,

도 2는 도 1에 도시된 음성인식 기반의 영상제공 장치의 동작과정을 나타내는 순서도,

도 3은 본 발명의 다른 실시 예에 따른 음성인식 기반의 영상제공 장치의 구성도, 및

도 4는 도 3에 도시된 음성인식 기반의 영상제공 장치의 동작과정을 나타내는 순서도이다.

< 도면의 주요 부분에 대한 부호의 설명 >

100 : 제 1 영상 단말장치 110, 211 : 음성인식 기반의 영상제공 장치

111, 211-1 : 영상통화 인터페이스부 112, 211-2 : 음성 딕테이션부

113, 211-3 : 텍스트 추출부 114, 211-4 : 영상 매칭부

115, 211-5 : 제어부 116, 211-6 : 영상 전송부

200 : 영상 통화망 210 : 서비스 관리서버

300 : 제 2 영상 단말장치

Claims

영상통화 서비스를 토대로 하는 음성을 문자열로 변환하고, 상기 문자열로부터 기 설정된 텍스트를 추출하여 대응하는 제 1 영상을 로딩하며, 상기 영상통화 서비스를 토대로 하는 제 2 영상에 상기 제 1 영상을 매칭하여 출력하기 위한 음성인식 기반의 영상제공 장치.
제 1 항에 있어서, 상기 음성인식 기반의 영상제공 장치는

상기 음성 및 상기 제 2 영상을 제공하는 영상통화 세션과 연결하기 위한 영상통화 인터페이스부;

상기 음성을 디지털 음성데이터로 변환하여 적어도 하나 이상의 데이터 블록을 형성하고, 기 설정된 문자변환 테이블을 토대로 상기 적어도 하나 이상의 데이터 블록을 상기 문자열로 변환하기 위한 음성 딕테이션부;

상기 문자열로부터 상기 텍스트를 추출하기 위한 텍스트 추출부;

상기 텍스트를 토대로 적어도 하나 이상의 영상을 기 저장하는 데이터베이스로부터 상기 제 1 영상을 로딩하여 상기 제 2 영상과 매칭하기 위한 영상 매칭부; 및

상기 영상통화 서비스를 토대로 하는 사용자의 입력설정에 응답하여 음성인식 기반의 영상제공을 위한 모드 전환을 통해 상기 영상통화 세션으로부터 상기 음성 및 상기 제 2 영상을 제공받고, 상기 음성에 대한 인식을 통해 추출되는 상기 제 1 영상을 상기 제 2 영상에 매칭하여 상기 영상통화 세션으로 출력하기 위한 프로세싱을 실행하는 제어부를 포함하는 것을 특징으로 하는 음성인식 기반의 영상제공 장치.
제 2 항에 있어서, 상기 음성인식 기반의 영상제공 장치는

상기 제 1 영상을 상기 영상통화 세션에 푸시 방식으로 출력하여 상기 제 2 영상과 매칭하기 위한 영상 전송부를 더 포함하는 것을 특징으로 하는 음성인식 기반의 영상제공 장치.
제 2 항에 있어서, 상기 음성인식 기반의 영상제공 장치는

상기 제 1 영상을 상기 제 2 영상에 오버랩 합성하여 상기 영상통화 세션에 출력하기 위한 영상 전송부를 더 포함하는 것을 특징으로 하는 음성인식 기반의 영상제공 장치.
제 2 항 내지 제 4 항 중 어느 한 항에 있어서, 상기 음성인식 기반의 영상제공 장치는

영상통화를 실행하는 제 1 영상 단말장치 및 제 2 영상 단말장치 중 적어도 하나 이상에 구비되는 것을 특징으로 하는 음성인식 기반의 영상제공 장치.
제 5 항에 있어서, 상기 제 1 영상 단말장치 또는 상기 제 2 영상 단말장치 는

상기 제 1 영상이 푸시 방식으로 수신되는 경우, 상기 제 2 영상을 디스플레이하는 단말화면에 상기 제 1 영상을 팝-업 하는 것을 특징으로 하는 음성인식 기반의 영상제공 장치.
제 5 항에 있어서, 상기 제 1 영상 단말장치 또는 상기 제 2 영상 단말장치는

상기 제 1 영상이 상기 제 2 영상에 오버랩 합성되어 수신되는 경우, 단말화면에 합성된 영상을 디스플레이하는 것을 특징으로 하는 음성인식 기반의 영상제공 장치.
제 2 항 내지 제 4 항 중 어느 한 항에 있어서, 상기 음성인식 기반의 영상제공 장치는

영상통화를 실행하는 제 1 영상 단말장치 및 제 2 영상 단말장치와 연동하여 상기 영상통화 서비스를 제공하기 위한 서비스 관리서버에 구비되는 것을 특징으로 하는 음성인식 기반의 영상제공 장치.
제 8 항에 있어서, 상기 제어부는

상기 제 1 영상 단말장치로부터 상기 음성에 대한 인식에 기반한 영상제공 요청이 있는 경우, 상기 제 1 영상을 상기 제 2 영상에 매칭하여 상기 제 2 영상 단말장치로 전달하는 것을 특징으로 하는 음성인식 기반의 영상제공 장치.
제 8 항에 있어서, 상기 제어부는

상기 제 2 영상 단말장치로부터 상기 음성에 대한 인식에 기반한 영상제공 요청이 있는 경우, 상기 제 1 영상을 상기 제 2 영상에 매칭하여 상기 제 2 영상 단말장치로 전달하는 것을 특징으로 하는 음성인식 기반의 영상제공 장치.
제 2 항 내지 제 4 항 중 어느 한 항에 있어서, 상기 음성은

영상통화를 실행하는 제 1 영상 단말장치 및 제 2 영상 단말장치 중 어느 하나로부터 형성되는 음성인 것을 특징으로 하는 음성인식 기반의 영상제공 장치.
제 2 항 내지 제 4 항 중 어느 한 항에 있어서, 상기 텍스트는

단어 또는 자연어 문장인 것을 특징으로 하는 음성인식 기반의 영상제공 장치.
제 2 항 내지 제 4 항 중 어느 한 항에 있어서, 상기 제 1 영상은

상기 텍스트와 대응하여 사용자에 의해 임의적으로 설정되는 정지 영상 또는 동영상인 것을 특징으로 하는 음성인식 기반의 영상제공 장치.
제 2 항 내지 제 4 항 중 어느 한 항에 있어서, 상기 제 2 영상은

상기 영상통화 세션 상에서 상기 음성과 동기화되는 영상인 것을 특징으로 하는 음성인식 기반의 영상제공 장치.
(가) 제 1 영상 단말장치가 제 2 영상 단말장치와 영상통화 세션을 설정하여 영상통화를 실행하는 단계;

(나) 상기 제 2 영상 단말장치로 전달하는 음성에 대한 음성 딕테이션 변환을 실행하여 대응하는 문자열을 형성하는 단계;

(다) 상기 문자열로부터 기 설정된 텍스트를 추출하는 단계;

(라) 적어도 하나 이상의 영상을 기 저장하는 데이터베이스로부터 상기 텍스트와 대응하는 제 1 영상을 로딩하는 단계; 및

(마) 상기 영상통화 세션으로부터 상기 음성과 동기화되는 제 2 영상을 제공받아 상기 제 1 영상과 매칭하여 상기 제 2 영상 단말장치로 전달하는 단계를 포함하는 것을 특징으로 하는 음성인식 기반의 영상통화 서비스 구현 방법.
제 15 항에 있어서, 상기 음성인식 기반의 영상통화 서비스 구현 방법은

(바) 상기 제 2 영상 단말장치가 상기 제 1 영상 및 상기 제 2 영상 간에 매칭으로 형성되는 영상을 단말화면에 디스플레이하는 단계를 더 포함하는 것을 특징으로 하는 음성인식 기반의 영상통화 서비스 구현 방법.
제 16 항에 있어서, 상기 음성인식 기반의 영상통화 서비스 구현 방법은

(사) 상기 제 2 영상 단말장치가 상기 제 1 영상 단말장치에 전달하는 음성을 토대로 상기 (나) 내지 (마) 단계를 통해 형성되는 영상을 상기 제 1 영상 단말장치에 전달하는 단계를 더 포함하는 것을 특징으로 하는 음성인식 기반의 영상통화 서비스 구현 방법.
제 16 항에 있어서, 상기 (바) 단계는

상기 제 1 영상 단말장치가 상기 제 1 영상을 상기 영상통화 세션에 푸시 출력하는 경우, 상기 제 2 영상을 디스플레이하는 단말화면에 상기 제 1 영상을 팝-업하는 것을 특징으로 하는 음성인식 기반의 영상통화 서비스 구현 방법.
제 16 항에 있어서, 상기 (바) 단계는

상기 제 1 영상 단말장치가 상기 제 2 영상에 상기 제 1 영상을 오버랩 합성하여 상기 영상통화 세션에 출력하는 경우, 단말화면에 합성된 영상을 디스플레이하는 것을 특징으로 하는 음성인식 기반의 영상통화 서비스 구현 방법.
(가) 영상통화 서비스를 제공하는 서비스 관리서버가 제 1 영상 단말장치 및 제 2 영상 단말장치 간에 영상통화 세션을 설정하여 영상통화를 실행하는 단계;

(나) 상기 제 1 영상 단말장치로부터 음성인식 기반의 영상제공에 대한 요청에 응답하여 상기 제 2 영상 단말장치로 전달하는 음성에 대한 음성 딕테이션 변환을 실행한 결과로 문자열을 형성하는 단계;

(다) 상기 문자열로부터 기 설정된 텍스트를 추출하는 단계;

(라) 적어도 하나 이상의 영상을 기 저장하는 데이터베이스로부터 상기 텍스트와 대응하는 제 1 영상을 로딩하는 단계; 및

(마) 상기 영상통화 세션으로부터 상기 음성과 동기화되는 제 2 영상을 제공받아 상기 제 1 영상과 매칭하여 상기 제 2 영상 단말장치로 전달하는 단계를 포함하는 것을 특징으로 하는 음성인식 기반의 영상통화 서비스 구현 방법.
제 20 항에 있어서, 상기 음성인식 기반의 영상통화 서비스 구현 방법은

(바) 상기 제 2 영상 단말장치가 상기 제 1 영상 및 상기 제 2 영상 간에 매칭으로 형성되는 영상을 단말화면에 디스플레이하는 단계를 더 포함하는 것을 특징으로 하는 음성인식 기반의 영상통화 서비스 구현 방법.
제 21 항에 있어서, 상기 음성인식 기반의 영상통화 서비스 구현 방법은

(사) 상기 제 2 영상 단말장치가 상기 제 1 영상 단말장치에 전달하는 음성을 토대로 상기 (나) 내지 (마) 단계를 통해 형성되는 영상을 상기 제 1 영상 단말장치에 전달하는 단계를 더 포함하는 것을 특징으로 하는 음성인식 기반의 영상통화 서비스 구현 방법.
제 20 항에 있어서, 상기 (바) 단계는

상기 서비스 관리서버가 상기 제 1 영상을 상기 영상통화 세션에 푸시 출력 하는 경우, 상기 제 2 영상을 디스플레이하는 단말화면에 상기 제 1 영상을 팝-업하는 것을 특징으로 하는 음성인식 기반의 영상통화 서비스 구현 방법.
제 20 항에 있어서, 상기 (바) 단계는

상기 서비스 관리서버가 상기 제 2 영상에 상기 제 1 영상을 오버랩 합성하여 상기 영상통화 세션에 출력하는 경우, 단말화면에 합성된 영상을 디스플레이하는 것을 특징으로 하는 음성인식 기반의 영상통화 서비스 구현 방법.