KR20130068172A

KR20130068172A - 음성 인식을 이용한 방송 서비스 제공 장치

Info

Publication number: KR20130068172A
Application number: KR1020110134508A
Authority: KR
Inventors: 김태균; 조용성; 최동준; 허남호
Original assignee: 한국전자통신연구원
Priority date: 2011-12-14
Filing date: 2011-12-14
Publication date: 2013-06-26

Abstract

하나 이상의 콘텐츠 제공 서버로부터 하나 이상의 콘텐츠를 수신하는 수신부, 상기 수신된 하나 이상의 콘텐츠에 포함된 오디오 정보를 자막 방송 정보로 변환하는 제1 정보 변환부, 상기 텍스트 정보를 수화 방송 정보로 변환하는 제2 변환부 및 상기 하나 이상의 콘텐츠에 포함된 음성 정보 및 상기 오디오 정보와 상기 자막 방송 정보 또는 상기 수화 방송 정보 중 어느 하나 이상을 믹싱하는 믹싱부를 포함하는 음성 인식을 이용한 방송 서비스 제공 장치를 제공한다.

Description

음성 인식을 이용한 방송 서비스 제공 장치{APPARATUS FOR OFFERING COMMUNICAION SERVICE USING BY VOICE RECOGNITION}

본 발명의 실시예들은 음성 인식을 이용한 방송 서비스 제공 장치에 관한 것으로서, 더욱 상세하게는 음성 인식 기능을 이용하여 자막과 수화 등의 장애인 보조방송 서비스를 동시에 제공하는 장치에 관한 것이다.

비장애인들에게 제공되는 방송 서비스가 특정 장애유형을 가진 장애인들에게는 기존에 제공되는 방송서비스 만으로 정보를 모두 해석할 수 없기 때문에 장애인을 위한 추가적인 보조방송 서비스가 반드시 제공되어야 한다.

하지만, 제공되는 보조 방송 서비스는 장애인의 요구 사항과 달리 제공자의 편의성과 경제성으로 인하여 이를 수용하지 못하고 있는 것이 현실이다.

따라서, 장애인들에게도 비장애인들과의 차별 없는 방송 정보를 제공하기 위해서는 장애인의 요구사항을 반영한 방송서비스가 제공되어야 한다.

현재 장애인을 위하여 제공되는 보조 방송 서비스 중에서 여러 가지 이유로 인하여 서비스 제공자들이 제공하는 수화 보조방송 서비스의 비중은 자막 보조방송 서비스의 약 10분의 1 정도밖에 되지 않는 상황이다.

하지만, 장애인의 요구사항은 다르며 고등교육을 받은 장애인의 문자를 가독하는 속도가 동일한 학력수준의 비장애인의 그 것과 비교하면 느리며, 대부분의 청각 및 언어장애인의 경우는 우선적으로 수화 보조방송 서비스가 제공되고, 자막 보조방송 서비스는 추가로 제공되는 형태의 서비스를 받기를 원하고 있다.

이는, 장애인들에게는 수화 방송이 자막 방송 서비스보다 더 많은 정보를 빠르게 획득할 수 있는 언어라는 점이며, 수화 방송에서 상세하게 표현할 수 없는 부분을 자막방송이 보조하는 형태의 서비스 제공을 원하는 것이다.

하지만, 실제로 서비스가 제공되는 형태는 정반대로 이루어지고 있으며 장애인의 이러한 요구사항을 만족시키기 위해서는 동일한 방송 서비스는 자막 보조방송 서비스와 수화 보조방송 서비스를 동시에 포함하여야 한다.

본 발명의 일실시예는 장애를 가진 시청자를 위하여 음성 인식 기능을 이용한 자막과 수화를 모두 포함하는 보조 방송 서비스를 동시에 제공하는 것을 목적으로 한다.

본 발명의 일실시예에 따른 음성 인식을 이용한 방송 서비스 제공 장치는 하나 이상의 콘텐츠 제공 서버로부터 하나 이상의 콘텐츠를 수신하는 수신부, 상기 수신된 하나 이상의 콘텐츠에 포함된 오디오 정보를 자막 방송 정보로 변환하는 제1 정보 변환부, 상기 텍스트 정보를 수화 방송 정보로 변환하는 제2 변환부 및 상기 하나 이상의 콘텐츠에 포함된 음성 정보 및 상기 오디오 정보와 상기 자막 방송 정보 또는 상기 수화 방송 정보 중 어느 하나 이상을 믹싱하는 믹싱부를 포함한다.

본 발명의 일실시예에 따르면 장애를 가진 시청자를 위하여 음성 인식 기능을 이용한 자막과 수화를 모두 포함하는 보조 방송 서비스를 동시에 제공할 수 있다.

도 1은 본 발명의 일실시예에 따른 음성 인식을 이용한 방송 서비스 제공 시스템의 구성을 도시한 도면이다.
도 2는 본 발명의 일실시예에 따른 음성 인식을 이용한 방송 서비스 제공 장치의 구성을 도시한 블록도이다.
도 3은 본 발명의 일측에 따른 음성 인식을 이용한 방송 서비스 제공 방법을 도시한 도면이다.
도 4는 본 발명의 일측에 따른 방송 서비스 요소별 서비스 구성을 도시한 도면이다.
도 5는 본 발명의 일측에 따른 방송 서비스 및 보조 방송 서비스 제공 방법을 도시한 흐름도이다.
도 6은 본 발명의 일측에 따른 기본 방송 서비스에 자막 방송 및 수화 방송 서비스를 자동 생성하여 장애인 시청자에게 제공하는 방법을 도시한 흐름도이다.

이하 첨부 도면들 및 첨부 도면들에 기재된 내용들을 참조하여 본 발명의 실시예를 상세하게 설명하지만, 본 발명이 실시예에 의해 제한되거나 한정되는 것은 아니다.

한편, 본 발명을 설명함에 있어서, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는, 그 상세한 설명을 생략할 것이다. 그리고, 본 명세서에서 사용되는 용어(terminology)들은 본 발명의 실시예를 적절히 표현하기 위해 사용된 용어들로서, 이는 사용자, 운용자의 의도 또는 본 발명이 속하는 분야의 관례 등에 따라 달라질 수 있다. 따라서, 본 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

도 1은 본 발명의 일실시예에 따른 음성 인식을 이용한 방송 서비스 제공 시스템의 구성을 도시한 도면이다.

도 1을 참조하면, 본 발명의 일측에 따른 음성 인식을 이용한 방송 서비스 제공 시스템은 하나 이상의 방송 콘텐츠를 제공하는 하나 이상의 콘텐츠 제공 서버(110), 상기 하나 이상의 방송 콘텐츠를 자막 정보 및 수화 정보로 변환하는 방송 서비스 제공 장치(120) 및 상기 자막 정보 및 상기 수화 정보를 상기 방송 콘텐츠와 함께 디스플레이 하는 디스플레이 장치(130)로 구성될 수 있다.

도 2는 본 발명의 일실시예에 따른 음성 인식을 이용한 방송 서비스 제공 장치의 구성을 도시한 블록도이다.

도 2를 참조하면, 본 발명의 일실시예에 따른 음성 인식을 이용한 방송 서비스 제공 장치(200)는 하나 이상의 콘텐츠 제공 서버로부터 하나 이상의 콘텐츠를 수신하는 수신부(210), 상기 수신된 하나 이상의 콘텐츠에 포함된 오디오 정보를 자막 방송 정보로 변환하는 제1 정보 변환부(220), 상기 텍스트 정보를 수화 방송 정보로 변환하는 제2 변환부(230) 및 상기 하나 이상의 콘텐츠에 포함된 음성 정보 및 상기 오디오 정보와 상기 자막 방송 정보 또는 상기 수화 방송 정보 중 어느 하나 이상을 믹싱하는 믹싱부(240)를 포함한다.

도 3은 본 발명의 일측에 따른 음성 인식을 이용한 방송 서비스 제공 방법을 도시한 도면이다.

본 발명의 일측에 따르면, 서비스 제공자(310)는 방송 프로그램 서비스 제작 또는 제공자를 의미한다.

일반적으로 비장애인 시청자(340)는 서비스 제공자(310)가 제작한 비디오 및 오디오를 포함한 기본 방송 서비스(320)를 수신하여 방송을 시청할 수 있지만, 장애인 시청자(350)는 서비스 제공자(310)가 제작한 비디오 및 오디오를 포함한 기본 방송 서비스(320)를 수신하여 방송을 시청하는 경우, 장애인의 장애유형에 따라서 정보를 모두 해석할 수가 없다.

본 발명의 일측에 따르면, 서비스 제공자(310)는 장애인 시청자(350)를 위한 추가적인 정보를 포함하는 장애인 보조방송 서비스(330)를 제공한다.

본 발명의 일측에 따르면, 장애인 시청자(350)가 서비스 제공자(310)가 전송한 방송 서비스를 시청하기 위해서는 비디오와 오디오를 포함한 기본 방송 서비스(320)뿐만 아니라 장애인을 위한 보조방송 서비스(330)를 모두 수신하여야 한다.

본 발명의 일측에 따르면, 서비스 제공자(310)는 기존의 비디오와 오디오를 포함한 기본 방송 서비스(320)뿐만 아니라 장애인을 위한 보조방송 서비스(330)를 모두 포함한 방송 서비스를 장애인 시청자(350)에게 제공한다.

도 4는 본 발명의 일측에 따른 방송 서비스 요소별 서비스 구성을 도시한 도면이다.

도 4를 참조하면, 본 발명의 일측에 따른 방송 서비스 제공 장치는 방송 서비스가 비디오 방송 정보(410), 오디오 방송 정보(420), 자막 방송 정보(430), 수화 방송 정보(440)로 구성되어 있는 경우, 비디오 방송 정보(410), 오디오 방송 정보(420), 자막 방송 정보(430), 수화 방송 정보(440)를 동시에 제공하기 위해서 요소간 동기화 및 믹싱(450)하여 시청자에게 제공한다.

도 5는 본 발명의 일측에 따른 방송 서비스 및 보조 방송 서비스 제공 방법을 도시한 흐름도이다.

본 발명의 일측에 따르면, 기본 방송 서비스(510)는 비디오 방송정보(520)와 오디오 방송정보(530)를 포함한다.

본 발명의 일측에 따르면, 기본 방송 서비스의 정보 중 하나인 오디오 방송정보(520)로부터 오디오 정보를 텍스트로 변환하는 과정(540)을 통하여 장애인 보조 방송 서비스의 하나 인 자막방송 서비스(550)를 생성한다.

본 발명의 일측에 따르면, 오디오 방송정보(530)로부터 텍스트로 변환하는 과정(560)을 통하여 장애인 보조방송 서비스인 수화방송 서비스(570)을 생성한다.

본 발명의 일측에 따르면, 방송 서비스는 이러한 방송 정보들이 따로 전송되는 것이 아니므로 동기화 및 믹싱(muxing)(580) 과정을 통하여 방송 서비스의 기본 요소인 비디오 방송 정보(520)와 오디오 방송정보(530)뿐만 아니라 이들로부터 변환 과정을 통하여 생성된 자막방송 정보(550), 수화방송 정보(560)를 비디오 방송 정보(520)를 기준으로 동기화하고 믹싱하여 전송한다.

도 6은 본 발명의 일측에 따른 기본 방송 서비스에 자막 방송 및 수화 방송 서비스를 자동 생성하여 장애인 시청자에게 제공하는 방법을 도시한 흐름도이다.

본 발명의 일측에 따르면, 기본 방송 서비스인 비디오 방송 정보와 오디오 방송 정보를 포함한 방송 서비스를 제작(601)한다.

본 발명의 일측에 따르면, 다음 방송 서비스로부터 비디오 방송 정보 및 오디오 방송 정보를 분리 추출한다(602).

본 발명의 일측에 따르면, 분리된 오디오 방송 정보로부터 오디오를 인식하기 위하여 여러 가지의 오디오 인식 모델을 가지고 있는지 확인한다(603).

본 발명의 일측에 따르면, 여러 가지 인식모델을 가지고 있는 경우 적합한 오디오 인식모델을 선택하고(604), 상기 인식 모델을 적용하여(605) 오디오를 텍스트로 변경(606) 및 자막을 생성한다(607).

본 발명의 일측에 따르면, 오디오 인식모델이 하나만 존재하는 경우 오디오 인식 모델을 적용하여(605) 오디오를 텍스트로 변경하고(606) 자막을 생성한다(607).

본 발명의 일측에 따르면, 오디오를 텍스트로 변경하면서 수화 생성 모델이 다중으로 존재를 하는지 확인하고(608), 수화 생성모델이 다중인 경우 적합한 수화 생성모델을 선택하고(609), 상기 생성 모델을 적용하여(610) 텍스트를 수화로 변경하고(611) 수화를 생성한다(612),

본 발명의 일측에 따르면, 수화 생성 모델이 하나만 존재하는 경우 수화 생성모델을 적용하여(610) 텍스트를 수화로 변경하고(611) 수화를 생성한다(612).

본 발명의 일측에 따르면, 기본적인 비디오 오디오 방송 서비스 신호(602)와 이를 통하여 얻어진 자막 방송 서비스 신호(607), 수화 방송 서비스 신호(612)를 장애를 가진 시청자에게 전송하기 위하여 동기화 및 muxing(613)한다.

본 발명의 일측에 따르면, 상기 믹싱된 장애인 보조 방송 서비스를 포함하는 방송 서비스(614)를 시청자에게 전송할 수 있다.

본 발명의 일측에 따르면, 장애인 시청자의 요구사항을 반영하여 음성인식을 이용하여 장애인 보조방송 서비스를 제공하는 방법을 제시할 수 있으며, 장애인 시청자는 다양한 정보를 포함하는 보조방송 서비스를 제공받을 수 있다.

본 발명의 일측에 따르면, 콘텐츠 제공자의 경우 쉽고 편리하게 장애인을 위한 보조방송 서비스를 포함한 방송서비스를 제공할 수 있다.

본 발명에 따른 실시예들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(Floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.

200: 음성 인식을 이용한 방송 서비스 제공 장치
210: 수신부
220: 제1 변환부
230: 제2 변환부
240: 믹싱부

Claims

하나 이상의 콘텐츠 제공 서버로부터 하나 이상의 콘텐츠를 수신하는 수신부;
상기 수신된 하나 이상의 콘텐츠에 포함된 오디오 정보를 자막 방송 정보로 변환하는 제1 정보 변환부;
상기 텍스트 정보를 수화 방송 정보로 변환하는 제2 변환부; 및
상기 하나 이상의 콘텐츠에 포함된 음성 정보 및 상기 오디오 정보와 상기 자막 방송 정보 또는 상기 수화 방송 정보 중 어느 하나 이상을 믹싱하는 믹싱부
를 포함하는 음성 인식을 이용한 방송 서비스 제공 장치.