KR101001618B1

KR101001618B1 - 음성 인식 정보 생성 장치 및 음성 인식 정보 생성 방법, 이를 이용한 방송 서비스 방법

Info

Publication number: KR101001618B1
Application number: KR1020080085095A
Authority: KR
Inventors: 왕지현; 정의석; 강병옥; 이윤근; 박기영; 이성주; 정호영; 박전규; 강점자; 정훈; 김종진; 전형배
Original assignee: 한국전자통신연구원
Priority date: 2008-08-29
Filing date: 2008-08-29
Publication date: 2010-12-17
Also published as: KR20100026187A

Abstract

본 발명은 음성 인식을 위한 음성 인식 정보를 생성하고 이를 이용하여 음성 입력을 통한 방송 서비스를 제공하는 기법에 관한 것으로, 방송 데이터의 문자열 정보에 따라 사전 매칭을 수행하고, 사전 매칭이 수행된 문자열의 구간 경계를 분할하여 음성 인식 대상 문자열 데이터를 생성하며, 이를 약어 처리하여 정규화한 후에, 정규화된 음성 인식 대상 문자열 데이터를 발화 이형태 문자열 데이터로 조합 생성하여 저장함으로써, 방송 서비스를 제공하기 위한 음성 입력 시 사용자 발화에 효과적으로 대응하여 해당 방송 서비스를 효과적으로 제공할 수 있는 것이다.

IP TV(Internet Protocol Television), 음성 인식

Description

음성 인식 정보 생성 장치 및 음성 인식 정보 생성 방법, 이를 이용한 방송 서비스 방법{CREATION APPARATUS AND ITS METHOD OF A SPEECH RECOGNITION INFORMATION, BROADCASTING SERVICE METHOD USING BY IT}

본 발명은 음성 인식 정보를 생성하는 기법과 방송 서비스를 제공하는 기법에 관한 것으로, 더욱 상세하게는 음성 인식에 따른 다양한 형태의 문자열을 생성하고, 이를 이용하여 음성 입력에 따른 정확한 방송 서비스를 제공하는데 적합한 음성 인식 정보 생성 장치 및 음성 인식 정보 생성 방법, 이를 이용한 방송 서비스 방법에 관한 것이다.

본 발명은 지식경제부 및 정보통신연구진흥원의 IT성장동력 기술개발 사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-036-03, 과제명: 신성장동력 산업용 대용량 대화형 분산 처리 음성 인터페이스 기술개발].

잘 알려진 바와 같이, 디지털 기술의 발전에 힘입어 가입자는 TV를 통하여 광대역 통합망(BcN : Broadband Convergence Network)을 이용한 방송 서비스를 제공받을 수 있게 되었다.

특히, IP TV(Internet Protocol Television) 방송 서비스는 IP 기반의 통신망에 연결된 TV로 다양한 콘텐츠(공중파/유선 TV 방송, 영화, 음악, 양방향 퀴즈쇼, TV 뱅킹 등)를 제공하는 서비스를 의미하며, IP TV 서비스에 있어 콘텐츠는 VOD(Video On Demand) 스트리밍, 게임뿐만 아니라 메뉴 선택, 명령 입력, 채널 시청 요구 등에 대응되어져 제공되는 해당 콘텐츠(예; 메뉴 전송, 명령 실행, 채널 변경 등)를 의미한다. 여기에서, VOD(Video On Demand) 서비스는 기존의 공중파 방송과는 다르게 인터넷 등의 통신 회선을 사용하여 원하는 시간에 원하는 매체를 볼 수 있도록 하는 서비스를 의미한다.

이러한 IP-TV 방송 서비스에 대해 설명하면, 댁내(가입자측)에는 인터넷 접속 기능이 구비된 셋탑 박스(STB; Set-Top Box)에 TV가 연결되어 있으며, IP TV 방송 서비스 제공업체 측에는 가입자가 시청을 위해 채널 선택한 콘텐츠를 댁내의 셋탑 박스로 전송하는 헤드엔드(Head-End)가 구성된다.

한편, 일반적으로 TV에 있어 사용자의 채널 조작 등의 편의성을 위해 리모콘이 제공되고 있는데, 최근에는 음성 인식 기술 발전에 힘입어 사용자는 리모콘에 시청을 원하는 채널 번호를 발화하게 되면 이 리모콘을 통해 사용자 음성 신호가 셋탑박스로 입력되며, 셋탑 박스에서는 사용자 음성을 인식하여 해당되는 채널 번호로 채널을 변경시키는 기능을 수행할 수 있다.

또한, IP TV 방송 서비스는 다양한 인터랙티브(Interactive) 콘텐츠, 예를 들어 공중파/유선 TV 방송, 영화, 음악, 양방향 퀴즈쇼, TV 뱅킹 등과 같은 단방향/양방향 서비스를 제공하며, 이러한 IP-TV 방송 서비스를 사용자가 이용하기 위해서는 특정 메뉴 선택, 특정 명령 입력, 특정 채널 시청 요구 등과 같이 콘텐츠에 대한 조작을 직접 수행하여 사용자가 원하는 콘텐츠를 수신하여 재생하게 된다.

상술한 바와 같이 종래에는 단순한 채널 조작 등에 음성 인식 기술을 적용하여 방송 서비스를 제공하기 때문에 IP TV 방송 서비스에 따른 다양한 인터랙티브 콘텐츠를 제공받는데 음성 인식 기술을 적용하기 위한 연구가 활발하게 진행되고 있다.

이에 따라, 본 발명은 음성 인식을 통한 방송 서비스를 제공하기 위해 방송 프로그램 정보에 대응하는 발화 이형태의 문자열을 데이터베이스화하여 음성 인식에 따른 방송 서비스를 원활하게 제공할 수 있는 음성 인식 정보 생성 장치 및 음성 인식 정보 생성 방법, 이를 이용한 방송 서비스 방법을 제공하고자 한다.

제 1 관점에서 본 발명은, 방송 데이터의 문자열 정보에 따라 사전 매칭을 수행하는 사전 매칭부와, 상기 사전 매칭이 수행된 문자열의 구간 경계를 분할하여 음성 인식 대상 문자열 데이터를 생성하는 구간 경계 분할부와, 상기 생성된 음성 인식 대상 문자열 데이터를 약어 처리하여 정규화하는 정규화부와, 상기 정규화된 음성 인식 대상 문자열 데이터를 발화 이형태 문자열 데이터로 조합 생성하여 저장하는 이형태 생성부를 포함하는 음성 인식 정보 생성 장치를 제공한다.

제 2 관점에서 본 발명은, 방송 데이터의 문자열 정보에 따라 사전 매칭을 수행하는 단계와, 상기 사전 매칭이 수행된 문자열의 구간 경계를 분할하여 음성 인식 대상 문자열 데이터를 생성하는 단계와, 상기 생성된 음성 인식 대상 문자열 데이터를 약어 처리하여 정규화하는 단계와, 상기 정규화된 음성 인식 대상 문자열 데이터를 발화 이형태 문자열 데이터로 조합 생성하여 저장하는 단계를 포함하는 음성 인식 정보 생성 방법을 제공한다.

제 3 관점에서 본 발명은, 방송 데이터별로 음성 인식에 따른 발화 이형태 문자열 데이터가 생성 및 저장된 상태에서 영상 재생 장치에 방송 데이터 요청을 위한 음성 신호가 입력되는지를 체크하되, 방송 데이터별 문자열 정보에 따라 사전 매칭을 수행하고, 문자열의 구간 경계를 분할하여 음성 인식 대상 문자열 데이터를 생성하며, 이를 약어 처리하여 정규화한 후에, 이러한 문자열 데이터를 조합 생성하는 방식으로 상기 발화 이형태 문자열 데이터를 생성하는 단계와, 상기 음성 신호가 입력되면 상기 입력된 음성 신호를 인식하여 이를 문자 데이터로 변환하는 단계와, 상기 변환된 문자 데이터를 포함하는 방송 데이터 전송 요청을 방송 서비스 서버로 전송하는 단계와, 상기 방송 서비스 서버에서 상기 문자 데이터와 상기 발화 이형태 문자열 데이터를 비교 분석하여 해당 방송 데이터를 검출하는 단계와, 상기 검출된 방송 데이터를 영상 재생 장치로 전송하여 이를 재생하는 단계를 포함하는 방송 서비스 제공 방법을 제공한다.

본 발명은, 음성 인식에 따른 발화 이형태 문자열 데이터가 저장된 상태에서 방송 데이터 전송을 위한 음성이 입력되면, 해당 음성 신호를 인식하여 문자 데이터로 변환하고, 이러한 문자 데이터와 함께 방송 데이터의 전송을 요청하며, 해당 문자 데이터와 저장된 발화 이형태 문자열 데이터를 비교 분석하여 해당 제목의 방송 데이터를 판별한 후에, 해당 방송 데이터를 검색 및 추출하여 영상 재생 장치에 전송함으로써, 영상 재생 장치를 통해 음성 입력된 방송 데이터의 재생을 효과적으로 수행할 수 있다.

본 발명의 기술요지는, 방송 서비스 시스템의 음성 인식 정보 생성 장치를 이용하여 입력된 방송 데이터의 문자열 정보에 따라 사전 매칭을 수행하고, 구간 경계 분할 기법으로 음성 인식 대상 문자열 데이터를 생성하며, 약어 처리 등의 정규화를 수행한 후에, 각각의 문자열을 발화 이형태 문자열 데이터로 생성하여 저장 관리한다는 것이며, 이러한 기술적 수단을 통해 종래 기술에서의 문제점을 해결할 수 있다.

이하 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예에 대하여 상세하게 설명한다.

도 1은 본 발명의 바람직한 실시 예에 따라 음성 인식에 따른 방송 서비스를 제공하는데 적합한 방송 서비스 시스템의 블록 구성도로서, 영상 재생 장치(100), 인터넷 통신망(200), 방송 서비스 서버(300) 및 방송 데이터 데이터베이스(300a)를 포함한다.

도 1을 참조하면, 영상 재생 장치(100)는 셋탑 박스, TV 등을 포함하여 양방향의 IP TV 방송 서비스를 제공하는 장치로서, 음성 인식 모듈 등을 포함하여 메뉴 선택, 명령 입력, 채널 시청 요구 등의 음성 신호가 입력되면, 입력된 음성 신호를 인식하여 그에 대응하는 제어 명령을 수행하는데, 음성 입력에 따른 방송 서비스 모드에서 특정 VOD 방송 데이터의 제목, 문자열 등의 음성 신호를 입력하게 되면 이러한 음성 신호를 인식하여 그에 대한 텍스트 형태 등의 문자 데이터로 변환하 고, 이러한 문자 데이터와 함께 해당 문자 데이터에 대응하는 방송 데이터(즉, VOD 방송 데이터)를 인터넷 통신망(200)을 통해 방송 서비스 서버(300)에 요청한다.

또한, 영상 재생 장치(100)는 방송 서비스 서버(300)로부터 인터넷 통신망(200)을 통해 전송되는 방송 데이터를 수신하여 이를 재생한다. 여기에서, 방송 데이터를 재생하기 전에 수신되는 방송 데이터의 방송 정보(예를 들면, 방송 프로그램 제목, 각종 부가 정보 등)를 화면에 표시할 수 있다.

한편, 방송 서비스 서버(300)는 VOD 등의 방송 콘텐츠를 제공하는 서버로서, 음성 인식 정보를 생성하는 장치를 포함하여 방송 데이터에 대응하는 각종 발화 이형태에 대응하는 음성 인식 정보(예를 들면, 방송 데이터 제목, 발화 이형태, 음성 인식 대상어 등)를 생성하여 데이터베이스화하여 저장한다. 여기에서, 발화 이형태는 VOD 방송 데이터의 제목으로부터 음성 인식 대상어를 생성하는 과정에서 사용자 발화 가능성이 상대적으로 높은 부분어(substring), 변이형(variants) 등의 문자열을 의미한다.

또한, 방송 서비스 서버(300)는 발화 이형태를 포함하는 음성 인식 정보를 저장한 상태에서 영상 재생 장치(100)로부터 방송 데이터가 요청되면, 그와 함께 전송되는 문자 데이터를 음성 인식 정보와 비교 분석하여 해당 문자 데이터가 포함된 방송 데이터를 방송 데이터 데이터베이스(300a)에서 검출하여 이를 인터넷 통신망(200)을 통해 영상 재생 장치(100)로 전송한다.

여기에서, 도 2는 본 발명의 바람직한 실시 예에 따라 방송 서비스 서버에 포함되는 음성 인식 정보 생성 장치의 블록 구성도로서, 음성 인식 정보 생성 장치 는 사전 매칭부(302), 사전 데이터베이스(304), 패턴 데이터베이스(306), 구간 경계 분할부(308), 정규화부(310), 이형태 생성부(312) 및 음성 인식 정보 데이터베이스(314)를 포함한다.

이러한 도 2를 참조하여 음성 인식 정보 생성 장치를 상세히 설명하면, 사전 매칭부(302)는 방송 데이터(VOD 방송 데이터)의 제목 등과 같은 문자열 정보가 입력되면 이를 사전 데이터베이스(304) 및 패턴 데이터베이스(306)를 참조하여 문자열을 탐색 및 매칭하여 그 문자열에 대한 매칭 결과(예를 들면, 제목, 고유 명사 데이터, 고빈도 어휘 데이터, 패턴 문자열 데이터 등)를 텍스트 형식으로 구간 경계 분할부(308)로 전달한다.

그리고, 사전 데이터베이스(304)는 인명, 캐릭터명, 스포츠팀명, 채널명 등과 같은 고유 명사 데이터와, 장르, 영화 종류, 화질, 과금 여부, 언어, 자막 유무 등과 같은 고빈도 어휘 데이터를 라인 단위로 텍스트 파일에 기록하여 저장하고, 이러한 고유 명사 데이터와 고빈도 어휘 데이터와 같은 사전 데이터는 필요에 따라 추출되어 사전 매칭부(302)로 제공된다.

또한, 패턴 데이터베이스(306)는 회차, 개봉일, 년도 등의 반복되는 숫자, 기호 등을 정규식(Regular Expression)으로 기술된 패턴 문자열 데이터로 저장하며, 이러한 패턴 문자열 데이터는 필요에 따라 추출되어 사전 매칭부(302)로 제공된다. 예를 들면, 영화 VOD의 제목이 "개봉영화_에어리언 VS 프레데터 2 (1/17)"인 경우 개봉일은 "(1/17)"이고, 취미레저 VOD의 제목이 "제 11 기 SK배 신예프로 10걸전"인 경우 회차 정보는 "제 11 기"이며, 교육 VOD의 제목이 "2007년 공인중개사 -10강"인 경우 회차 정보는 "10강"이 되는 것과 같이 패턴 문자열 데이터가 저장되며, 이러한 패턴 문자열 데이터는 패턴 파일에 패턴의 종류(예를 들면, 회차, 개봉일, 년도 등)와 함께 아래와 같은 [표 1]과 같이 기술될 수 있다.

[표 1]

패턴 문자열	패턴(패턴 종류=정규식)
제 1 회, 제 22 회	회차=제\d+회
5강, 10강	회차=\d+강
1부	회차=\d부
시즌2	회차=시즌\d
(1.3)	개봉일=(\d\d?/\d\d?)
(2008.08.25)	개봉일=(20\d\d.\d\d?.\d\d?)

다음에, 구간 경계 분할부(308)는 사전 매칭부(302)로부터 전달되는 매칭 결과를 이용하여 음성 인식 대상 문자열 데이터로 분할 인식하여 텍스트 형식으로 생성하는 것으로, 미등록어 기반 분할, 사전 기반 분할, 언어 성분 기반 분할, 발견적 학습 기반 분할 등의 분할 인식 기법을 이용하여 분할 인식된 문자열을 음성 인식 대상 문자열 데이터로 생성하여 이를 정규화부(310)로 전달한다.

여기에서, 도 3은 본 발명의 바람직한 실시 예에 따라 구간 경계 분할부의 상세 블록 구성도로서, 구간 경계 분할부(308)는 미등록어 기반 분할부(308a), 사전 기반 분할부(308b), 언어 성분 기반 분할부(308c) 및 발견적 학습 기반 분할부(308d)를 포함한다.

도 3을 참조하여 구간 경계 분할부(308)를 더욱 상세히 설명하면, 미등록어 기반 분할부(308a)는 사전 매칭부(302)로부터 전달되는 매칭 결과에서 매칭되지 않는 문자열의 구간을 음성 인식 대상 문자열 데이터로 생성한다. 예를 들면, 영화 VOD의 제목이 "개봉영화_에어리언 VS 프레데터 2 (1/17)"인 경우 사전 매칭부(302) 에서 "개봉영화"는 사전 데이터베이스(304)를 통해 "영화 종류"로 매칭되며, "(1/17)"은 패턴 데이터베이스(306)를 통해 "개봉일"로 매칭되는데, VOD 콘텐츠의 원래 제목인 "에어리언 VS 프레데터 2"는 매칭되지 않은 문자열이기 때문에 음성 인식 대상 문자열 데이터로 생성할 수 있다.

그리고, 사전 기반 분할부(308b)는 캐릭터 사전, 인명 사전, 스포츠명 사전, 채널명 사전, 장르 사전에 등록된 문자열을 음성 인식 대상 문자열 데이터로 생성한다. 예를 들면, 만화 VOD의 제목이 "방귀대장 뿡뿡이"인 경우 사용자가 "뿡뿡이"만으로 음성 발화할 수 있기 때문에 캐릭터 사전에 등록된 "뿡뿡이"를 음성 인식 대상 문자열 데이터로 생성할 수 있다.

또한, 언어 성분 기반 분할부(308c)는 '관형격 조사+명사(또는 구/절)', '관형절+명사(또는 구/절)' 등으로 구성된 명사구 또는 명사절의 문자열을 음성 인식 대상 문자열 데이터로 생성한다. 예를 들면, 건강 VOD의 제목이 "최승희의 한방 다이어트"의 경우 '관형격 조사('의')+명사구('한방 다이어트')로 분석이 될 수 있으며, "한방 다이어트"가 음성 인식 대상 문자열 데이터로 생성될 수 있다.

한편, 발견적 학습 기반 분할부(308d)는 다수의 방송 데이터(VOD 방송 데이터)의 제목(즉, 문자열 정보)을 분석하여 발견적 학습(Heuristic) 기반으로 획득된 규칙에 따라 음성 인식 대상 문자열 데이터를 생성한다. 예를 들면, 영화 VOD의 제목이 "내셔널 트레져 : 비밀의 책(12/19) - 18페이지의 비밀"인 경우, 기호 ":"와 "-"는 VOD 콘텐츠의 제목과 소제목을 구분하기 위해 사용되고 있으며, 사용자는 통상적으로 "내셔널 트레져", "비밀의 책", "18페이지의 비밀" 등과 같은 기호로 분 리되는 문자열만을 음성 발화하는 경우가 상대적으로 높기 때문에 이들을 각각 음성 인식 대상 문자열 데이터로 생성할 수 있다.

다음에, 정규화부(310)는 텍스트 형식의 음성 인식 대상 문자열 데이터를 발화자의 발화 음성에 대응하는 문자열로 변환하는 것으로, 구간 경계 분할부(308)로부터 음성 인식 대상 문자열이 생성 전달되면 약어 처리 등의 정규화 과정을 수행하여 이형태 생성부(312)로 전달한다. 예를 들면, 영화 VOD의 제목이 "MR. 후아유(1/3)"에서 "MR."는 "미스터"로 약어 처리를 수행하고, 영화 VOD의 제목이 "김관장VS김관장VS김관장"인 경우 "VS"는 "대"로 약어 처리를 수행하며, 영화 VOD 제목이 "ST. ELMO'S FIRE"인 경우 "ST."은 "세인트"로 약어 처리를 수행하는 방식으로 변환할 수 있다.

한편, 이형태 생성부(312)는 정규화부(310)로부터 전달되는 각각의 문자열로부터 발화 이형태 문자열 데이터를 조합 생성하고, 이를 음성 인식 정보 데이터베이스(314)에 데이터베이화하여 저장 관리한다. 예를 들면, 영화 VOD의 제목이 "내셔널 트레져 : 비밀의 책(12/19) - 18페이지의 비밀"인 경우, "내셔널 트레져", "비밀의 책", "18페이지의 비밀", "내셔널 트레져 비밀의 책", "내셔널 트레져 18페이지의 비밀" 등이 발화 이형태 문자열 데이터로 생성될 수 있으며, 이러한 발화 이형태 문자열 데이터는 해당 방송 데이터의 문자열 정보와 함께 음성 인식 정보 데이터베이스(314)에 저장 관리된다.

다음에, 상술한 바와 같은 구성을 갖는 방송 서비스 시스템의 음성 인식 정보 생성 장치를 이용하여 입력된 방송 데이터의 문자열 정보에 따라 사전 매칭을 수행하고, 구간 경계 분할 기법으로 음성 인식 대상 문자열 데이터를 생성하며, 약어 처리 등의 정규화를 수행한 후에, 각각의 문자열을 발화 이형태 문자열 데이터로 생성하여 저장 관리하는 과정에 대해 설명한다.

도 4는 본 발명의 일 실시 예에 따라 방송 데이터의 문자열 정보를 이용하여 발화 이형태 문자열 데이터를 생성하는 과정을 도시한 플로우차트이다.

도 4를 참조하면, 사전 매칭부(302)에서는 방송 데이터(VOD 방송 데이터)의 제목 등과 같은 문자열 정보가 입력되면(단계402), 이러한 문자열 정보를 사전 데이터베이스(304) 및 패턴 데이터베이스(306)를 참조하여 사전 데이터와 패턴 문자열 데이터에서 문자열을 탐색 및 매칭하여 그 문자열에 대한 매칭 결과(예를 들면, 제목, 고유 명사 데이터, 고빈도 어휘 데이터, 패턴 문자열 데이터 등)를 텍스트 형식으로 구간 경계 분할부(308)에 전달한다(단계404).

그리고, 구간 경계 분할부(308)의 미등록어 기반 분할부(308a)에서는 사전 매칭부(302)로부터 전달되는 매칭 결과에서 매칭되지 않는 문자열의 구간을 음성 인식 대상 문자열 데이터로 생성한다(단계406). 예를 들면, 영화 VOD의 제목이 "개봉영화_에어리언 VS 프레데터 2 (1/17)"인 경우 VOD 콘텐츠의 원래 제목인 "에어리언 VS 프레데터 2"를 음성 인식 대상 문자열 데이터로 생성할 수 있다.

다음에, 사전 기반 분할부(308b)에서는 캐릭터 사전, 인명 사전, 스포츠명 사전, 채널명 사전, 장르 사전 중의 어느 하나에 등록된 문자열을 음성 인식 대상 문자열 데이터로 생성한다(단계408). 예를 들면, 만화 VOD의 제목이 "방귀대장 뿡뿡이"인 경우 캐릭터 사전에 등록된 "뿡뿡이"를 음성 인식 대상 문자열 데이터로 생성할 수 있다.

또한, 언어 성분 기반 분할부(308c)에서는 명사구 또는 명사절의 문자열을 음성 인식 대상 문자열 데이터로 생성한다(단계410). 예를 들면, 건강 VOD의 제목이 "최승희의 한방 다이어트"의 경우 "한방 다이어트"가 음성 인식 대상 문자열 데이터로 생성될 수 있다.

한편, 발견적 학습 기반 분할부(308d)에서는 다수의 방송 데이터(VOD 방송 데이터)의 제목을 분석하여 발견적 학습 기반으로 획득된 규칙에 따라 음성 인식 대상 문자열 데이터를 생성한다(단계412). 예를 들면, 영화 VOD의 제목이 "내셔널 트레져 : 비밀의 책(12/19) - 18페이지의 비밀"인 경우, 기호로 분리되는 문자열인 "내셔널 트레져", "비밀의 책", "18페이지의 비밀" 등을 각각 음성 인식 대상 문자열 데이터로 생성할 수 있다.

다음에, 정규화부(310)에서는 구간 경계 분할부(308)로부터 음성 인식 대상 문자열이 생성 전달되면 약어 처리 등의 정규화 과정을 수행하여 이형태 생성부(312)로 전달한다(단계414). 예를 들면, "MR."는 "미스터"로, "VS"는 "대"로, "ST."은 "세인트"로 약어 처리를 수행하는 방식으로 변환할 수 있다.

한편, 이형태 생성부(312)에서는 정규화부(310)로부터 전달되는 각각의 문자열로부터 발화 이형태 문자열 데이터를 조합 생성하고(단계416), 이를 음성 인식 정보 데이터베이스(314)에 데이터베이화하여 저장 관리한다(단계418). 예를 들면, 영화 VOD의 제목이 "내셔널 트레져 : 비밀의 책(12/19) - 18페이지의 비밀"인 경우, "내셔널 트레져", "비밀의 책", "18페이지의 비밀", "내셔널 트레져 비밀의 책", "내셔널 트레져 18페이지의 비밀" 등이 발화 이형태 문자열 데이터로 생성될 수 있으며, 이러한 발화 이형태 문자열 데이터는 해당 방송 데이터의 문자열 정보와 함께 음성 인식 정보 데이터베이스(314)에 저장 관리된다.

따라서, 음성 인식 정보 생성 장치를 이용하여 입력된 방송 데이터의 문자열 정보를 사전 매칭하고, 이를 구간 경계로 분할 인식하여 음성 인식 대상 문자열 데이터를 생성하며, 이를 정규화한 후에 해당 방송 데이터에 대응하여 발화 이형태에 따른 문자열 데이터를 효과적으로 저장 관리할 수 있다.

다음에, 상술한 바와 같이 방송 데이터의 문자열 정보를 이용하여 생성된 발화 이형태 문자열 데이터가 저장된 상태에서 방송 서비스를 위한 음성 입력 모드 시 방송 서비스를 요청하는 음성 신호가 입력되면 이러한 음성 신호를 인식하여 문자 데이터로 변환하고, 변환된 문자 데이터에 대응하는 방송 데이터를 요청하며, 이러한 요청에 따라 해당 문자 데이터에 대응하는 발화 이형태 문자열 데이터를 검출한 후에, 이에 따른 해당 방송 데이터를 추출하여 영상 재생 장치에 전송하며, 영상 재생 장치에서 재생하는 과정에 대해 설명한다.

도 5는 본 발명의 다른 실시 예에 따라 음성 인식 정보가 저장된 상태에서 음성 입력을 통해 방송 서비스를 제공하는 과정을 도시한 플로우차트이다.

도 5를 참조하면, 상술한 바와 같은 도 4를 참조하여 설명한 음성 인식 정보를 생성하여 그 문자열 데이터들을 해당 방송 데이터에 대응하여 저장된 상태에서 음성 입력, 음성 인식 등을 수행하는 영상 재생 장치(100)의 음성 입력 모드를 수행할 경우에(단계502), 영상 재생 장치(100)에서는 사용자가 발화한 음성(음성 신 호)이 입력되는지를 체크한다(단계504).

상기 단계(504)에서의 체크 결과, 사용자가 발화한 음성이 입력된 경우 영상 재생 장치(100)에서는 입력된 음성 신호를 인식한 후에, 인식된 음성 신호를 텍스트 형태의 문자 데이터로 변환한다(단계506).

그리고, 영상 재생 장치(100)에서는 변환된 문자 데이터에 대응하는 제목을 갖는 방송 데이터(VOD 방송 데이터)의 전송을 인터넷 통신망(200)을 통해 방송 서비스 서버(300)에 요청한다(단계508).

다음에, 방송 서비스 서버(300)에서는 방송 데이터의 전송 요청에 따른 문자 데이터를 음성 인식 정보 생성 장치를 통해 저장 관리되는 발화 이형태 문자열 데이터와 비교한 후, 그 비교 결과에 따라 해당 제목의 방송 데이터를 방송 데이터 데이터베이스(300a)에서 검색하여 추출한다(단계510).

그리고, 방송 서비스 서버(300)에서는 추출된 방송 데이터를 인터넷 통신망(200)을 통해 영상 재생 장치(100)로 전송한다(단계512).

이어서, 영상 재생 장치(100)에서는 전송되는 방송 데이터를 수신하여 이를 신호 처리한 후 도시 생략된 모니터 및 스피커를 통해 재생한다(단계514). 여기에서, 영상 재생 장치(100)에서는 방송 데이터를 수신한 후, 재생하기 전에 해당 방송 데이터의 방송 정보(예를 들면, 방송 프로그램 제목, 각종 부가 정보 등)를 화면에 표시할 수 있다.

따라서, 음성 인식에 따른 발화 이형태 문자열 데이터가 저장된 상태에서 방송 데이터 전송을 위한 음성이 입력되면, 해당 음성 신호를 인식하여 문자 데이터 로 변환하고, 이러한 문자 데이터와 함께 방송 데이터의 전송을 요청하며, 해당 문자 데이터와 저장된 발화 이형태 문자열 데이터를 비교 분석하여 해당 제목의 방송 데이터를 판별한 후에, 해당 방송 데이터를 검색 및 추출하여 영상 재생 장치에 전송함으로써, 영상 재생 장치를 통해 음성 입력된 방송 데이터의 재생을 효과적으로 수행할 수 있다.

이상의 설명에서는 본 발명의 바람직한 실시 예들을 제시하여 설명하였으나 본 발명이 반드시 이에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능함을 쉽게 알 수 있을 것이다.

도 1은 본 발명의 바람직한 실시 예에 따라 음성 인식에 따른 방송 서비스를 제공하는데 적합한 방송 서비스 시스템의 블록 구성도,

도 2는 본 발명의 바람직한 실시 예에 따라 방송 서비스 서버에 포함되는 음성 인식 정보 생성 장치의 블록 구성도,

도 3은 본 발명의 바람직한 실시 예에 따라 구간 경계 분할부의 상세 블록 구성도,

도 4는 본 발명의 일 실시 예에 따라 방송 데이터의 문자열 정보를 이용하여 발화 이형태 문자열 데이터를 생성하는 과정을 도시한 플로우차트,

도 5는 본 발명의 다른 실시 예에 따라 음성 인식 정보가 저장된 상태에서 음성 입력을 통해 방송 서비스를 제공하는 과정을 도시한 플로우차트.

<도면의 주요부분에 대한 부호의 설명>

100 : 영상 재생 장치 200 : 인터넷 통신망

300 : 방송 서비스 서버 300a : 방송 데이터 데이터베이스

302 : 사전 매칭부 304 : 사전 데이터베이스

306 : 패턴 데이터베이스 308 : 구간 경계 분할부

308a : 미등록어 기반 분할부 308b : 사전 기반 분할부

308c : 언어 성분 기반 분할부 308d : 발견적 학습 기반 분할부

310 : 정규화부 312 : 이형태 생성부

314 : 음성 인식 정보 데이터베이스

Claims

방송 데이터의 문자열 정보에 따라 사전 매칭을 수행하는 사전 매칭부와,

상기 사전 매칭이 수행된 문자열의 구간 경계를 분할하여 음성 인식 대상 문자열 데이터를 생성하는 구간 경계 분할부와,

상기 생성된 음성 인식 대상 문자열 데이터를 약어 처리하여 정규화하는 정규화부와,

상기 정규화된 음성 인식 대상 문자열 데이터를 발화 이형태 문자열 데이터로 조합 생성하여 저장하는 이형태 생성부

를 포함하는 음성 인식 정보 생성 장치.
제 1 항에 있어서,

상기 사전 매칭부는, 고유 명사 데이터와 고빈도 어휘 데이터가 저장된 사전 데이터베이스와, 숫자 또는 기호를 포함하는 패턴 문자열 데이터가 저장된 패턴 데이터베이스를 참조하여 상기 사전 매칭을 수행하는 것을 특징으로 하는 음성 인식 정보 생성 장치.
제 1 항에 있어서,

상기 구간 경계 분할부는,

상기 사전 매칭부를 통해 매칭되지 않는 문자열의 구간을 상기 음성 인식 대 상 문자열 데이터로 생성하는 미등록어 기반 분할부와,

상기 사전 매칭이 수행된 문자열에서 캐릭터 사전, 인명 사전, 스포츠명 사전, 채널명 사전, 장르 사전 중 어느 하나에 등록된 문자열을 상기 음성 인식 대상 문자열 데이터로 생성하는 사전 기반 분할부와,

상기 사전 매칭이 수행된 문자열에서 명사구 또는 명사절의 문자열을 음성 인식 대상 문자열 데이터로 생성하는 언어 성분 기반 분할부와,

다수의 방송 데이터별로 상기 문자열 정보를 분석하여 발견적 학습 기반으로 획득된 규칙에 따라 상기 음성 인식 대상 문자열 데이터를 생성하는 발견적 학습 기반 분할부

를 포함하는 것을 특징으로 하는 음성 인식 정보 생성 장치.
제 1 항에 있어서,

상기 이형태 생성부는, 상기 조합 생성된 발화 이형태 문자열 데이터를 상기 문자열 정보와 함께 음성 인식 정보 데이터베이스에 저장 관리하는 것을 특징으로 하는 음성 인식 정보 생성 장치.
방송 데이터의 문자열 정보에 따라 사전 매칭을 수행하는 단계와,

상기 사전 매칭이 수행된 문자열의 구간 경계를 분할하여 음성 인식 대상 문자열 데이터를 생성하는 단계와,

상기 생성된 음성 인식 대상 문자열 데이터를 약어 처리하여 정규화하는 단 계와,

상기 정규화된 음성 인식 대상 문자열 데이터를 발화 이형태 문자열 데이터로 조합 생성하여 저장하는 단계

를 포함하는 음성 인식 정보 생성 방법.
제 5 항에 있어서,

상기 사전 매칭을 수행하는 단계는, 고유 명사 데이터와 고빈도 어휘 데이터를 포함하는 사전 데이터와, 숫자 또는 기호를 포함하는 패턴 문자열 데이터를 참조하는 것을 특징으로 하는 음성 인식 정보 생성 방법.
제 5 항에 있어서,

상기 음성 인식 대상 문자열 데이터를 생성하는 단계는,

매칭되지 않는 문자열의 구간을 상기 음성 인식 대상 문자열 데이터로 생성하는 단계와,

상기 사전 매칭이 수행된 문자열에서 캐릭터 사전, 인명 사전, 스포츠명 사전, 채널명 사전, 장르 사전 중 어느 하나에 등록된 문자열을 상기 음성 인식 대상 문자열 데이터로 생성하는 단계와,

상기 사전 매칭이 수행된 문자열에서 명사구 또는 명사절의 문자열을 음성 인식 대상 문자열 데이터로 생성하는 단계와,

다수의 방송 데이터별로 상기 문자열 정보를 분석하여 발견적 학습 기반으로 획득된 규칙에 따라 상기 음성 인식 대상 문자열 데이터를 생성하는 단계

를 포함하는 것을 특징으로 하는 음성 인식 정보 생성 방법.
제 5 항에 있어서,

상기 발화 이형태 문자열 데이터로 조합 생성하여 저장하는 단계는, 상기 조합 생성된 발화 이형태 문자열 데이터를 상기 문자열 정보와 함께 저장 관리하는 것을 특징으로 하는 음성 인식 정보 생성 방법.
삭제
방송 데이터별로 음성 인식에 따른 발화 이형태 문자열 데이터가 생성 및 저장된 상태에서 영상 재생 장치에 방송 데이터 요청을 위한 음성 신호가 입력되는지를 체크하되, 방송 데이터별 문자열 정보에 따라 사전 매칭을 수행하고, 문자열의 구간 경계를 분할하여 음성 인식 대상 문자열 데이터를 생성하며, 이를 약어 처리하여 정규화한 후에, 이러한 문자열 데이터를 조합 생성하는 방식으로 상기 발화 이형태 문자열 데이터를 생성하는 단계와,

상기 음성 신호가 입력되면 상기 입력된 음성 신호를 인식하여 이를 문자 데이터로 변환하는 단계와,

상기 변환된 문자 데이터를 포함하는 방송 데이터 전송 요청을 방송 서비스 서버로 전송하는 단계와,

상기 방송 서비스 서버에서 상기 문자 데이터와 상기 발화 이형태 문자열 데이터를 비교 분석하여 해당 방송 데이터를 검출하는 단계와,

상기 검출된 방송 데이터를 영상 재생 장치로 전송하여 이를 재생하는 단계

를 포함하는 방송 서비스 제공 방법.