KR101001618B1 - 음성 인식 정보 생성 장치 및 음성 인식 정보 생성 방법, 이를 이용한 방송 서비스 방법 - Google Patents

음성 인식 정보 생성 장치 및 음성 인식 정보 생성 방법, 이를 이용한 방송 서비스 방법 Download PDF

Info

Publication number
KR101001618B1
KR101001618B1 KR1020080085095A KR20080085095A KR101001618B1 KR 101001618 B1 KR101001618 B1 KR 101001618B1 KR 1020080085095 A KR1020080085095 A KR 1020080085095A KR 20080085095 A KR20080085095 A KR 20080085095A KR 101001618 B1 KR101001618 B1 KR 101001618B1
Authority
KR
South Korea
Prior art keywords
data
string
speech recognition
generating
string data
Prior art date
Application number
KR1020080085095A
Other languages
English (en)
Other versions
KR20100026187A (ko
Inventor
왕지현
정의석
강병옥
이윤근
박기영
이성주
정호영
박전규
강점자
정훈
김종진
전형배
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020080085095A priority Critical patent/KR101001618B1/ko
Publication of KR20100026187A publication Critical patent/KR20100026187A/ko
Application granted granted Critical
Publication of KR101001618B1 publication Critical patent/KR101001618B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/438Interfacing the downstream path of the transmission network originating from a server, e.g. retrieving MPEG packets from an IP network
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/086Recognition of spelled words

Abstract

본 발명은 음성 인식을 위한 음성 인식 정보를 생성하고 이를 이용하여 음성 입력을 통한 방송 서비스를 제공하는 기법에 관한 것으로, 방송 데이터의 문자열 정보에 따라 사전 매칭을 수행하고, 사전 매칭이 수행된 문자열의 구간 경계를 분할하여 음성 인식 대상 문자열 데이터를 생성하며, 이를 약어 처리하여 정규화한 후에, 정규화된 음성 인식 대상 문자열 데이터를 발화 이형태 문자열 데이터로 조합 생성하여 저장함으로써, 방송 서비스를 제공하기 위한 음성 입력 시 사용자 발화에 효과적으로 대응하여 해당 방송 서비스를 효과적으로 제공할 수 있는 것이다.
IP TV(Internet Protocol Television), 음성 인식

Description

음성 인식 정보 생성 장치 및 음성 인식 정보 생성 방법, 이를 이용한 방송 서비스 방법{CREATION APPARATUS AND ITS METHOD OF A SPEECH RECOGNITION INFORMATION, BROADCASTING SERVICE METHOD USING BY IT}
본 발명은 음성 인식 정보를 생성하는 기법과 방송 서비스를 제공하는 기법에 관한 것으로, 더욱 상세하게는 음성 인식에 따른 다양한 형태의 문자열을 생성하고, 이를 이용하여 음성 입력에 따른 정확한 방송 서비스를 제공하는데 적합한 음성 인식 정보 생성 장치 및 음성 인식 정보 생성 방법, 이를 이용한 방송 서비스 방법에 관한 것이다.
본 발명은 지식경제부 및 정보통신연구진흥원의 IT성장동력 기술개발 사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-036-03, 과제명: 신성장동력 산업용 대용량 대화형 분산 처리 음성 인터페이스 기술개발].
잘 알려진 바와 같이, 디지털 기술의 발전에 힘입어 가입자는 TV를 통하여 광대역 통합망(BcN : Broadband Convergence Network)을 이용한 방송 서비스를 제공받을 수 있게 되었다.
특히, IP TV(Internet Protocol Television) 방송 서비스는 IP 기반의 통신망에 연결된 TV로 다양한 콘텐츠(공중파/유선 TV 방송, 영화, 음악, 양방향 퀴즈쇼, TV 뱅킹 등)를 제공하는 서비스를 의미하며, IP TV 서비스에 있어 콘텐츠는 VOD(Video On Demand) 스트리밍, 게임뿐만 아니라 메뉴 선택, 명령 입력, 채널 시청 요구 등에 대응되어져 제공되는 해당 콘텐츠(예; 메뉴 전송, 명령 실행, 채널 변경 등)를 의미한다. 여기에서, VOD(Video On Demand) 서비스는 기존의 공중파 방송과는 다르게 인터넷 등의 통신 회선을 사용하여 원하는 시간에 원하는 매체를 볼 수 있도록 하는 서비스를 의미한다.
이러한 IP-TV 방송 서비스에 대해 설명하면, 댁내(가입자측)에는 인터넷 접속 기능이 구비된 셋탑 박스(STB; Set-Top Box)에 TV가 연결되어 있으며, IP TV 방송 서비스 제공업체 측에는 가입자가 시청을 위해 채널 선택한 콘텐츠를 댁내의 셋탑 박스로 전송하는 헤드엔드(Head-End)가 구성된다.
한편, 일반적으로 TV에 있어 사용자의 채널 조작 등의 편의성을 위해 리모콘이 제공되고 있는데, 최근에는 음성 인식 기술 발전에 힘입어 사용자는 리모콘에 시청을 원하는 채널 번호를 발화하게 되면 이 리모콘을 통해 사용자 음성 신호가 셋탑박스로 입력되며, 셋탑 박스에서는 사용자 음성을 인식하여 해당되는 채널 번호로 채널을 변경시키는 기능을 수행할 수 있다.
또한, IP TV 방송 서비스는 다양한 인터랙티브(Interactive) 콘텐츠, 예를 들어 공중파/유선 TV 방송, 영화, 음악, 양방향 퀴즈쇼, TV 뱅킹 등과 같은 단방향/양방향 서비스를 제공하며, 이러한 IP-TV 방송 서비스를 사용자가 이용하기 위해서는 특정 메뉴 선택, 특정 명령 입력, 특정 채널 시청 요구 등과 같이 콘텐츠에 대한 조작을 직접 수행하여 사용자가 원하는 콘텐츠를 수신하여 재생하게 된다.
상술한 바와 같이 종래에는 단순한 채널 조작 등에 음성 인식 기술을 적용하여 방송 서비스를 제공하기 때문에 IP TV 방송 서비스에 따른 다양한 인터랙티브 콘텐츠를 제공받는데 음성 인식 기술을 적용하기 위한 연구가 활발하게 진행되고 있다.
이에 따라, 본 발명은 음성 인식을 통한 방송 서비스를 제공하기 위해 방송 프로그램 정보에 대응하는 발화 이형태의 문자열을 데이터베이스화하여 음성 인식에 따른 방송 서비스를 원활하게 제공할 수 있는 음성 인식 정보 생성 장치 및 음성 인식 정보 생성 방법, 이를 이용한 방송 서비스 방법을 제공하고자 한다.
제 1 관점에서 본 발명은, 방송 데이터의 문자열 정보에 따라 사전 매칭을 수행하는 사전 매칭부와, 상기 사전 매칭이 수행된 문자열의 구간 경계를 분할하여 음성 인식 대상 문자열 데이터를 생성하는 구간 경계 분할부와, 상기 생성된 음성 인식 대상 문자열 데이터를 약어 처리하여 정규화하는 정규화부와, 상기 정규화된 음성 인식 대상 문자열 데이터를 발화 이형태 문자열 데이터로 조합 생성하여 저장하는 이형태 생성부를 포함하는 음성 인식 정보 생성 장치를 제공한다.
제 2 관점에서 본 발명은, 방송 데이터의 문자열 정보에 따라 사전 매칭을 수행하는 단계와, 상기 사전 매칭이 수행된 문자열의 구간 경계를 분할하여 음성 인식 대상 문자열 데이터를 생성하는 단계와, 상기 생성된 음성 인식 대상 문자열 데이터를 약어 처리하여 정규화하는 단계와, 상기 정규화된 음성 인식 대상 문자열 데이터를 발화 이형태 문자열 데이터로 조합 생성하여 저장하는 단계를 포함하는 음성 인식 정보 생성 방법을 제공한다.
제 3 관점에서 본 발명은, 방송 데이터별로 음성 인식에 따른 발화 이형태 문자열 데이터가 생성 및 저장된 상태에서 영상 재생 장치에 방송 데이터 요청을 위한 음성 신호가 입력되는지를 체크하되, 방송 데이터별 문자열 정보에 따라 사전 매칭을 수행하고, 문자열의 구간 경계를 분할하여 음성 인식 대상 문자열 데이터를 생성하며, 이를 약어 처리하여 정규화한 후에, 이러한 문자열 데이터를 조합 생성하는 방식으로 상기 발화 이형태 문자열 데이터를 생성하는 단계와, 상기 음성 신호가 입력되면 상기 입력된 음성 신호를 인식하여 이를 문자 데이터로 변환하는 단계와, 상기 변환된 문자 데이터를 포함하는 방송 데이터 전송 요청을 방송 서비스 서버로 전송하는 단계와, 상기 방송 서비스 서버에서 상기 문자 데이터와 상기 발화 이형태 문자열 데이터를 비교 분석하여 해당 방송 데이터를 검출하는 단계와, 상기 검출된 방송 데이터를 영상 재생 장치로 전송하여 이를 재생하는 단계를 포함하는 방송 서비스 제공 방법을 제공한다.
본 발명은, 음성 인식에 따른 발화 이형태 문자열 데이터가 저장된 상태에서 방송 데이터 전송을 위한 음성이 입력되면, 해당 음성 신호를 인식하여 문자 데이터로 변환하고, 이러한 문자 데이터와 함께 방송 데이터의 전송을 요청하며, 해당 문자 데이터와 저장된 발화 이형태 문자열 데이터를 비교 분석하여 해당 제목의 방송 데이터를 판별한 후에, 해당 방송 데이터를 검색 및 추출하여 영상 재생 장치에 전송함으로써, 영상 재생 장치를 통해 음성 입력된 방송 데이터의 재생을 효과적으로 수행할 수 있다.
본 발명의 기술요지는, 방송 서비스 시스템의 음성 인식 정보 생성 장치를 이용하여 입력된 방송 데이터의 문자열 정보에 따라 사전 매칭을 수행하고, 구간 경계 분할 기법으로 음성 인식 대상 문자열 데이터를 생성하며, 약어 처리 등의 정규화를 수행한 후에, 각각의 문자열을 발화 이형태 문자열 데이터로 생성하여 저장 관리한다는 것이며, 이러한 기술적 수단을 통해 종래 기술에서의 문제점을 해결할 수 있다.
이하 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예에 대하여 상세하게 설명한다.
도 1은 본 발명의 바람직한 실시 예에 따라 음성 인식에 따른 방송 서비스를 제공하는데 적합한 방송 서비스 시스템의 블록 구성도로서, 영상 재생 장치(100), 인터넷 통신망(200), 방송 서비스 서버(300) 및 방송 데이터 데이터베이스(300a)를 포함한다.
도 1을 참조하면, 영상 재생 장치(100)는 셋탑 박스, TV 등을 포함하여 양방향의 IP TV 방송 서비스를 제공하는 장치로서, 음성 인식 모듈 등을 포함하여 메뉴 선택, 명령 입력, 채널 시청 요구 등의 음성 신호가 입력되면, 입력된 음성 신호를 인식하여 그에 대응하는 제어 명령을 수행하는데, 음성 입력에 따른 방송 서비스 모드에서 특정 VOD 방송 데이터의 제목, 문자열 등의 음성 신호를 입력하게 되면 이러한 음성 신호를 인식하여 그에 대한 텍스트 형태 등의 문자 데이터로 변환하 고, 이러한 문자 데이터와 함께 해당 문자 데이터에 대응하는 방송 데이터(즉, VOD 방송 데이터)를 인터넷 통신망(200)을 통해 방송 서비스 서버(300)에 요청한다.
또한, 영상 재생 장치(100)는 방송 서비스 서버(300)로부터 인터넷 통신망(200)을 통해 전송되는 방송 데이터를 수신하여 이를 재생한다. 여기에서, 방송 데이터를 재생하기 전에 수신되는 방송 데이터의 방송 정보(예를 들면, 방송 프로그램 제목, 각종 부가 정보 등)를 화면에 표시할 수 있다.
한편, 방송 서비스 서버(300)는 VOD 등의 방송 콘텐츠를 제공하는 서버로서, 음성 인식 정보를 생성하는 장치를 포함하여 방송 데이터에 대응하는 각종 발화 이형태에 대응하는 음성 인식 정보(예를 들면, 방송 데이터 제목, 발화 이형태, 음성 인식 대상어 등)를 생성하여 데이터베이스화하여 저장한다. 여기에서, 발화 이형태는 VOD 방송 데이터의 제목으로부터 음성 인식 대상어를 생성하는 과정에서 사용자 발화 가능성이 상대적으로 높은 부분어(substring), 변이형(variants) 등의 문자열을 의미한다.
또한, 방송 서비스 서버(300)는 발화 이형태를 포함하는 음성 인식 정보를 저장한 상태에서 영상 재생 장치(100)로부터 방송 데이터가 요청되면, 그와 함께 전송되는 문자 데이터를 음성 인식 정보와 비교 분석하여 해당 문자 데이터가 포함된 방송 데이터를 방송 데이터 데이터베이스(300a)에서 검출하여 이를 인터넷 통신망(200)을 통해 영상 재생 장치(100)로 전송한다.
여기에서, 도 2는 본 발명의 바람직한 실시 예에 따라 방송 서비스 서버에 포함되는 음성 인식 정보 생성 장치의 블록 구성도로서, 음성 인식 정보 생성 장치 는 사전 매칭부(302), 사전 데이터베이스(304), 패턴 데이터베이스(306), 구간 경계 분할부(308), 정규화부(310), 이형태 생성부(312) 및 음성 인식 정보 데이터베이스(314)를 포함한다.
이러한 도 2를 참조하여 음성 인식 정보 생성 장치를 상세히 설명하면, 사전 매칭부(302)는 방송 데이터(VOD 방송 데이터)의 제목 등과 같은 문자열 정보가 입력되면 이를 사전 데이터베이스(304) 및 패턴 데이터베이스(306)를 참조하여 문자열을 탐색 및 매칭하여 그 문자열에 대한 매칭 결과(예를 들면, 제목, 고유 명사 데이터, 고빈도 어휘 데이터, 패턴 문자열 데이터 등)를 텍스트 형식으로 구간 경계 분할부(308)로 전달한다.
그리고, 사전 데이터베이스(304)는 인명, 캐릭터명, 스포츠팀명, 채널명 등과 같은 고유 명사 데이터와, 장르, 영화 종류, 화질, 과금 여부, 언어, 자막 유무 등과 같은 고빈도 어휘 데이터를 라인 단위로 텍스트 파일에 기록하여 저장하고, 이러한 고유 명사 데이터와 고빈도 어휘 데이터와 같은 사전 데이터는 필요에 따라 추출되어 사전 매칭부(302)로 제공된다.
또한, 패턴 데이터베이스(306)는 회차, 개봉일, 년도 등의 반복되는 숫자, 기호 등을 정규식(Regular Expression)으로 기술된 패턴 문자열 데이터로 저장하며, 이러한 패턴 문자열 데이터는 필요에 따라 추출되어 사전 매칭부(302)로 제공된다. 예를 들면, 영화 VOD의 제목이 "개봉영화_에어리언 VS 프레데터 2 (1/17)"인 경우 개봉일은 "(1/17)"이고, 취미레저 VOD의 제목이 "제 11 기 SK배 신예프로 10걸전"인 경우 회차 정보는 "제 11 기"이며, 교육 VOD의 제목이 "2007년 공인중개사 -10강"인 경우 회차 정보는 "10강"이 되는 것과 같이 패턴 문자열 데이터가 저장되며, 이러한 패턴 문자열 데이터는 패턴 파일에 패턴의 종류(예를 들면, 회차, 개봉일, 년도 등)와 함께 아래와 같은 [표 1]과 같이 기술될 수 있다.
[표 1]
패턴 문자열 패턴(패턴 종류=정규식)
제 1 회, 제 22 회 회차=제\d+회
5강, 10강 회차=\d+강
1부 회차=\d부
시즌2 회차=시즌\d
(1.3) 개봉일=(\d\d?/\d\d?)
(2008.08.25) 개봉일=(20\d\d.\d\d?.\d\d?)
다음에, 구간 경계 분할부(308)는 사전 매칭부(302)로부터 전달되는 매칭 결과를 이용하여 음성 인식 대상 문자열 데이터로 분할 인식하여 텍스트 형식으로 생성하는 것으로, 미등록어 기반 분할, 사전 기반 분할, 언어 성분 기반 분할, 발견적 학습 기반 분할 등의 분할 인식 기법을 이용하여 분할 인식된 문자열을 음성 인식 대상 문자열 데이터로 생성하여 이를 정규화부(310)로 전달한다.
여기에서, 도 3은 본 발명의 바람직한 실시 예에 따라 구간 경계 분할부의 상세 블록 구성도로서, 구간 경계 분할부(308)는 미등록어 기반 분할부(308a), 사전 기반 분할부(308b), 언어 성분 기반 분할부(308c) 및 발견적 학습 기반 분할부(308d)를 포함한다.
도 3을 참조하여 구간 경계 분할부(308)를 더욱 상세히 설명하면, 미등록어 기반 분할부(308a)는 사전 매칭부(302)로부터 전달되는 매칭 결과에서 매칭되지 않는 문자열의 구간을 음성 인식 대상 문자열 데이터로 생성한다. 예를 들면, 영화 VOD의 제목이 "개봉영화_에어리언 VS 프레데터 2 (1/17)"인 경우 사전 매칭부(302) 에서 "개봉영화"는 사전 데이터베이스(304)를 통해 "영화 종류"로 매칭되며, "(1/17)"은 패턴 데이터베이스(306)를 통해 "개봉일"로 매칭되는데, VOD 콘텐츠의 원래 제목인 "에어리언 VS 프레데터 2"는 매칭되지 않은 문자열이기 때문에 음성 인식 대상 문자열 데이터로 생성할 수 있다.
그리고, 사전 기반 분할부(308b)는 캐릭터 사전, 인명 사전, 스포츠명 사전, 채널명 사전, 장르 사전에 등록된 문자열을 음성 인식 대상 문자열 데이터로 생성한다. 예를 들면, 만화 VOD의 제목이 "방귀대장 뿡뿡이"인 경우 사용자가 "뿡뿡이"만으로 음성 발화할 수 있기 때문에 캐릭터 사전에 등록된 "뿡뿡이"를 음성 인식 대상 문자열 데이터로 생성할 수 있다.
또한, 언어 성분 기반 분할부(308c)는 '관형격 조사+명사(또는 구/절)', '관형절+명사(또는 구/절)' 등으로 구성된 명사구 또는 명사절의 문자열을 음성 인식 대상 문자열 데이터로 생성한다. 예를 들면, 건강 VOD의 제목이 "최승희의 한방 다이어트"의 경우 '관형격 조사('의')+명사구('한방 다이어트')로 분석이 될 수 있으며, "한방 다이어트"가 음성 인식 대상 문자열 데이터로 생성될 수 있다.
한편, 발견적 학습 기반 분할부(308d)는 다수의 방송 데이터(VOD 방송 데이터)의 제목(즉, 문자열 정보)을 분석하여 발견적 학습(Heuristic) 기반으로 획득된 규칙에 따라 음성 인식 대상 문자열 데이터를 생성한다. 예를 들면, 영화 VOD의 제목이 "내셔널 트레져 : 비밀의 책(12/19) - 18페이지의 비밀"인 경우, 기호 ":"와 "-"는 VOD 콘텐츠의 제목과 소제목을 구분하기 위해 사용되고 있으며, 사용자는 통상적으로 "내셔널 트레져", "비밀의 책", "18페이지의 비밀" 등과 같은 기호로 분 리되는 문자열만을 음성 발화하는 경우가 상대적으로 높기 때문에 이들을 각각 음성 인식 대상 문자열 데이터로 생성할 수 있다.
다음에, 정규화부(310)는 텍스트 형식의 음성 인식 대상 문자열 데이터를 발화자의 발화 음성에 대응하는 문자열로 변환하는 것으로, 구간 경계 분할부(308)로부터 음성 인식 대상 문자열이 생성 전달되면 약어 처리 등의 정규화 과정을 수행하여 이형태 생성부(312)로 전달한다. 예를 들면, 영화 VOD의 제목이 "MR. 후아유(1/3)"에서 "MR."는 "미스터"로 약어 처리를 수행하고, 영화 VOD의 제목이 "김관장VS김관장VS김관장"인 경우 "VS"는 "대"로 약어 처리를 수행하며, 영화 VOD 제목이 "ST. ELMO'S FIRE"인 경우 "ST."은 "세인트"로 약어 처리를 수행하는 방식으로 변환할 수 있다.
한편, 이형태 생성부(312)는 정규화부(310)로부터 전달되는 각각의 문자열로부터 발화 이형태 문자열 데이터를 조합 생성하고, 이를 음성 인식 정보 데이터베이스(314)에 데이터베이화하여 저장 관리한다. 예를 들면, 영화 VOD의 제목이 "내셔널 트레져 : 비밀의 책(12/19) - 18페이지의 비밀"인 경우, "내셔널 트레져", "비밀의 책", "18페이지의 비밀", "내셔널 트레져 비밀의 책", "내셔널 트레져 18페이지의 비밀" 등이 발화 이형태 문자열 데이터로 생성될 수 있으며, 이러한 발화 이형태 문자열 데이터는 해당 방송 데이터의 문자열 정보와 함께 음성 인식 정보 데이터베이스(314)에 저장 관리된다.
다음에, 상술한 바와 같은 구성을 갖는 방송 서비스 시스템의 음성 인식 정보 생성 장치를 이용하여 입력된 방송 데이터의 문자열 정보에 따라 사전 매칭을 수행하고, 구간 경계 분할 기법으로 음성 인식 대상 문자열 데이터를 생성하며, 약어 처리 등의 정규화를 수행한 후에, 각각의 문자열을 발화 이형태 문자열 데이터로 생성하여 저장 관리하는 과정에 대해 설명한다.
도 4는 본 발명의 일 실시 예에 따라 방송 데이터의 문자열 정보를 이용하여 발화 이형태 문자열 데이터를 생성하는 과정을 도시한 플로우차트이다.
도 4를 참조하면, 사전 매칭부(302)에서는 방송 데이터(VOD 방송 데이터)의 제목 등과 같은 문자열 정보가 입력되면(단계402), 이러한 문자열 정보를 사전 데이터베이스(304) 및 패턴 데이터베이스(306)를 참조하여 사전 데이터와 패턴 문자열 데이터에서 문자열을 탐색 및 매칭하여 그 문자열에 대한 매칭 결과(예를 들면, 제목, 고유 명사 데이터, 고빈도 어휘 데이터, 패턴 문자열 데이터 등)를 텍스트 형식으로 구간 경계 분할부(308)에 전달한다(단계404).
그리고, 구간 경계 분할부(308)의 미등록어 기반 분할부(308a)에서는 사전 매칭부(302)로부터 전달되는 매칭 결과에서 매칭되지 않는 문자열의 구간을 음성 인식 대상 문자열 데이터로 생성한다(단계406). 예를 들면, 영화 VOD의 제목이 "개봉영화_에어리언 VS 프레데터 2 (1/17)"인 경우 VOD 콘텐츠의 원래 제목인 "에어리언 VS 프레데터 2"를 음성 인식 대상 문자열 데이터로 생성할 수 있다.
다음에, 사전 기반 분할부(308b)에서는 캐릭터 사전, 인명 사전, 스포츠명 사전, 채널명 사전, 장르 사전 중의 어느 하나에 등록된 문자열을 음성 인식 대상 문자열 데이터로 생성한다(단계408). 예를 들면, 만화 VOD의 제목이 "방귀대장 뿡뿡이"인 경우 캐릭터 사전에 등록된 "뿡뿡이"를 음성 인식 대상 문자열 데이터로 생성할 수 있다.
또한, 언어 성분 기반 분할부(308c)에서는 명사구 또는 명사절의 문자열을 음성 인식 대상 문자열 데이터로 생성한다(단계410). 예를 들면, 건강 VOD의 제목이 "최승희의 한방 다이어트"의 경우 "한방 다이어트"가 음성 인식 대상 문자열 데이터로 생성될 수 있다.
한편, 발견적 학습 기반 분할부(308d)에서는 다수의 방송 데이터(VOD 방송 데이터)의 제목을 분석하여 발견적 학습 기반으로 획득된 규칙에 따라 음성 인식 대상 문자열 데이터를 생성한다(단계412). 예를 들면, 영화 VOD의 제목이 "내셔널 트레져 : 비밀의 책(12/19) - 18페이지의 비밀"인 경우, 기호로 분리되는 문자열인 "내셔널 트레져", "비밀의 책", "18페이지의 비밀" 등을 각각 음성 인식 대상 문자열 데이터로 생성할 수 있다.
다음에, 정규화부(310)에서는 구간 경계 분할부(308)로부터 음성 인식 대상 문자열이 생성 전달되면 약어 처리 등의 정규화 과정을 수행하여 이형태 생성부(312)로 전달한다(단계414). 예를 들면, "MR."는 "미스터"로, "VS"는 "대"로, "ST."은 "세인트"로 약어 처리를 수행하는 방식으로 변환할 수 있다.
한편, 이형태 생성부(312)에서는 정규화부(310)로부터 전달되는 각각의 문자열로부터 발화 이형태 문자열 데이터를 조합 생성하고(단계416), 이를 음성 인식 정보 데이터베이스(314)에 데이터베이화하여 저장 관리한다(단계418). 예를 들면, 영화 VOD의 제목이 "내셔널 트레져 : 비밀의 책(12/19) - 18페이지의 비밀"인 경우, "내셔널 트레져", "비밀의 책", "18페이지의 비밀", "내셔널 트레져 비밀의 책", "내셔널 트레져 18페이지의 비밀" 등이 발화 이형태 문자열 데이터로 생성될 수 있으며, 이러한 발화 이형태 문자열 데이터는 해당 방송 데이터의 문자열 정보와 함께 음성 인식 정보 데이터베이스(314)에 저장 관리된다.
따라서, 음성 인식 정보 생성 장치를 이용하여 입력된 방송 데이터의 문자열 정보를 사전 매칭하고, 이를 구간 경계로 분할 인식하여 음성 인식 대상 문자열 데이터를 생성하며, 이를 정규화한 후에 해당 방송 데이터에 대응하여 발화 이형태에 따른 문자열 데이터를 효과적으로 저장 관리할 수 있다.
다음에, 상술한 바와 같이 방송 데이터의 문자열 정보를 이용하여 생성된 발화 이형태 문자열 데이터가 저장된 상태에서 방송 서비스를 위한 음성 입력 모드 시 방송 서비스를 요청하는 음성 신호가 입력되면 이러한 음성 신호를 인식하여 문자 데이터로 변환하고, 변환된 문자 데이터에 대응하는 방송 데이터를 요청하며, 이러한 요청에 따라 해당 문자 데이터에 대응하는 발화 이형태 문자열 데이터를 검출한 후에, 이에 따른 해당 방송 데이터를 추출하여 영상 재생 장치에 전송하며, 영상 재생 장치에서 재생하는 과정에 대해 설명한다.
도 5는 본 발명의 다른 실시 예에 따라 음성 인식 정보가 저장된 상태에서 음성 입력을 통해 방송 서비스를 제공하는 과정을 도시한 플로우차트이다.
도 5를 참조하면, 상술한 바와 같은 도 4를 참조하여 설명한 음성 인식 정보를 생성하여 그 문자열 데이터들을 해당 방송 데이터에 대응하여 저장된 상태에서 음성 입력, 음성 인식 등을 수행하는 영상 재생 장치(100)의 음성 입력 모드를 수행할 경우에(단계502), 영상 재생 장치(100)에서는 사용자가 발화한 음성(음성 신 호)이 입력되는지를 체크한다(단계504).
상기 단계(504)에서의 체크 결과, 사용자가 발화한 음성이 입력된 경우 영상 재생 장치(100)에서는 입력된 음성 신호를 인식한 후에, 인식된 음성 신호를 텍스트 형태의 문자 데이터로 변환한다(단계506).
그리고, 영상 재생 장치(100)에서는 변환된 문자 데이터에 대응하는 제목을 갖는 방송 데이터(VOD 방송 데이터)의 전송을 인터넷 통신망(200)을 통해 방송 서비스 서버(300)에 요청한다(단계508).
다음에, 방송 서비스 서버(300)에서는 방송 데이터의 전송 요청에 따른 문자 데이터를 음성 인식 정보 생성 장치를 통해 저장 관리되는 발화 이형태 문자열 데이터와 비교한 후, 그 비교 결과에 따라 해당 제목의 방송 데이터를 방송 데이터 데이터베이스(300a)에서 검색하여 추출한다(단계510).
그리고, 방송 서비스 서버(300)에서는 추출된 방송 데이터를 인터넷 통신망(200)을 통해 영상 재생 장치(100)로 전송한다(단계512).
이어서, 영상 재생 장치(100)에서는 전송되는 방송 데이터를 수신하여 이를 신호 처리한 후 도시 생략된 모니터 및 스피커를 통해 재생한다(단계514). 여기에서, 영상 재생 장치(100)에서는 방송 데이터를 수신한 후, 재생하기 전에 해당 방송 데이터의 방송 정보(예를 들면, 방송 프로그램 제목, 각종 부가 정보 등)를 화면에 표시할 수 있다.
따라서, 음성 인식에 따른 발화 이형태 문자열 데이터가 저장된 상태에서 방송 데이터 전송을 위한 음성이 입력되면, 해당 음성 신호를 인식하여 문자 데이터 로 변환하고, 이러한 문자 데이터와 함께 방송 데이터의 전송을 요청하며, 해당 문자 데이터와 저장된 발화 이형태 문자열 데이터를 비교 분석하여 해당 제목의 방송 데이터를 판별한 후에, 해당 방송 데이터를 검색 및 추출하여 영상 재생 장치에 전송함으로써, 영상 재생 장치를 통해 음성 입력된 방송 데이터의 재생을 효과적으로 수행할 수 있다.
이상의 설명에서는 본 발명의 바람직한 실시 예들을 제시하여 설명하였으나 본 발명이 반드시 이에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능함을 쉽게 알 수 있을 것이다.
도 1은 본 발명의 바람직한 실시 예에 따라 음성 인식에 따른 방송 서비스를 제공하는데 적합한 방송 서비스 시스템의 블록 구성도,
도 2는 본 발명의 바람직한 실시 예에 따라 방송 서비스 서버에 포함되는 음성 인식 정보 생성 장치의 블록 구성도,
도 3은 본 발명의 바람직한 실시 예에 따라 구간 경계 분할부의 상세 블록 구성도,
도 4는 본 발명의 일 실시 예에 따라 방송 데이터의 문자열 정보를 이용하여 발화 이형태 문자열 데이터를 생성하는 과정을 도시한 플로우차트,
도 5는 본 발명의 다른 실시 예에 따라 음성 인식 정보가 저장된 상태에서 음성 입력을 통해 방송 서비스를 제공하는 과정을 도시한 플로우차트.
<도면의 주요부분에 대한 부호의 설명>
100 : 영상 재생 장치 200 : 인터넷 통신망
300 : 방송 서비스 서버 300a : 방송 데이터 데이터베이스
302 : 사전 매칭부 304 : 사전 데이터베이스
306 : 패턴 데이터베이스 308 : 구간 경계 분할부
308a : 미등록어 기반 분할부 308b : 사전 기반 분할부
308c : 언어 성분 기반 분할부 308d : 발견적 학습 기반 분할부
310 : 정규화부 312 : 이형태 생성부
314 : 음성 인식 정보 데이터베이스

Claims (10)

  1. 방송 데이터의 문자열 정보에 따라 사전 매칭을 수행하는 사전 매칭부와,
    상기 사전 매칭이 수행된 문자열의 구간 경계를 분할하여 음성 인식 대상 문자열 데이터를 생성하는 구간 경계 분할부와,
    상기 생성된 음성 인식 대상 문자열 데이터를 약어 처리하여 정규화하는 정규화부와,
    상기 정규화된 음성 인식 대상 문자열 데이터를 발화 이형태 문자열 데이터로 조합 생성하여 저장하는 이형태 생성부
    를 포함하는 음성 인식 정보 생성 장치.
  2. 제 1 항에 있어서,
    상기 사전 매칭부는, 고유 명사 데이터와 고빈도 어휘 데이터가 저장된 사전 데이터베이스와, 숫자 또는 기호를 포함하는 패턴 문자열 데이터가 저장된 패턴 데이터베이스를 참조하여 상기 사전 매칭을 수행하는 것을 특징으로 하는 음성 인식 정보 생성 장치.
  3. 제 1 항에 있어서,
    상기 구간 경계 분할부는,
    상기 사전 매칭부를 통해 매칭되지 않는 문자열의 구간을 상기 음성 인식 대 상 문자열 데이터로 생성하는 미등록어 기반 분할부와,
    상기 사전 매칭이 수행된 문자열에서 캐릭터 사전, 인명 사전, 스포츠명 사전, 채널명 사전, 장르 사전 중 어느 하나에 등록된 문자열을 상기 음성 인식 대상 문자열 데이터로 생성하는 사전 기반 분할부와,
    상기 사전 매칭이 수행된 문자열에서 명사구 또는 명사절의 문자열을 음성 인식 대상 문자열 데이터로 생성하는 언어 성분 기반 분할부와,
    다수의 방송 데이터별로 상기 문자열 정보를 분석하여 발견적 학습 기반으로 획득된 규칙에 따라 상기 음성 인식 대상 문자열 데이터를 생성하는 발견적 학습 기반 분할부
    를 포함하는 것을 특징으로 하는 음성 인식 정보 생성 장치.
  4. 제 1 항에 있어서,
    상기 이형태 생성부는, 상기 조합 생성된 발화 이형태 문자열 데이터를 상기 문자열 정보와 함께 음성 인식 정보 데이터베이스에 저장 관리하는 것을 특징으로 하는 음성 인식 정보 생성 장치.
  5. 방송 데이터의 문자열 정보에 따라 사전 매칭을 수행하는 단계와,
    상기 사전 매칭이 수행된 문자열의 구간 경계를 분할하여 음성 인식 대상 문자열 데이터를 생성하는 단계와,
    상기 생성된 음성 인식 대상 문자열 데이터를 약어 처리하여 정규화하는 단 계와,
    상기 정규화된 음성 인식 대상 문자열 데이터를 발화 이형태 문자열 데이터로 조합 생성하여 저장하는 단계
    를 포함하는 음성 인식 정보 생성 방법.
  6. 제 5 항에 있어서,
    상기 사전 매칭을 수행하는 단계는, 고유 명사 데이터와 고빈도 어휘 데이터를 포함하는 사전 데이터와, 숫자 또는 기호를 포함하는 패턴 문자열 데이터를 참조하는 것을 특징으로 하는 음성 인식 정보 생성 방법.
  7. 제 5 항에 있어서,
    상기 음성 인식 대상 문자열 데이터를 생성하는 단계는,
    매칭되지 않는 문자열의 구간을 상기 음성 인식 대상 문자열 데이터로 생성하는 단계와,
    상기 사전 매칭이 수행된 문자열에서 캐릭터 사전, 인명 사전, 스포츠명 사전, 채널명 사전, 장르 사전 중 어느 하나에 등록된 문자열을 상기 음성 인식 대상 문자열 데이터로 생성하는 단계와,
    상기 사전 매칭이 수행된 문자열에서 명사구 또는 명사절의 문자열을 음성 인식 대상 문자열 데이터로 생성하는 단계와,
    다수의 방송 데이터별로 상기 문자열 정보를 분석하여 발견적 학습 기반으로 획득된 규칙에 따라 상기 음성 인식 대상 문자열 데이터를 생성하는 단계
    를 포함하는 것을 특징으로 하는 음성 인식 정보 생성 방법.
  8. 제 5 항에 있어서,
    상기 발화 이형태 문자열 데이터로 조합 생성하여 저장하는 단계는, 상기 조합 생성된 발화 이형태 문자열 데이터를 상기 문자열 정보와 함께 저장 관리하는 것을 특징으로 하는 음성 인식 정보 생성 방법.
  9. 삭제
  10. 방송 데이터별로 음성 인식에 따른 발화 이형태 문자열 데이터가 생성 및 저장된 상태에서 영상 재생 장치에 방송 데이터 요청을 위한 음성 신호가 입력되는지를 체크하되, 방송 데이터별 문자열 정보에 따라 사전 매칭을 수행하고, 문자열의 구간 경계를 분할하여 음성 인식 대상 문자열 데이터를 생성하며, 이를 약어 처리하여 정규화한 후에, 이러한 문자열 데이터를 조합 생성하는 방식으로 상기 발화 이형태 문자열 데이터를 생성하는 단계와,
    상기 음성 신호가 입력되면 상기 입력된 음성 신호를 인식하여 이를 문자 데이터로 변환하는 단계와,
    상기 변환된 문자 데이터를 포함하는 방송 데이터 전송 요청을 방송 서비스 서버로 전송하는 단계와,
    상기 방송 서비스 서버에서 상기 문자 데이터와 상기 발화 이형태 문자열 데이터를 비교 분석하여 해당 방송 데이터를 검출하는 단계와,
    상기 검출된 방송 데이터를 영상 재생 장치로 전송하여 이를 재생하는 단계
    를 포함하는 방송 서비스 제공 방법.
KR1020080085095A 2008-08-29 2008-08-29 음성 인식 정보 생성 장치 및 음성 인식 정보 생성 방법, 이를 이용한 방송 서비스 방법 KR101001618B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080085095A KR101001618B1 (ko) 2008-08-29 2008-08-29 음성 인식 정보 생성 장치 및 음성 인식 정보 생성 방법, 이를 이용한 방송 서비스 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080085095A KR101001618B1 (ko) 2008-08-29 2008-08-29 음성 인식 정보 생성 장치 및 음성 인식 정보 생성 방법, 이를 이용한 방송 서비스 방법

Publications (2)

Publication Number Publication Date
KR20100026187A KR20100026187A (ko) 2010-03-10
KR101001618B1 true KR101001618B1 (ko) 2010-12-17

Family

ID=42177563

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080085095A KR101001618B1 (ko) 2008-08-29 2008-08-29 음성 인식 정보 생성 장치 및 음성 인식 정보 생성 방법, 이를 이용한 방송 서비스 방법

Country Status (1)

Country Link
KR (1) KR101001618B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11373634B2 (en) 2018-11-14 2022-06-28 Samsung Electronics Co., Ltd. Electronic device for recognizing abbreviated content name and control method thereof

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10872168B1 (en) 2019-06-07 2020-12-22 Piamond Corp. Method and system for providing user notification when personal information is used in voice control device
US20230054251A1 (en) * 2020-03-06 2023-02-23 Lg Electronics Inc. Natural language processing device

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100766094B1 (ko) * 2006-09-27 2007-10-12 한국전자통신연구원 음성 인터페이스 기반의 홈네트워크 시스템 및 그 제어방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100766094B1 (ko) * 2006-09-27 2007-10-12 한국전자통신연구원 음성 인터페이스 기반의 홈네트워크 시스템 및 그 제어방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11373634B2 (en) 2018-11-14 2022-06-28 Samsung Electronics Co., Ltd. Electronic device for recognizing abbreviated content name and control method thereof

Also Published As

Publication number Publication date
KR20100026187A (ko) 2010-03-10

Similar Documents

Publication Publication Date Title
US11562737B2 (en) Generating topic-specific language models
US11151184B2 (en) Method and system for voice based media search
US11197036B2 (en) Multimedia stream analysis and retrieval
US10034028B2 (en) Caption and/or metadata synchronization for replay of previously or simultaneously recorded live programs
KR101289081B1 (ko) 음성 인터페이스를 이용한 iptv 시스템 및 서비스 방법
US10652592B2 (en) Named entity disambiguation for providing TV content enrichment
US20220253601A1 (en) Language-based content recommendations using closed captions
JP2017503273A (ja) 文脈情報に基づいて検索結果を生成するための方法、システム、および媒体
KR20100067174A (ko) 음성 인식을 이용한 메타데이터 검색기, 검색 방법, iptv 수신 장치
KR101293301B1 (ko) 동영상 자막을 키워드로 이용한 영상 검색 시스템 및 방법
KR102246893B1 (ko) 대화형 시스템, 이의 제어 방법, 대화형 서버 및 이의 제어 방법
JP2013529331A (ja) 表示中のテレビジョン・コンテンツのための自動画像発見および推薦
JP2004528640A (ja) 自動ビデオ検索の方法、システム、アーキテクチャ及びコンピュータプログラムプロダクト
US20090144312A1 (en) System and method for providing interactive multimedia services
KR101001618B1 (ko) 음성 인식 정보 생성 장치 및 음성 인식 정보 생성 방법, 이를 이용한 방송 서비스 방법
KR101962126B1 (ko) 음성 인식 결과에 따라 데이터베이스에 액세스하는 멀티미디어 디바이스 및 그 제어 방법
KR101763594B1 (ko) 방송 음성 인식 서비스를 제공하는 네트워크 tv와 서버 그리고 그 제어방법
US11922931B2 (en) Systems and methods for phonetic-based natural language understanding
KR101606170B1 (ko) Iptv 방송 시스템, 서버 및 발성목록 생성 장치
US11736773B2 (en) Interactive pronunciation learning system
US11978439B2 (en) Generating topic-specific language models
JP2007199480A (ja) プログラム及びサーバ

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20131128

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20150717

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee