KR20090061520A - Method for providing program and person name information management in electronic program guide service - Google Patents

Method for providing program and person name information management in electronic program guide service Download PDF

Info

Publication number
KR20090061520A
KR20090061520A KR20070128550A KR20070128550A KR20090061520A KR 20090061520 A KR20090061520 A KR 20090061520A KR 20070128550 A KR20070128550 A KR 20070128550A KR 20070128550 A KR20070128550 A KR 20070128550A KR 20090061520 A KR20090061520 A KR 20090061520A
Authority
KR
South Korea
Prior art keywords
name
program
person
broadcast program
search
Prior art date
Application number
KR20070128550A
Other languages
Korean (ko)
Inventor
황이규
왕지현
이창기
오효정
이충희
장명길
이윤근
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR20070128550A priority Critical patent/KR20090061520A/en
Publication of KR20090061520A publication Critical patent/KR20090061520A/en

Links

Images

Abstract

A method for managing broadcast program names and person names in an EPG search service is provided to remove the necessity for a user to memorize and search a correct name included in an EPG DB. The original name is indexed through the space elimination of a program name included in an EPG DB(S200). A broadcast program name and a person name are separated by the syllable unit through an unused name list(S202). The space is removed from the program name of EPG and is indexed(S204). The program name is indexed by a bigram unit for robust recognition against a partial spelling error(S206).

Description

EPG 검색 서비스에서의 방송 프로그램명 및 인명 관리 방법{METHOD FOR PROVIDING PROGRAM AND PERSON NAME INFORMATION MANAGEMENT IN ELECTRONIC PROGRAM GUIDE SERVICE}Program name and name management method in EP search service {METHOD FOR PROVIDING PROGRAM AND PERSON NAME INFORMATION MANAGEMENT IN ELECTRONIC PROGRAM GUIDE SERVICE}

본 발명은 EPG(Electronic Program Guide) 검색 서비스에 관한 것으로, 특히 TV에서 방송되는 프로그램에 대한 정보를 전자적으로 제공하는 EPG 서비스의 검색을 강건하게 지원하는데 적합한 EPG 검색 서비스에서의 방송 프로그램명 및 인명 관리 방법에 관한 것이다.BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an EPG (Electronic Program Guide) retrieval service. In particular, the name and name management of a broadcast program in an EPG retrieval service suitable for robustly supporting the retrieval of an EPG service that electronically provides information about a program broadcasted on a TV. It is about a method.

본 발명은 정보통신부 및 정보통신연구진흥원의 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-036-02, 과제명: 신성장동력산업용 대용량 대화형 분산 처리 음성인터페이스 기술개발].The present invention is derived from the research conducted as part of the IT growth engine technology development project of the Ministry of Information and Communication and the Ministry of Information and Telecommunications Research and Development. [Task Management Number: 2006-S-036-02, Task name: Large-capacity interactive dispersion for new growth engine industries] Development of processing voice interface technology].

IPTV(Internet Protocol Television)나 DVR(Digital Video Recorder) 환경에서 수많은 TV 프로그램이 존재하고, 이를 효과적으로 탐색하기 위한 정보원으로 EPG가 서비스되고 있다.There are numerous TV programs in the IPTV (Internet Protocol Television) or DVR (Digital Video Recorder) environment, and EPG is being serviced as an information source for effective search.

EPG 서비스는 프로그램명이나 출연자 이름, 날짜 정보 등을 활용하여 사용자 가 원하는 프로그램 정보를 쉽게 얻을 수 있게 도와준다. 예를 들어, "독고영재의 현장르포 스캔들 언제 방송하지?", "실베스터 스탤론이 출연한 영화 검색", "내일 방송하는 야구 프로 찾아봐" 등으로 EPG 데이터를 검색할 수 있다. 대부분의 EPG 서비스는 프로그램명과 출연자 이름을 이용하여 원하는 프로그램에 대한 정보를 획득하게 된다.The EPG service makes it easy to get the program information you want by using the program name, performer name, and date information. For example, EPG data can be searched for "When do you broadcast Dokgo Youngjae's spot report scandal?", "Find a movie starring Sylvester Stallone", "Find a baseball program to broadcast tomorrow." Most EPG services use program names and performer names to obtain information about desired programs.

그러나 이들 이름은 하나 이상, 여러 어절에 숫자나 외래어, 다양한 심볼 등을 포함하며, 일부는 하나의 문장으로 구성된 경우도 많다. 대부분의 EPG 서비스는 프로그램명을 이용한 검색에서 정확한 프로그램명이나 인명을 알고 있다는 가정하에 검색을 지원하고 있다. 따라서 명확하게 이름을 알고 있지 않는 경우, 일부 부분 문자열을 이용한 검색 이외의 방법으로는 프로그램을 찾을 수 없다.However, these names include numbers, foreign words, various symbols, etc., in one or more words, and some are often composed of a single sentence. Most EPG services support searching on the assumption that you know the exact program name or person name in the search using the program name. So if you don't know the name explicitly, you won't find the program any other way than searching with some substring.

예를 들어, "도라에몽-시즌 3 언제해?"의 경우, 사용자는 이 프로그램의 이름을 정확하게 모를 경우, 다양한 검색 방법을 사용한다. 예컨대, "도라에몽", "도라에몽 3", "도라에몽 시즌3", "도라애몽" 등으로 검색할 수 있다.For example, in the case of "Doraemon-Season 3 When?", The user uses a variety of search methods if the user does not know the exact name of the program. For example, it is possible to search for "Doraemon", "Doraemon 3", "Doraemon Season 3", "Doraemon", and the like.

또는, 하나의 이름에 대해 "로버트 레드포드", "로버트래드포드", "로보트 래드포드", "로보트 레드포드" 등으로 사용하여, "로버트 레드포드가 출연한 영화는?"과 같이 프로그램을 찾을 수 있다.Or, you could use a name like "Robert Redford", "Robert Radford", "Robot Radford", "Robot Redford", etc., to find a program like "What is Robert Redford's movie?" .

사용자가 EPG 검색 과정에서 프로그램이름 또는 인명을 사용할 경우, 사용자는 "철자 오류", "이름의 일부분만을 사용함", "영어/숫자/심볼의 이형태 오류" 등으로 인해 찾고자 하는 프로그램을 검색하기 용이하지 않다.If you use a program name or person name in the EPG search process, you may not be able to easily find the program you are looking for because of "spelling errors", "use only part of the name", or "errors in English / numeric / symbols". not.

이와 같이, 방송 프로그램명과 인명을 이용한 검색은 EPG 서비스에서 가장 기본적인 검색 방법으로, 방송 프로그램명으로 직접 원하는 프로그램의 정보(시작시간이나 줄거리, 출연자 정보 등)를 검색하거나, 프로그램에 출연한 사람이나 제작자, 감독 등의 이름으로 프로그램을 검색할 수 있다.As such, the search using the broadcast program name and the name of the person is the most basic search method in the EPG service. The search program information (start time, plot, performer information, etc.) of the desired program is directly searched by the broadcast program name, or the person or producer who appeared in the program. You can search for a program by the name of a director or a director.

대부분의 프로그램명은 하나 이상의 어절 또는 문장의 형태로 되어 있고, 개체명(named entity)이나 고유명사 등을 포함하는 경우가 많아서 단순히 형태소 분석이나 구문 분석 방법을 통해서는 프로그램명의 시작과 끝을 인식하지 못한다. 또한, 인명도 외국인명의 경우, 하나 이상의 어절로 이루어진 경우가 많다.Most program names are in the form of one or more phrases or sentences, and often contain named entities or proper nouns, and simply do not recognize the beginning or end of the program name through morphological or parsing methods. . In addition, in the case of a foreigner's name, it is often composed of one or more words.

또한, EPG 사용자가 긴 프로그램명이나 인명을 명확히 알고 있는 경우가 드물어, 검색을 위해 프로그램명과 인명의 일부분을 사용하거나, 일부 음절이나 어절을 다르게 사용하는 경우에도 EPG가 가지고 있는 많은 프로그램명과 인명에서 어떠한 프로그램과 인명을 선택했는지 명확하게 알지 못한다. 이처럼 철자 오류나 띄어쓰기 오류, 일부분만을 사용하는 오류 등에서는 EPG DB에 있는 정확한 이름을 검색할 수 없다. 프로그램명이나 인명을 알지 못하면, EPG 서비스에서 다음 단계를 진행할 수 없기 때문에, 이들 이름의 인식은 EPG 검색을 위한 가장 기본적인 단계이다.In addition, EPG users rarely know long program names or names of people, and even if they use a part of a program name and a part of a name for a search, or use different syllables and words differently, It is not clear whether the program and the name of the person were chosen. In this case, spelling errors, spacing errors, and errors using only a part of the name cannot search the exact name in the EPG DB. Recognition of these names is the most basic step for EPG retrieval, because without knowing the program name or person name, the next step in the EPG service cannot proceed.

이에 본 발명은, EPG 사용 환경에서 사용자가 프로그램명 또는 인명으로 프로그램을 검색할 때, 일반적으로 발생하는 오류를 극복하고 EPG 데이터 DB의 프로그램명 또는 인명과 검색에서 사용되는 프로그램명 또는 인명 사이의 불일치를 해결할 수 있는 방안을 제공하고자 한다.Accordingly, the present invention overcomes the error that generally occurs when a user searches for a program by program name or person name in an EPG use environment, and there is a mismatch between the program name or person name of the EPG data DB and the program name or person name used in the search. To provide a solution to the problem.

또한 본 발명은, 프로그램명과 인명을 효과적으로 색인하고 이를 검색하기 위한 해결 방안을 제공하고자 한다.It is another object of the present invention to provide a solution for effectively indexing and searching for program names and names.

본 발명의 과제를 해결하기 위한 바람직한 실시예에 따르면, EPG 검색 서비스에서의 방송 프로그램명 및 인명 관리 방법으로서, 방송 프로그램명 및 인명을 어절 단위 및 바이그램 단위로 다단계 색인하는 과정과, 사용자의 검색 질의 요청시에 상기 색인하는 과정에서 색인된 방송 프로그램명 및 인명과 문맥지식을 이용하여 상기 사용자의 검색 질의에 포함된 방송 프로그램 및 인명을 인식하는 과정을 포함하는 EPG 검색 서비스에서의 방송 프로그램명 및 인명 관리 방법을 제공한다.According to a preferred embodiment for solving the problems of the present invention, a broadcast program name and name management method in the EPG search service, multi-step indexing the broadcast program name and person name by word unit and by-gram unit, and the user's search query Broadcast program name and name in the EPG search service comprising the step of recognizing the broadcast program and the name of the user included in the search query of the user by using the indexed broadcast program name and person name and contextual knowledge in the indexing process upon request Provide management methods.

본 발명에 의하면, EPG 검색에서 가장 중요한 과정인 이름 인식에서 사용자가 흔히 발생하기 쉬운 오류를 극복하는 효과적이고 강건한 방법을 제공한다. EPG DB에 포함된 프로그램명과 인명이 사용자가 입력하는 이름과의 불일치로 발생하는 문제를 해결하기 위하여, 다단계 색인 및 검색 방법을 적용할 경우, 항상 사용자가 EPG DB에 포함된 정확한 이름을 기억하면서 검색해야 하는 불편함을 해소할 수 있다.According to the present invention, there is provided an effective and robust method for overcoming common errors that users frequently encounter in name recognition, which is the most important process in EPG search. In order to solve the problem caused by the mismatch between the program name and the name included in the EPG DB, the user always searches while remembering the exact name included in the EPG DB. You can solve the inconvenience.

EPG 정보를 제공하는 시스템을 사용하는 사용자는 일반적으로 '프로그램명'이나 '출연자' 정보, 찾고자 하는 프로그램의 '장르'를 이용한 검색, '채널명'이나 '방송 시간대' 등을 활용하여 시청하고자 하는 프로그램을 검색한다. 따라서 EPG 정보 검색에서는 프로그램 검색을 위한 조건인 사용자가 원하는 프로그램명이나 인명 정보를 정확히 인식하는 것이 중요하다.Users who use the system that provides the EPG information generally want to watch the program by using the program name or performer information, the search using the genre of the program they are looking for, the channel name or the broadcast time zone. Search for. Therefore, in the EPG information retrieval, it is important to accurately recognize the program name or the name of the user desired as a condition for the program retrieval.

'장르'나 '채널명', '방송 시간대' 등은 비교적 짧은 어절로 이루어져 있고, 대부분이 고정된 어휘를 가지고 있기 때문에 이를 인식하기 쉬운 반면, '프로그램명'이나 '인명'은 여러 어절에 걸쳐 있고, 자주 변화하며, 고정된 어휘로 구성되지 않기 때문에 인식하기가 쉽지 않다.'Genre', 'channel name' and 'broadcasting time' are composed of relatively short words, and most of them have a fixed vocabulary, so it is easy to recognize them, while 'program name' or 'person' is spread over many words. However, it is not easy to recognize because it changes frequently and does not consist of a fixed vocabulary.

또한, 사용자가 '프로그램명'이나 '인명'을 통한 EPG 검색에서 어려움을 가지고 있는 문제의 대부분은, 사용자가 검색하기 위한 입력으로 질의하는 것과 EPG DB에 저장된 '프로그램명' 이나 '인명이 불일치하면서 발생한다. 주로 발생하는 오류는 아래와 같다.In addition, most of the problems that users have difficulty in searching for EPGs through 'program name' or 'person name' are due to a mismatch between 'program name' or 'person name' stored in the EPG DB. Occurs. The most common errors are as follows.

첫째, 전체 프로그램명이나 인명 중에, 일부분만을 사용하여 검색하기를 원 한다. 예컨대, "독고영재의 현장르포 스캔들" 이란 긴 프로그램을 찾기 위해 "독고영재의 현장르포", "현장르포", "독고영재의 스캔들", "스캔들" 등의 변화된 이름으로 프로그램을 탐색하는 경우가 많다. 또한, 실제 프로그램명이 "생방송 세상의 아침 (1, 2, 3부)"에서 "생방송"이나 "(1, 2, 3부)"와 같이 '선택적 부가 정보'가 포함된 프로그램명 전체를 입력하는 경우는 거의 없다. 또한,""CSI 마이애미: 뉴욕 시즌 3"과 같은 프로그램을 EPG DB에 입력된 원제목 형태로 검색하는 사람들은 찾아보기 어렵다. 이를 해결하기 위해, 선택적 부가 정보를 자동으로 제거하고, 어절 단위의 색인 및 검색을 지원하는 방법이 필요하다. 이때, 부분적으로 인식된 어절들을 결합하여 최장의 프로그램명을 찾아내는 방법이 추가로 요구된다. 위의 예에서 "독고영재의"와 "스캔들"을 각각 하나의 단위 프로그램명으로 인식한 후에, 이를 최장 일치의 "독고영재의 현장르포 스캔들"로 확장하여 인식하기 위한 방법들이 요구된다.First, you want to search using only a fraction of the entire program name or person's name. For example, in order to find a long program of "reading gifted students", the program is often searched by changed names such as "reading students of reading", "field reporters", "scandals of reading" and "scandals". In addition, the actual program name inputs the entire program name including 'optional additional information' such as "live broadcast" or "(1, 2, 3)" in "Morning of Live World (Part 1, 2, 3)". There are few cases. In addition, people searching for programs such as "" CSI Miami: New York Season 3 "in the form of original titles entered into the EPG DB are hard to find. To solve this, the optional additional information is automatically removed and the word index is indexed. And a method of supporting the search, which further requires a method of finding the longest program name by combining partially recognized words, in the above example, a unit of "reading gifted children" and "scandal". After recognizing the program name, a method for extending the recognition to the longest matched "on-site gift scandal" is required.

둘째, 프로그램명에 심볼(symbol)이 포함된 경우, 키워드 입력이나 음성 인식을 통한 검색에서 이를 정규화할 필요가 있다. 예컨대, "스토리쇼-이 사람을 고발합니다"라는 원래 프로그램을 검색하기 위해 사용자는 심볼 "-"을 제외하고 "스토리쇼 이 사람을 고발합니다"라고 입력할 수 있을 것이다. 또한, "동물의 역습 : 퓨마"라는 프로그램도 ":"을 제외하고 발화하거나 키워드 입력할 것이다. 또한, "송귀섭과 함께하는 붕어낚시 Q&A"의 경우, "&"를 "앤"과 같이 입력하는 경우가 많으며, 이를 정규화하는 방법이 적용되어야 한다. 이를 해결하기 위해, 색인과 검색 질의 처리 단계에서 심볼 정규화 등의 방법이 필요하다.Second, if a symbol is included in a program name, it is necessary to normalize it in a keyword input or a search through speech recognition. For example, to retrieve the original program "story show-accuse this person", the user may enter "story show accused this person" except the symbol "-". Also, a program called "Animal Strike Back: Puma" will fire or enter keywords except ":". In addition, in the case of "fish carp fishing Q & A with Song Gui-sub", "&" is often inputted as "An", and a method of normalizing it should be applied. To solve this problem, a method such as symbol normalization is required in the index and search query processing steps.

셋째, 모든 어절을 색인단위로 하였고, 이름으로 인식이 될 수 없는 불용어 리스트를 활용하기 때문에 이로 인해 오류가 발생한다. 위의 두 가지 방법을 통해서 인식된 이름에 대해, 주변 문맥 정보 등을 활용하여 잘못 인식된 이름을 복원해야 한다. 프로그램명을 인식한 후에, 인명을 인식하는 경우, "올라이즈 밴드 나오는 프로는?"에서 "밴드"가 다른 프로그램명의 일부 어절이기 때문에 프로그램명으로 인식된 경우, '나오는'과 같은 주위 문맥을 이용하여 프로그램명이 아님을 인식하여 이를 원래대로 복원해야 한다. 또한 "청소년 월드컵"과 같은 프로그램명에서 "월드컵"을 프로그램 장르로 간주하여 '이름 불용어 리스트'에 포함시킨 경우, "청소년"만 프로그램명으로 인식되며, 프로그램명 주위의 '이름 불용어'와 결합하여 확장된 프로그램명이 될 수 있는지 파악하여 이를 복원할 수 있다.Third, this error occurs because all words are indexed and a list of stopwords cannot be recognized by name. For the names recognized through the above two methods, the misrecognized names should be restored using surrounding contextual information. After recognizing the name of the program, when recognizing the name of a person, when the program is recognized as a program name because "Band" is a part of another program name in "A rising band?" Recognize that it is not a program name and restore it. In addition, in the case of program names such as "Youth World Cup", if "World Cup" is regarded as the program genre and included in the "Name Terminology List", only "Youth" is recognized as the program name, You can determine if it can be an expanded program name and restore it.

넷째, 프로그램명의 길이가 긴 경우, 찾고자 하는 프로그램의 이름을 정확히 모를 때가 많다. 예를 들어, "시청자 칼럼 우리가 사는 세상 언제 해"로 사용자가 프로그램을 찾는 질의에서 실제 프로그램 제목은 "시청자칼럼 우리 사는 세상"이며, 기존의 Exact 매칭 방법에서는 사용자가 원하는 프로그램을 검색할 수 없다. 프로그램명이나 인명이 긴 경우, 음절을 빠뜨리거나 띄어쓰기가 틀린 경우, 또는 철자가 조금 변경된 경우 이를 쉽게 인식하기 어렵다. 이를 해결하기 위해, 약간의 철자 변화에도 강인한 검색 방법이 필요하다. 이를 위해 모든 프로그램명과 인명을 바이그램(Bigram) 색인하며, 앞의 세 가지 처리 방법을 통해서도 명확한 프로그램명이나 인명 인식이 되지 않으면 이를 적용해야 한다.Fourth, if the program name is long, it is often not known exactly the name of the program to find. For example, in a query where a user searches for a program with the "Audit column when we live in the world," the actual program title is "Audit column in our world." In the existing Exact matching method, the user cannot search for a desired program. . If the program name or human name is long, the syllable is missing, the spacing is incorrect, or the spelling is changed a bit, it is difficult to recognize it easily. To solve this problem, a robust search method is required even for slight spelling changes. To do this, all program names and names are bigram indexed, and if the program names or names are not clearly recognized through the previous three methods, they should be applied.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세하게 설명한다.Hereinafter, with reference to the accompanying drawings will be described in detail a preferred embodiment of the present invention.

실시예의 설명에 앞서, 본 발명의 기술 요지는, EPG 검색을 하는데 있어서, 프로그램명 또는 인명을 이용하여 프로그램을 검색할 때, 실제 DB의 데이터와 사용자의 입력 사이의 불일치에 따른 검색 성능 저하를 방지하기 위해, 프로그램명과 인명을 어절 단위 및 바이그램(bigram) 단위로 추가 색인하고, 이를 바탕으로 다단계 인식 방법 및 오류 복원 방법을 적용하여 EPG 검색 성능을 향상시킨다는 것으로, 이러한 기술 사상으로부터 본 발명의 목적으로 하는 바를 용이하게 달성할 수 있을 것이다.Prior to the description of the embodiments, the technical gist of the present invention prevents a decrease in search performance due to inconsistency between actual DB data and user input when searching for a program using a program name or a human name in an EPG search. In order to improve the EPG retrieval performance by applying a multi-level recognition method and error recovery method, and indexing program names and names in word units and bigram units. It will be easy to achieve.

도 1은 본 발명에 따른 EPG 검색 서비스에서의 방송 프로그램명 및 인명 관리 방법을 구현하기 위한 시스템 구성도로서, 프로그램명 및 인명 색인부(100), 프로그램명 및 인명 인식부(102), EPG DB(104), 프로그램명 및 인명 색인 DB(106)를 포함한다.1 is a system configuration diagram for implementing a broadcast program name and name management method in the EPG search service according to the present invention, the program name and name index section 100, the program name and name recognition section 102, EPG DB 104, program name and person index DB 106.

도 1에 도시한 바와 같이, 프로그램명 및 인명 색인부(100)는 프로그램명 색인 과정을 통해 EPG DB(104)에 포함된 프로그램명 및 인명을 색인한다.As shown in FIG. 1, the program name and person indexing unit 100 indexes the program name and the person name included in the EPG DB 104 through the program name indexing process.

프로그램명 및 인명 인식부(102)는 사용자의 EPG 검색에서 질의에 포함된 프로그램명을 자동으로 인식한다.The program name and name recognition unit 102 automatically recognizes the program name included in the query in the user's EPG search.

프로그램명 및 인명 색인 DB(106)에는 상기 프로그램명 및 인명 색인부(100)를 통해 색인된 프로그램명 및 인명 정보가 저장된다.The program name and person index DB 106 stores program name and person name information indexed through the program name and person index unit 100.

이하, 상술한 구성과 함께, 본 발명의 바람직한 실시예에 따른 EPG 검색 서비스에서의 방송 프로그램명 및 인명 관리 방법에 대해 첨부된 도 2 및 도 3을 참조하여 상세하게 설명한다.Hereinafter, the broadcast program name and the name management method in the EPG search service according to the preferred embodiment of the present invention together with the above-described configuration will be described in detail with reference to FIGS. 2 and 3.

설명에 앞서, 본 발명에 따른 방송 프로그램명 및 인명 관리 방법은, 프로그램명 및 인명 색인 과정(도 2)과, 프로그램명 및 인명 인식 과정(도 3)으로 크게 구분된다.Prior to the description, the broadcast program name and name management method according to the present invention is largely divided into a program name and a person name indexing process (FIG. 2) and a program name and a person name recognition process (FIG. 3).

먼저, 프로그램명 및 인명 색인 과정에 대해 설명하기로 한다.First, a program name and a person indexing process will be described.

도 2에 도시한 바와 같이, 본 발명에 따른 EPG 검색 서비스에서의 방송 프로그램 및 인명 색인 과정은, 정규식(Regular Expression)으로 표현된 선택적 부가정보 정규 패턴(108)을 이용하여 이름에서 선택적 부가정보를 제거하는 단계(S200)와, 이름 불용어 리스트(110)를 활용하여 방송 프로그램명 및 인명에서 어절단위로 분리하는 어절 분리 단계(S202), 이름에 포함된 불필요한 정보를 제거하거나 정규화 하는 공백제거 및 심볼 정규화 단계(S204)와, 이름에서 바이그램(bigram)을 추출하는 바이그램 추출 단계(S206)를 포함한다. 각 단계와 관련된 구체적인 처리 방법 및 사용되는 지식을 살펴보면 다음과 같다.As shown in FIG. 2, in the EPG search service according to the present invention, the broadcast program and the name indexing process use the optional additional information regular pattern 108 represented by a regular expression to select optional additional information from a name. Removing the step (S200), using the name stopword list 110, the word separation step of separating the word from the program name and person by word unit (S202), the space removal and symbols to remove or normalize unnecessary information contained in the name Normalization step (S204) and a bigram extraction step (S206) for extracting a bigram from the name. The specific processing methods and knowledge used for each step are as follows.

- 선택적 부가정보 제거 단계(S200)Optional additional information removing step (S200)

이 단계에서는 두 가지 방법으로 이름을 색인한다.There are two ways to index names in this step.

첫째, EPG DB에 포함된 프로그램명에서 공백을 제거하고 원래 이름을 색인한다.First, the space is removed from the program name included in the EPG DB and the original name is indexed.

둘째, 다음 [표 1]에 표현된 선택적 부가정보 정규패턴(108)을 이용하여 이 름에 포함된 불필요한 정보들을 제거하고 색인한다.Second, unnecessary information included in the name is removed and indexed using the optional additional information regular pattern 108 shown in the following [Table 1].

입력input 구축 정규 표현Build regular expression 출력Print 주말의 명화 <이탈리안 잡> Weekend Masterpiece <Italian Job> ^(주말의 명화|청소년 드라마|일요시네마|명화 초대석|세계의 명화|토요명화)[ ]*<(.*)>$ ^ (Weekend Masterpiece | Youth Drama | Sunday Cinema | Masterpiece Masterpiece | World Masterpiece | Saturday Masterpiece) [] * <(. *)> $ 이탈리안 잡 Italian Job 미지의 세계 1~3부 The Unknown World Part 1-3 ( .*)[ ]*([0-9]+~[0-9]+부)$ (. *) [] * ([0-9] + ~ [0-9] + parts) $ 미지의 세계 the world of unknown MBC 마감뉴스 MBC Deadline News ^(EBS|EBS TV|MBC|KBS1|KBS2|SBS|ESPNMBC-ESPN) (.*)$ ^ (EBS | EBS TV | MBC | KBS1 | KBS2 | SBS | ESPNMBC-ESPN) (. *) $ 마감뉴스 Deadline News 한국시리즈 3차전 생중계 Korean Series 3rd game live broadcast (.*)[ ]*[0-9]+차전\((생방송|위성생중계|생중계|종합)\)$ (. *) [] * [0-9] + Charge \ ((Live | Satellite Broadcast | Live Broadcast | Total) \) $ 한국시리즈 Korea Series 프리즌 브레이크 시즌 3 Prison Break Season 3 (.*)( |)\((시즌[ ]*[0-9])\)$ (.*)( |)(시즌[ ]*[0-9])$ (.*)( |)시리즈 [0-9]$ (. *) (|) \ ((Season [] * [0-9]) \) $ (. *) (|) (Season [] * [0-9]) $ (. *) (|) Series [0-9] $ 프리즌 브레이크Prison Break 2007 KLPGA 인터불고 마스터스 <1R 녹화중계> 2007 KLPGA Inter-Burgo Masters <1R Record Relay> ^(200[0-9])[ ]*(PGA|LPGA|KPGA|KLPGA|JLPGA|유러피언투어|유러피언 여자 투어) (.*) <[0-9]R (녹화중계|생중계|재방송|생방송)> ^ (200 [0-9]) [] * (PGA | LPGA | KPGA | KLPGA | JLPGA | European Tour | European Woman Tour) (. *) <[0-9] R (Recording | Live Broadcast | Rebroadcast | Live Broadcast )> 인터불고 마스터스 Inter-Burgo Masters  …  …  …

프로그램명에는 '채널 이름', '연도', '특정대회', '시즌 표시' 등이 포함되어 있으며, 이는 사용자가 선택적으로 프로그램명에 포함시키거나 배제하면서 검색하면서 발생하는 문제점을 해결한다. 예를 들면, "07-08 스페인프리메라리가 하이라이트", "Mnet 와이드 연예뉴스 하이라이트", "2007 KLPGA KB국민은행 스타투어 4차대회", "막돼먹은 영애씨 시즌2" 등은 "프리메라리가", "와이드 연예뉴스", "스타투어", "막돼먹은 영애씨" 등을 이용하여 검색할 수 있도록 부가정보를 제거한다. 정규패턴(105)은 표준화된 Regular Expression을 이용하며, 반자동으로 구축한다.The program name includes 'channel name', 'year', 'specific contest', 'seasonal display', etc., which solves the problem of the user searching by selectively including or excluding the program name. For example, "07-08 Spanish Primera Liga Highlights", "Mnet Wide Entertainment News Highlights", "2007 KLPGA KB Kookmin Bank Star Tour 4th Tournament", "Lucky Young Ae Season 2" are "Primary Liga", The additional information will be removed so that you can search using "Wide Entertainment News", "Star Tour", "Lucky Young Ae". The regular pattern 105 uses a standardized regular expression and is semi-automatically constructed.

- 어절 분리 단계(S202)-Word separation step (S202)

어절 분리 단계에서는, 프로그램명으로 간주되기 어려운 이름 불용어 리스트(110)를 이용하여, 원래 방송 프로그램명 및 인명에서 어절단위로 방송 프로그램명 및 인명을 분리한다. 이름 불용어 리스트(110)는 다음 [표 2]에 예시한 바와 같다.In the word separation step, the name stop word list 110, which is hardly regarded as a program name, is used to separate the broadcast program name and the person's name in word units from the original broadcast program name and the person's name. The name stopword list 110 is as shown in the following [Table 2].

불용어 리스트 유형Stopword list type 불용어Stopword 채널명Channel name MBC, KBS1, KBS2, SBS, MBS-ESPN, YTN, tvN, 석세스 TV, 폭스 채널MBC, KBS1, KBS2, SBS, MBS-ESPN, YTN, tvN, Success TV, Fox Channel 부분 채널명Partial channel name ESPN, 석세스, 폭스, 채널, 스타일, 방송, 스포츠, Espn, success, fox, channel, style, broadcast, sports, 장르명Genre name 뉴스, 영화, 드라마, 코메디, 골프, 축구, 야구, News, movies, drama, comedy, golf, soccer, baseball, 프로그램 분류명Program Classification Name 건강, 패션쇼, 단편드라마, Health, Fashion Show, Short Drama, 시간 표현Time expression 금주, 오늘, 내일, 다음 주, 주말, This week, today, tomorrow, next week, weekend, EPG 검색 제어 가능 문자열EPG Search Controllable Strings 틀어, 돌려, 볼륨, 녹화, 예약, Turn on, turn, volume, record, reserve,

"독고영재의 현장르포 스캔들"은 '독고영재의', '현장르포', '스캔들'과 같이 3가지 프로그램명으로 분리되어 검색할 수 있도록 색인한다. 이때, "Mnet 와이드 연예 뉴스 하이라이트" 경우에는 'Mnet' 같은 채널 이름이나 '하이라이트'와 같은 불용어는 배제하고, '와이드'와 '연예뉴스'를 색인한다."Dongo Gifted's field reporter scandal" is divided into three program names such as 'Dokgo's Gifted', 'On-site reporter' and 'Scandal' for indexing. In this case, "Mnet Wide Entertainment News Highlights" excludes channel names such as "Mnet" or stopwords such as "Highlight" and indexes "wide" and "entertainment news."

- 공백 제거 및 심볼 정규화 단계(S204)-Space Removal and Symbol Normalization Step (S204)

공백 제거 및 심볼 정규화 단계에서는, EPG의 프로그램명에서 공백을 제거하고 색인한다. 텍스트 입력에서 일반 사용자들은 띄어쓰기를 고려하지 않고 입력하기 때문에 이를 최장일치로 인식하기 위해 필요하다. 또한, 외래어, 심볼 등은 색인과 검색 과정의 불일치를 최소화하기 위해 정규화한다. 주로, ':', '-', '!', ',' 등은 색인과정에서 삭제하는데, "도전! 수퍼모델"과 같은 프로그램에서는 어절 분리된 "도전!"에서 '!'를 색인 과정에서 삭제한다.In the space removal and symbol normalization step, spaces are removed and indexed from the program name of the EPG. In text input, general users input without considering spacing, so it is necessary to recognize this as the longest match. Also, foreign words, symbols, etc. are normalized to minimize inconsistency between index and search process. Usually, ':', '-', '!', ',', Etc. are deleted in the indexing process. In programs such as "Challenge! Supermodel", the "!" Is separated from the word "challenging!" Delete it.

- 바이그램 추출 단계(S206)-Bygram extraction step (S206)

바이그램 추출 단계에서는, 부분적인 철자 오류에 강건한 인식을 위해 프로그램명을 바이그램 단위로 색인한다. 특히 외래어 표현에서 사용자의 철자 오류가 많이 발생한다. 예를 들어, "도전 퍼모델"은 "도전 퍼모델"로 '수'와 '슈'를 혼동하여 많이 검색하게 되는데, 이런 철자오류에 대한 바이그램 정보를 이용하여 근사한 프로그램명을 탐색할 수 있게 한다.In the Baigram extraction step, program names are indexed in units of Bygram for robust recognition of partial spelling errors. In particular, a spelling error of a user occurs in a foreign language expression. For example, "The challenge can spread model" to explore the stunning program name using the bayigeuraem information on these spelling errors, there is as much search confuse 'could' and 'shoe' to "challenge the shoe spread model." To be.

다음으로, 프로그램명 및 인명 인식 과정에 대해 설명하기로 한다.Next, a description will be given of the program name and name recognition process.

도 3에 도시한 바와 같이, 본 발명에 따른 EPG 검색 서비스에서의 방송 프로그램 및 인명 인식 방법은, 도 2를 통해 색인한 DB를 바탕으로, 사용자의 EPG 검색 요구에 대해, 질문에 포함된 '프로그램명'을 효율적으로 인식한다.As shown in FIG. 3, the broadcast program and the name recognition method in the EPG search service according to the present invention are based on the DB indexed through FIG. Recognize people 'effectively.

사용자의 검색 요구에 의해 다단계 방법을 이용하여 프로그램명을 인식하게 된다. "EPG 검색" 블록에서 사용자의 질의가 프로그램명을 이용한 상세정보 검색이나 프로그램 출연자나 제작자 이름을 이용한 프로그램 검색이라면 질문에 나타나는 프로그램명이나 인명을 인식하는 단계로 이동한다. 프로그램 검색 질문인지를 이해하기 위해, 화행 분석(Speech Act Analysis)을 수행하지만, 이는 본 발명과 관계가 없고, 일반적인 통계 또는 규칙기반의 화행 분석기를 활용해도 되기 때문에 생략한다.The program name is recognized by the user's search request using a multi-level method. In the " EPG search &quot; block, if the user's query is a detailed information search using a program name or a program search using a program performer or producer name, the step moves to recognizing the program name or person name appearing in the question. Speech Act Analysis is performed to understand if it is a program search question, but this is omitted because it is not relevant to the present invention and a general statistical or rule-based speech act analyzer may be used.

- 심볼 정규화 단계(S300)Symbol normalization step (S300)

사용자의 검색 요구 질문에서 심볼이나 외래어가 포함되면 색인된 데이터와의 일치를 위해 이를 정규화한다. 검색에 불필요한 심볼은 삭제하고, 외래어의 경우, 약속된 방법에 따라 정규화한다.If a user's search request question contains symbols or foreign words, normalize them to match the indexed data. Symbols unnecessary for the search are deleted and, in the case of foreign words, normalized according to the promised method.

- 최장일치 탐색 단계(S302)-Longest match search step (S302)

입력 질의에서 공백을 제거한 질문을 바탕으로 색인된 이름 DB를 이용하여 왼쪽부터 최장 일치의 이름을 찾아낸다. 이때, 어절단위 이름 색인에 따라 불필요한 프로그램명이 같이 탐색된다.Find the longest match name from the left using the indexed name DB based on the query with white space removed from the input query. At this time, unnecessary program names are searched together according to the word unit name index.

이렇게 잘못 인식된 인명은 [표 3]의 이름 문맥 공기정보(112)를 이용하여 원래 입력으로 복원한다.This misidentified name is restored to the original input using the name context air information 112 shown in [Table 3].

문맥 정보Contextual Information 예제example 조사(이/가/을/를/에서/으로/도/만)Survey (this / to / from / to / province / only) 그 여자가 무서워는 몇 시에 하지? 유재석이 나오는 프로는?What time does she scare her? Who is Yoo Jae-seok? 검색용 어휘 (찾아봐, 검색, )Search Vocabulary (Find, Search,) CSI 과학수사대 뉴욕 시즌 3 찾아봐 위기의 주부들 검색CSI New York Season 3 Browse Desperate Housewives

예를 들어, "MB! 그와의 만남", "가장 멋진 방, 그 곳에서의 만남"라는 프로그램을 가정할 때, 바이그램 색인을 제외한 색인 내용은 다음 [표 4]와 같다.For example, suppose the program "MB! Meet with him", "Best room, meet there".

프로그램명Program name 변환 코드Conversion code MB그와의만남MBMeet with him 햇햇1Hat Hat 1 MBMB 햇햇2Hat Hat 2 그와의With him 햇햇3Hat Hat 3 만남meeting 햇햇4Hat Hat 4 가장멋진방그곳에서의만남The best room meeting there 햇햇5Hat Hat 5 가장most 햇햇6Hat 6 멋진Cool 햇햇7Hat 7 room 햇햇8Hat 8 That 햇햇9Hat Hat 9 곳에서의Where 햇햇10Hat 10

이를 이용하여 "주말에 MBC에서 방송하는 그와의 만남 찾아봐"는 "주말에 햇햇2C에서 햇햇8송하는 햇햇3 햇햇4찾아봐"가 인식되고, 이름 문맥 공기정보를 이용하여, '햇햇2'와 '햇햇8'는 오인식된 이름으로 원래대로 복원되어, "주말에 MBC에서 방송하는 햇햇3 햇햇4 찾아봐"가 이 단계에서 인식된 결과이다. 이 후에, 여러 단계를 거쳐 이들이 결합되어 완전한 이름으로 인식된다.By using this, "Find a meeting with him on MBC on weekends" is recognized as "Look for Hats3 and Hats4 sent by Hat2C on weekends on weekends." 'And' Hat Hat 8 'are restored to their original names, and the result is that "Look for Hat Hat 3 and Hat 4 broadcast on MBC on weekends". Thereafter, through several steps, they are combined and recognized as full names.

- 부분일치 이름 확장 인식 단계(S304)Partial Match Name Expansion Recognition Step (S304)

어절 단위로 프로그램명을 인식하기 때문에, 사용자가 프로그램명의 일부분으로 검색한 경우, 부분적으로 프로그램이 인식된다. 최장일치 탐색 단계(S302)의 예에서 "주말에 MBC에서 방송하는 햇햇3 햇햇4 찾아봐"에서 '햇햇3'과 '햇햇4'는 모두 '햇햇1'을 구성하는 부분 프로그램명이므로 부분일치 이름의 교집합을 통해 하나의 프로그램명으로 통합된다. 따라서, "주말에 MBC에서 방송하는 햇햇1 찾아봐"로 확장된다. 만일, 교집합을 통해 공통되는 프로그램명이 없다면, 원래 이름인 "주말에 MBC에서 방송하는 햇햇3 햇햇4 찾아봐"로 인식된다. 이를 위해 색인된 프로그램 정보에는 다음 [표 5]와 같은 전체-부분 매핑 테이블(114)을 가지고 있다.Since the program name is recognized in word units, when the user searches for a part of the program name, the program is partially recognized. In the example of the longest matching search step (S302), in the "Look for Hat3 and Hat4 broadcast on MBC on weekends", "Hat3" and "Hat4" are both partial program names that constitute 'Hat1'. It is integrated into a program name through the intersection of. Thus, it expands to "Look for Hat1 broadcasted by MBC on weekends". If there is no common program name through the intersection, it is recognized as the original name, "Look for Hat 3 and Hat 4 broadcast on MBC on weekends." To this end, the indexed program information has a full-part mapping table 114 as shown in Table 5 below.

프로그램명Program name 유형type 확장 프로그램Extension 햇햇1 Hat Hat 1 전체all 햇햇2,햇햇3,햇햇4 Hat 2, Hat 3, Hat 4 햇햇2 Hat Hat 2 부분part 햇햇1 Hat Hat 1 햇햇3 Hat Hat 3 부분part 햇햇1 Hat Hat 1 햇햇4 Hat Hat 4 부분part 햇햇1, 햇햇5 Hat 1, Hat 5 햇햇5 Hat Hat 5 전체all 햇햇6,햇햇7,햇햇8,햇햇9, 햇햇10,햇햇4 Sun 6, Sun 7, Sun 8, Sun 9, Sun 10, Sun 4 햇햇5 Hat Hat 5 부분part 햇햇5 Hat Hat 5 햇햇7 Hat 7 부분part 햇햇5 Hat Hat 5 햇햇8 Hat 8 부분part 햇햇5 Hat Hat 5 햇햇9 Hat Hat 9 부분part 햇햇5 Hat Hat 5 햇햇10 Hat 10 부분part 햇햇5 Hat Hat 5

[표 5]에 대한 설명은 다음과 같다. '햇햇1' ("MB! 그와의 만남")은 햇햇2("MB"), 햇햇3("그와의"), 햇햇4("만남")으로 구성되며, '햇햇1'은 원래 제목을 표현한다. 햇햇2("MB")는 햇햇1("MB! 그와의 만남")을 구성하는 부분 프로그램명이다. 또한, 햇햇4("만남")은 햇햇1이나 햇햇5을 구성하는 프로그램의 일부분임을 나타낸다. 이러한 정보를 이용하여, 부분 인식된 프로그램명 사이의 관계를 파악하고, 이를 통해 확장 가능한 최대의 프로그램명으로 확장하여 인식한다.Description of Table 5 is as follows. 'Hathat1' ("MB! Meet with him") consists of hathat2 ("MB"), hathat3 ("he"), hathat4 ("meeting"), and 'hathat1' was originally Express the title. Hat 2 ("MB") is the name of the partial program that makes up Hat 1 ("MB! Meet Him"). Also, Hat 4 ("Meet") indicates that it is part of the programs that make up Hat 1 or Hat 5. Using this information, the relationship between the partially recognized program names is grasped, and the expanded and recognized maximum program names are recognized.

- 불용어 포함 확장 인식 단계(S306)Extended recognition step including stop words (S306)

불용어 포함 확장 인식 단계에서는 원래 제목이 "토론 시시비비"인 프로그램을 검색할 때 사용자가 "토론 시시비비는 언제하지"를 검색할 경우, '토론'과 같은 프로그램 장르를 표현하는 단어는 불용어 포함되기 때문에, "토론 햇햇3455는 언제하지"와 같이 인식된다. "시시비비"를 부분 문자열로 가지는 다른 프로그램이나 "시시비비"가 원제목인 프로그램이 있을 경우, 여러 프로그램을 검색하게 된다. 이 단계에서는 인식된 프로그램명 앞의 문맥과 뒤의 문맥을 파악하여 앞/뒤 단어가 불용어인 경우, 불용어와 프로그램명이 결합되어 확장이 가능한 프로그램명이 있을 경우, 이를 결합하여 인식한다. 위의 예제에서는 "햇햇3454는 언제하지"와 같이 불용어를 포함한 최장의 프로그램명으로 확장되어 인식한다.Include Terminology In the expanded recognition phase, when a user searches for a program titled "discussion sibibi", when a user searches for "when debate sisibi", words representing a program genre such as "discussion" are included as stopwords. It is recognized as "discussion hat 3455 not when". If there are other programs that have "sishibi" as substrings or programs whose original title is "sishibi", several programs are searched. In this step, the context before and after the recognized program name is grasped, and when the front and rear words are stop words, when the stop word and the program name are combined and expandable, there is a combined program name. In the example above, the hat 3454 is expanded to the longest program name, including stopwords.

- 인식오류 복원 단계(S308)-Recognition error restoration step (S308)

선행 단계에서 프로그램명을 인식할 때, 오류가 발생할 수 있다. 예를 들어, "올라이즈 밴드가 나오는 프로 찾아봐"에 대한 검색에서 선행 단계는 "올라이즈 햇햇23가 나오는 프로 찾아봐"와 같이 "밴드"라는 이름을 프로그램명으로 오 인식할 수 있다. 이때, 인식오류 복원 단계(S308)에서는, 인명 정보와 같이 한 질문에 나타날 수 있는 '나오다', '출연하다', '감독하다', '제작하다'나 채널 이름과 같이 나타날 수 있는 '틀어', '돌려' 등의 문맥 정보를 활용하여 오인식된 이름을 복원한다.When recognizing the program name in the preceding step, an error may occur. For example, in a search for "look for a pro with an rising band", the preceding step might recognize the name "band" as a program name, such as "look for a pro with an rising hat 23". At this time, in the recognition error restoration step (S308), such as 'information', 'appear', 'direct', 'produce' or 'twist' which may appear as a channel name, which may appear in a question such as personal information. Restore misrecognized names by using contextual information such as "turn back".

- 바이그램 인식 단계(S310)-Bygram recognition step (S310)

사용자가 정확한 프로그램명을 기억하지 않는 한, 철자오류나 띄어쓰기 오류, 일부 어절 빼먹기 오류 등이 많이 발생한다. 가능한 오류를 포함하는 이름을 모두 사전에 색인할 수 없기 때문에, 이를 해결하기 위한 백오프(Back-off) 방법이 필요하다. 본 발명에서는 위에서 기술한 단계들(S300, S302, S304, S306, S308)에서 프로그램명이 하나도 인식되지 않을 경우, 바이그램 인식 단계(s310)에서는, 질문에서 '질문_바이그램_불용어'를 제외한 어휘들을 바이그램으로 색인하여 색인 DB를 검색한다. 질문 바이그램과 색인된 바이그램을 비교하여, 일정 가중치 이상을 만족하는 색인 바이그램을 대상으로 프로그램 정보를 검색하도록 한다. 이때, '질문_바이그램_불용어'는 EPG 검색을 위한 질문에 포함될 수 있는 어휘들을 수집하여 구축한다. 예를 들어, "찾아봐", "검색해", "검색", "알람", "예약", "녹화", "삭제" 등 EPG 검색이나 예약 관련 명령어와 채널명, 장르명, 날짜표현 등이 포함된다. 이는 어절 분리 단계(S202) 및 불용어 포함 확장 인식 단계(S306)에서 사용된 불용어 리스트[표 2]를 사용한다.Unless the user remembers the exact program name, spelling, spacing, and some word skip errors occur. Since all names with possible errors cannot be indexed beforehand, a back-off method is needed to solve this problem. In the present invention, when none of the program names are recognized in the above-described steps (S300, S302, S304, S306, and S308), in the bygram recognition step (s310), the words other than the 'question_bigram_stopword' in the question aregrammed. Search the index DB by indexing with. Compare the question viagram with the indexed bygram, and search the program information for the index bygram that satisfies a certain weight or more. At this time, the 'question_bigram_stopword' collects and builds vocabularies that can be included in the question for EPG search. For example, EPG search or reservation related commands such as "Find", "Search", "Search", "Alarm", "Schedule", "Record", "Delete", and the channel name, genre name, and date expression are included. . This uses the stop word list [Table 2] used in the word separation step S202 and the stop word inclusion expansion recognition step S306.

이상 설명한 바와 같이, 본 발명은 EPG 검색을 하는데 있어서, 프로그램명 또는 인명을 이용하여 프로그램을 검색할 때, 실제 DB의 데이터와 사용자의 입력 사이의 불일치에 따른 검색 성능 저하를 방지하기 위해, 프로그램명과 인명을 어절 단위 및 바이그램(bigram) 단위로 추가 색인하고, 이를 바탕으로 다단계 인식 방법 및 오류 복원 방법을 적용하여 EPG 검색 성능을 향상시키도록 구현한 것이다.As described above, in the EPG search, when searching for a program using a program name or a human name, in order to prevent a decrease in search performance due to inconsistency between actual DB data and user input, It is implemented to improve EPG search performance by applying multi-level recognition method and error recovery method based on indexes of life names in word units and bigram units.

한편, 본 발명의 실시예에 대해 상세히 기술하였으나 본 발명은 이러한 실시예에 국한되는 것은 아니며, 후술하는 청구범위에 기재된 본 발명의 기술적 사상과 범주 내에서 당업자로부터 여러 가지 변형이 가능함은 물론이다.Meanwhile, the embodiments of the present invention have been described in detail, but the present invention is not limited to these embodiments, and various modifications may be made by those skilled in the art within the spirit and scope of the present invention described in the claims below.

도 1은 본 발명에서 프로그램명 또는 인명 인식을 위하여 EPG DB에서 대상 이름을 색인하고, 검색하는 과정을 표현한 구성도,1 is a block diagram representing a process of indexing and searching a target name in an EPG DB for recognizing a program name or a human name in the present invention;

도 2는 본 발명에서 이름을 색인하기 위한 구체적인 방법을 표현한 구성도,2 is a block diagram illustrating a specific method for indexing names in the present invention;

도 3은 본 발명의 색인된 이름을 기반으로 이름을 인식하는 방법에 대한 구체적인 순서를 그림으로 표현한 구성도.FIG. 3 is a diagram illustrating a detailed sequence of a method of recognizing a name based on an indexed name of the present invention. FIG.

Claims (7)

EPG 검색 서비스에서의 방송 프로그램명 및 인명 관리 방법으로서,A broadcast program name and a name management method in the EPG search service, 방송 프로그램명 및 인명을 어절 단위 및 바이그램 단위로 다단계 색인하는 과정과,Multi-stage indexing of program names and names by word and by-gram unit; 사용자의 검색 질의 요청시에 상기 색인하는 과정에서 색인된 방송 프로그램명 및 인명과 문맥지식을 이용하여 상기 사용자의 검색 질의에 포함된 방송 프로그램 및 인명을 인식하는 과정Recognizing the broadcast program and the name included in the search query of the user by using the indexed broadcast program name and the name and the contextual knowledge in the indexing process when the user's search query request 을 포함하는 EPG 검색 서비스에서의 방송 프로그램명 및 인명 관리 방법.Broadcast program name and name management method in the EPG search service comprising a. 제 1 항에 있어서,The method of claim 1, 상기 색인하는 과정은,The indexing process, 선택적 부가정보 정규패턴을 이용하여 상기 사용자의 검색 입력 대상에서 선택적인 어휘들을 제거하는 과정과,Removing the optional vocabulary from the search input target of the user using an optional additional information regular pattern; 상기 선택적인 어휘들이 제거된 방송 프로그램명 및 인명을 대상으로 공백 제거 및 심볼 정규화를 통해 색인 대상이 되는 키를 정규화하는 과정과,Normalizing a key to be indexed by removing spaces and symbol normalization for a broadcast program name and a person name from which the optional vocabularies are removed; 사용자의 이름 검색 입력 대상에서 나타나지 않는 이름 불용어 리스트를 이용하여 원래 방송 프로그램명 및 인명에서 어절단위로 방송 프로그램명 및 인명을 분리하는 과정과,Separating the program name and the person's name in word units from the original program name and the person's name by using a name stopword list that does not appear in the user's name search input target; 이름 불용어 리스트를 이용하여 방송 프로그램명 및 인명으로부터 개개의 바이그램을 추출하는 과정Process of extracting individual viagrams from program name and person's name using name stopword list 을 포함하는 EPG 검색 서비스에서의 방송 프로그램명 및 인명 관리 방법.Broadcast program name and name management method in the EPG search service comprising a. 제 2 항에 있어서,The method of claim 2, 상기 선택적인 어휘들을 제거하는 과정은,The process of removing the optional vocabulary may include: EPG DB에 포함된 프로그램명에서 공백을 제거하고 원래 이름을 색인하는 과정과,Removing whitespace from the program name included in the EPG DB and indexing the original name; 상기 선택적 부가정보 정규패턴을 이용하여 이름에 포함된 불필요한 정보들을 제거하고 색인하는 과정Process of removing and indexing unnecessary information included in a name using the optional additional information regular pattern 을 포함하는 EPG 검색 서비스에서의 방송 프로그램명 및 인명 관리 방법.Broadcast program name and name management method in the EPG search service comprising a. 제 2 항에 있어서,The method of claim 2, 상기 정규화하는 과정은, 외래어 및 심볼에 대해 색인과 검색 과정의 불일치를 최소화하기 위해 정규화하는 것을 특징으로 하는 EPG 검색 서비스에서의 방송 프로그램명 및 인명 관리 방법.The normalization process is to normalize to minimize the discrepancy between the index and the search process for foreign words and symbols, the broadcast program name and name management method in the EPG search service. 제 2 항에 있어서,The method of claim 2, 상기 바이그램을 추출하는 과정은, 외래어 표현에서의 사용자 철자 오류에 대한 바이그램 정보를 색인하는 것을 특징으로 하는 EPG 검색 서비스에서의 방송 프로그램명 및 인명 관리 방법.The extracting of the viagram may include indexing the viagram information on the user misspelling in the foreign language expression. 제 1 항에 있어서,The method of claim 1, 상기 인식하는 과정은,The recognition process, 방송 프로그램명 및 인명을 인식하기 위해 사용자의 검색 질의에 포함된 심볼/영어/숫자 표현을 정규화는 심볼 정규화 과정과,A symbol normalization process for normalizing symbol / English / numeric representation included in a user's search query to recognize a program name and a person's name, 어절단위로 색인된 방송 프로그램명 및 인명과 원래 방송 프로그램명 및 인명을 연결하기 위해 상기 어절단위로 색인된 방송 프로그램명 및 인명과 원래 방송 프로그램명 및 인명 간의 관계를 분석하여 의미적으로 연결시킨 전체-부분 이름 매핑 테이블을 구성하는 과정과,In order to link the program name and person's name indexed by word, and the original program name and person's name, the relationship between the word and person's name and original program name and person's name indexed by word is analyzed and semantically linked. Configuring the partial name mapping table; 방송 프로그램명 및 인명을 인식하기 위해 검색 질의에 포함된 다수 개의 방송 프로그램명 및 인명을 대상으로 상기 전체-부분 이름 매핑 테이블을 이용하여 부분적으로 일치된 이름을 확장하여 인식하는 과정과,Expanding and recognizing a partially matched name using the full-part name mapping table for a plurality of broadcast program names and names included in a search query to recognize broadcast program names and names; 기 인식된 방송 프로그램명 및 인명과 상기 기 인식된 방송 프로그램명 및 인명의 주위 문맥에서 이름 불용어를 탐색하여 불용어가 포함된 이름으로 확장하여 인식하는 과정과,Searching for a name stopword in a pre-recognized broadcast program name and person's name and surrounding context of the previously recognized broadcast program name and a person's name, and expanding and recognizing the name stopword to a name including the stopword; 상기 기 인식된 방송 프로그램명 및 인명에서 오인된 부분을 복원하기 위해 상기 기 인식된 방송 프로그램명 및 인명의 주위 문맥 정보를 활용하는 인식오류 복원 과정과,A recognition error restoration process utilizing the context information of the pre-recognized broadcast program name and the name of the person to restore the mistaken portion of the pre-recognized broadcast program name and the person's name; 최종 분석 결과에 방송 프로그램명 및 인명이 포함되지 않은 경우에 검색 입력에서 불용어를 제거하는 과정과,Removing the stopwords from the search input when the final analysis result does not include the program name and the name of the program; 상기 불용어 제거 후 바이그램을 추출하여 방송 프로그램명 및 인명 DB의 바이그램 정보를 탐색하고 그 중에서 일정 가중치를 초과하는 방송 프로그램명 및 인명을 검색 결과로 반환하는 과정Extracting the bygram after removing the stopwords, searching for the program information of the broadcast program name and the DB name and returning the broadcast program name and person name exceeding a certain weight among them as a search result 을 포함하는 EPG 검색 서비스에서의 방송 프로그램명 및 인명 관리 방법.Broadcast program name and name management method in the EPG search service comprising a. 제 6 항에 있어서,The method of claim 6, 상기 불용어가 포함된 이름으로 확장하여 인식하는 과정은,The process of recognizing by expanding the name containing the stopwords, 인식된 프로그램명 앞의 문맥과 뒤의 문맥을 파악하는 과정과,Identifying the context before and after the recognized program name, 상기 파악되는 앞의 문맥과 뒤의 문맥의 단어가 불용어인 경우 및 불용어와 프로그램명이 결합되어 확장이 가능한 프로그램명이 있을 경우를 각각 결합하여 인식하는 과정A process of combining and recognizing a case in which the words of the preceding and later contexts are the stopwords and when there are program names that can be expanded by combining the stopwords and the program names. 을 포함하는 EPG 검색 서비스에서의 방송 프로그램명 및 인명 관리 방법.Broadcast program name and name management method in the EPG search service comprising a.
KR20070128550A 2007-12-11 2007-12-11 Method for providing program and person name information management in electronic program guide service KR20090061520A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR20070128550A KR20090061520A (en) 2007-12-11 2007-12-11 Method for providing program and person name information management in electronic program guide service

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR20070128550A KR20090061520A (en) 2007-12-11 2007-12-11 Method for providing program and person name information management in electronic program guide service

Publications (1)

Publication Number Publication Date
KR20090061520A true KR20090061520A (en) 2009-06-16

Family

ID=40990974

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20070128550A KR20090061520A (en) 2007-12-11 2007-12-11 Method for providing program and person name information management in electronic program guide service

Country Status (1)

Country Link
KR (1) KR20090061520A (en)

Similar Documents

Publication Publication Date Title
US7885963B2 (en) Free text and attribute searching of electronic program guide (EPG) data
US11197036B2 (en) Multimedia stream analysis and retrieval
US7594244B2 (en) Program recommendation system
US7756916B2 (en) Display method
Wilks Information extraction as a core language technology
CN101889281B (en) Content search device and content search method
US20090228424A1 (en) Program recommending apparatus and program recommending method
US8115869B2 (en) Method and system for extracting relevant information from content metadata
CN100545907C (en) Speech recognition dictionary making device and information indexing device
US20150208139A1 (en) Caption Extraction and Analysis
Poignant et al. Unsupervised speaker identification in TV broadcast based on written names
US9286385B2 (en) Method and system for providing access to information of potential interest to a user
JP4619915B2 (en) PROGRAM DATA PROCESSING DEVICE, PROGRAM DATA PROCESSING METHOD, CONTROL PROGRAM, RECORDING MEDIUM, RECORDING DEVICE, REPRODUCTION DEVICE, AND INFORMATION DISPLAY DEVICE EQUIPPED WITH PROGRAM DATA PROCESSING DEVICE
US20090055855A1 (en) Information processing apparatus and method as well as software program
JP6429382B2 (en) Content recommendation device and program
Amir et al. Advances in phonetic word spotting
JP2010262413A (en) Voice information extraction device
US20080215577A1 (en) Information processing apparatus and method, program, and storage medium
Jong et al. Language-based multimedia information retrieval
KR20090061520A (en) Method for providing program and person name information management in electronic program guide service
AU769098B2 (en) Method and system utilizing text selected on a web page for searching in a database of television programs
JP2007140194A (en) Program retrieval device and morphemic dictionary control server
Coden et al. Speech transcript analysis for automatic search
JP2014048946A (en) Electric device and method for controlling the same
Hrúz et al. Multimodal Name Recognition in Live TV Subtitling.

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application