KR101962126B1 - Multimedia device for accessing database according to result of voice recognition and method for controlling the same - Google Patents

Multimedia device for accessing database according to result of voice recognition and method for controlling the same Download PDF

Info

Publication number
KR101962126B1
KR101962126B1 KR1020120019231A KR20120019231A KR101962126B1 KR 101962126 B1 KR101962126 B1 KR 101962126B1 KR 1020120019231 A KR1020120019231 A KR 1020120019231A KR 20120019231 A KR20120019231 A KR 20120019231A KR 101962126 B1 KR101962126 B1 KR 101962126B1
Authority
KR
South Korea
Prior art keywords
voice signal
audio data
database
multimedia device
text data
Prior art date
Application number
KR1020120019231A
Other languages
Korean (ko)
Other versions
KR20130097513A (en
Inventor
강민구
이쌍수
조기형
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR1020120019231A priority Critical patent/KR101962126B1/en
Publication of KR20130097513A publication Critical patent/KR20130097513A/en
Application granted granted Critical
Publication of KR101962126B1 publication Critical patent/KR101962126B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

본 발명의 일실시예에 의한 음성 인식 결과에 따라 데이터베이스에 액세스하는 멀티미디어 디바이스의 제어 방법은, 적어도 하나 이상의 채널을 스캔하여, 텍스트 데이터 및 오디오 데이터를 추출하는 단계와, 상기 추출된 텍스트 데이터 및 음성 데이터를 기설정된 기준에 따라, 데이터베이스(DB)에 저장하는 단계와, 상기 멀티미디어 디바이스의 유저로부터 음성 신호를 인식하는 단계와, 상기 인식된 음성 신호에 대응하는 오디오 데이터를, 상기 DB내에서 검색하는 단계와, 그리고 상기 인식된 음성 신호에 대응하는 오디오 데이터가 상기 DB에 존재하지 않는 경우, 웹 페이지 검색 결과를 디스플레이 하는 단계를 포함한다.According to another aspect of the present invention, there is provided a method of controlling a multimedia device accessing a database according to a speech recognition result, the method comprising: extracting text data and audio data by scanning at least one channel; Storing data in a database (DB) according to a predetermined criterion; recognizing a voice signal from a user of the multimedia device; searching audio data corresponding to the recognized voice signal in the DB And displaying the web page search result when audio data corresponding to the recognized voice signal is not present in the DB.

Description

음성 인식 결과에 따라 데이터베이스에 액세스하는 멀티미디어 디바이스 및 그 제어 방법{MULTIMEDIA DEVICE FOR ACCESSING DATABASE ACCORDING TO RESULT OF VOICE RECOGNITION AND METHOD FOR CONTROLLING THE SAME}TECHNICAL FIELD [0001] The present invention relates to a multimedia device for accessing a database according to speech recognition results, and a control method thereof. [0002] MULTIMEDIA DEVICE FOR ACCESSING DATABASE ACCORDING TO VOICE RECOGNITION AND METHOD FOR CONTROLLING THE SAME [0003]

본 발명은 멀티미디어 디바이스(multimedia device)에 대한 것으로서, 보다 상세하게는 음성 인식 결과에 따라 데이터베이스에 액세스하는 멀티미디어 디바이스 및 그 제어 방법에 관한 것이다. 상기 멀티미디어 디바이스는, 예를 들어 DTV(digital television), 네트워크 TV, IPTV, 스마트 TV, 웹 TV, 모바일 디바이스 또는 스마트폰 등에 적용될 수가 있다.BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a multimedia device, and more particularly, to a multimedia device and a control method thereof for accessing a database in accordance with speech recognition results. The multimedia device may be applied to, for example, a digital television (DTV), a network TV, an IPTV, a smart TV, a web TV, a mobile device or a smart phone.

최근 모바일 폰 또는 TV 등의 멀티미디어 디바이스를 이용한 보이스 인식 기술이 논의되고 있다. 다만, 종래 기술에 의하면, 응답에 대한 참조값의 데이터베이스가 자동으로 업데이트 되지 않아서 항상 동일한 고정된 답변만을 확인하는 한계가 있었다.Recently, voice recognition technology using a multimedia device such as a mobile phone or a TV is being discussed. However, according to the related art, the database of the reference value for the response is not automatically updated, so that there is a limit to always check only the same fixed answer.

또한, 종래 기술에 의한 TTS(Text To Speech) 서비스는 지정된 화자 또는 디폴트된 화자의 목소리 만으로 답변이 제공되므로, 유저에게 다양한 멀티미디어 서비스를 제공할 수 없는 문제점이 있었다. In addition, since the TTS (Text To Speech) service according to the related art is provided only by the voice of a designated speaker or a default speaker, there is a problem that various multimedia services can not be provided to a user.

본 발명의 일실시예는, 전술하여 설명한 문제점들을 해결하고저 유저의 질문값에 최적화된 데이터베이스(database)를 자동으로 업데이트 하는 솔루션을 제안하고자 한다.An embodiment of the present invention proposes a solution for solving the above-mentioned problems and automatically updating a database optimized for the query value of the user.

또한, 본 발명의 다른 일실시예는, 유저의 질문값에 대응하는 데이터베이스 검색 실패시 유저에게 차선의 데이터를 제공하는 방법을 제안하고자 한다.In addition, another embodiment of the present invention proposes a method of providing lane data to a user in case of a database search failure corresponding to a question value of a user.

그리고, 본 발명의 또 다른 일실시예는, 음성 인식 서비스의 결과물을 단순 텍스트로만 출력하지 않고, 맵핑된 멀티미디어 데이터와 연동하여 서비스를 제공하는 프로토콜을 정의하고자 한다.Another embodiment of the present invention is to define a protocol for providing a service in cooperation with a mapped multimedia data without outputting only the result of the speech recognition service as simple text.

본 발명의 일실시예에 의한 음성 인식 결과에 따라 데이터베이스에 액세스하는 멀티미디어 디바이스의 제어 방법은, 적어도 하나 이상의 채널을 스캔하여, 텍스트 데이터 및 오디오 데이터를 추출하는 단계와, 상기 추출된 텍스트 데이터 및 음성 데이터를 기설정된 기준에 따라, 데이터베이스(DB)에 저장하는 단계와, 상기 멀티미디어 디바이스의 유저로부터 음성 신호를 인식하는 단계와, 상기 인식된 음성 신호에 대응하는 오디오 데이터를, 상기 DB내에서 검색하는 단계와, 그리고 상기 인식된 음성 신호에 대응하는 오디오 데이터가 상기 DB에 존재하지 않는 경우, 웹 페이지 검색 결과를 디스플레이 하는 단계를 포함한다.According to another aspect of the present invention, there is provided a method of controlling a multimedia device accessing a database according to a speech recognition result, the method comprising: extracting text data and audio data by scanning at least one channel; Storing data in a database (DB) according to a predetermined criterion; recognizing a voice signal from a user of the multimedia device; searching audio data corresponding to the recognized voice signal in the DB And displaying the web page search result when audio data corresponding to the recognized voice signal is not present in the DB.

나아가, 본 발명의 일실시예에 의한 음성 인식 결과에 따라 데이터베이스에 액세스하는 멀티미디어 디바이스는, 적어도 하나 이상의 채널을 스캔하여, 텍스트 데이터 및 오디오 데이터를 추출하는 추출 모듈과, 상기 추출된 텍스트 데이터 및 음성 데이터를 기설정된 기준에 따라, 데이터베이스(DB)에 저장하는 메모리와, 상기 멀티미디어 디바이스의 유저로부터 음성 신호를 인식하는 인식 모듈과, 상기 인식된 음성 신호에 대응하는 오디오 데이터를, 상기 DB내에서 검색하는 검색 엔진과, 그리고 상기 인식된 음성 신호에 대응하는 오디오 데이터가 상기 DB에 존재하지 않는 경우, 웹 페이지 검색 결과를 디스플레이 하는 디스플레이 모듈을 포함한다.Furthermore, the multimedia device accessing the database according to the speech recognition result according to an embodiment of the present invention may include an extraction module that scans at least one channel and extracts text data and audio data, A memory for storing data in a database (DB) according to a preset reference; a recognition module for recognizing a voice signal from a user of the multimedia device; and audio data corresponding to the recognized voice signal, And a display module for displaying a web page search result when audio data corresponding to the recognized voice signal is not present in the DB.

본 발명의 일실시예에 의하면, 유저의 질문값에 최적화된 데이터베이스(database)를 자동으로 업데이트 하는 솔루션을 제공한다.According to an embodiment of the present invention, there is provided a solution for automatically updating a database optimized for a user's query value.

또한, 본 발명의 다른 일실시예는, 유저의 질문값에 대응하는 데이터베이스 검색 실패시 유저에게 차선의 데이터를 제공하는 방법을 제공한다.According to another embodiment of the present invention, there is provided a method of providing lane data to a user in the event of a database search failure corresponding to a question value of a user.

그리고, 본 발명의 또 다른 일실시예는, 음성 인식 서비스의 결과물을 단순 텍스트로만 출력하지 않고, 맵핑된 멀티미디어 데이터와 연동하여 서비스를 제공하는 프로토콜을 정의한다.Another embodiment of the present invention defines a protocol for providing a service in cooperation with the mapped multimedia data without outputting the result of the speech recognition service as simple text.

도 1은 본 발명의 일실시예에 의한 음성 인식 결과에 따라 데이터베이스에 액세스하는 멀티미디어 디바이스를 도시한 블록도이다.
도 2는 도 1에 도시된 인식 모듈을 보다 상세히 설계한 도면이다.
도 3은 본 발명의 일실시예에 따라 추출된 텍스트 데이터 및 오디오 데이터를 예시한 도면이다.
도 4는 본 발명의 일실시예에 따라, 추출된 텍스트 데이터에 대응하는 가상의 질의값을 맵핑하여 저장하고 있는 화자별 데이터베이스를 도시한 도면이다.
도 5는 본 발명의 다른 일실시에에 따라, 추출된 텍스트 데이터에 대응하는 가상의 질의값을 맵핑하여 저장하고 있는 장르별 데이터베이스를 도시한 도면이다.
도 6은 본 발명의 또 다른 일실시예에 따라, 추출된 텍스트 데이터에 대응하는 가상의 질의값을 맵핑하여 저장하고 있는 선호채널별 데이터베이스를 도시한 도면이다.
도 7은 본 발명의 일실시예에 의한 멀티미디어 디바이스를 이용하여 유저의 음성 신호를 입력하는 과정을 도시한 도면이다.
도 8은 도 7에서 입력된 유저의 음성 신호에 대응하는 멀티미디어 데이터가 DB 에 저장된 경우의 처리 프로세스를 도시한 도면이다.
도 9는 도 7에서 입력된 유저의 음성 신호에 대응하는 멀티미디어 데이터가 DB 에 저장되어 있지 않은 경우의 처리 프로세스를 도시한 도면이다.
그리고, 도 10은 본 발명의 일실시예에 의한 음성 인식 결과에 따라 데이터베이스에 액세스하는 멀티미디어 디바이스를 제어하는 방법을 도시한 플로우 차트이다.
1 is a block diagram illustrating a multimedia device accessing a database according to speech recognition results according to an embodiment of the present invention.
FIG. 2 is a detailed view of the recognition module shown in FIG. 1; FIG.
3 is a diagram illustrating text data and audio data extracted according to an embodiment of the present invention.
FIG. 4 is a diagram illustrating a database for each speaker that maps and stores virtual query values corresponding to extracted text data according to an embodiment of the present invention. Referring to FIG.
FIG. 5 is a diagram showing a genre-specific database in which virtual query values corresponding to extracted text data are mapped and stored according to another embodiment of the present invention.
FIG. 6 is a diagram illustrating a database for each preferred channel in which virtual query values corresponding to extracted text data are mapped and stored according to another embodiment of the present invention. FIG.
7 is a diagram illustrating a process of inputting a user's voice signal using a multimedia device according to an embodiment of the present invention.
FIG. 8 is a diagram showing a processing process when multimedia data corresponding to a voice signal of a user input in FIG. 7 is stored in a DB.
9 is a diagram showing a processing process in the case where the multimedia data corresponding to the voice signal of the user input in FIG. 7 is not stored in the DB.
10 is a flowchart illustrating a method of controlling a multimedia device accessing a database according to a speech recognition result according to an embodiment of the present invention.

이하에서는 도면을 참조하여 본 발명을 더욱 상세하게 설명한다. Hereinafter, the present invention will be described in more detail with reference to the drawings.

이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 단순히 본 명세서 작성의 용이함을 고려하여 부여되는 것으로서, 상기 "모듈" 및 "부"는 서로 혼용되어 사용될 수도 있다.The suffix "module" and " part "for components used in the following description are given merely for ease of description, and the" module "and" part "

나아가, 이하 첨부 도면들 및 첨부 도면들에 기재된 내용들을 참조하여 본 발명의 실시 예를 상세하게 설명하지만, 본 발명이 실시 예들에 의해 제한되거나 한정되는 것은 아니다. BRIEF DESCRIPTION OF THE DRAWINGS The above and other features and advantages of the present invention will be more apparent from the following detailed description taken in conjunction with the accompanying drawings, in which: FIG.

본 명세서에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어를 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 관례 또는 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 그 의미를 기재할 것이다. 따라서 본 명세서에서 사용되는 용어는, 단순한 용어의 명칭이 아닌 그 용어가 가지는 실질적인 의미와 본 명세서의 전반에 걸친 내용을 토대로 해석되어야 함을 밝혀두고자 한다.As used herein, terms used in the present invention are selected from general terms that are widely used in the present invention while taking into account the functions of the present invention, but these may vary depending on the intention or custom of a person skilled in the art or the emergence of new technologies. In addition, in certain cases, there may be a term arbitrarily selected by the applicant, in which case the meaning thereof will be described in the description of the corresponding invention. Therefore, it is intended that the terminology used herein should be interpreted based on the meaning of the term rather than on the name of the term, and on the entire contents of the specification.

도 1은 본 발명의 일실시예에 의한 음성 인식 결과에 따라 데이터베이스에 액세스하는 멀티미디어 디바이스를 도시한 블록도이다. 이하, 도 1을 참조하여, 유저로부터 전송되는 음성 신호를 처리하는 과정과, 그리고 방송국이나 서버로부터 전송되는 방송 신호를 처리하는 과정을 설명하도록 하겠다.1 is a block diagram illustrating a multimedia device accessing a database according to speech recognition results according to an embodiment of the present invention. Hereinafter, a process of processing a voice signal transmitted from a user and a process of processing a broadcast signal transmitted from a broadcasting station or a server will be described with reference to FIG.

네트워크 인터페이스(110)는 방송국이나 서버 등으로부터 방송 화면을 구현하기 위한 일반적인 A/V 데이터를 수신할 뿐만 아니라, 각 방송의 캡션(teletext) 데이터를 수신한다. 상기 캡션 데이터를 텍스트 데이터로 명명할 수 있으며, 오디오 데이터와 맵핑되어 있다. 따라서, 오디오 신호의 싱크 정보에 기초하여, 적절한 타이밍에 텍스트 데이터를 출력할 수가 있다.The network interface 110 not only receives general A / V data for implementing a broadcast screen from a broadcast station, a server, etc., but also receives teletext data of each broadcast. The caption data may be referred to as text data and mapped with audio data. Therefore, text data can be output at appropriate timing based on the sync information of the audio signal.

추출 모듈(120)은 적어도 하나 이상의 채널을 스캔하여, 텍스트 데이터 및 오디오 데이터를 추출하고, 메모리(130)는 상기 추출된 텍스트 데이터 및 음성 데이터를 기설정된 기준에 따라, 데이터베이스(DB)에 저장하고 있다. 또한, 추출된 방송의 EPG 정보(ex : 방송 시간, 프로그램명, 출연자 정보 등)를 추가적으로 이용하여, 부가 서비스를 제공할 수도 있다.The extraction module 120 scans at least one channel to extract text data and audio data, and the memory 130 stores the extracted text data and voice data in a database (DB) according to predetermined criteria have. In addition, additional services may be provided by additionally using EPG information (ex: broadcast time, program name, performer information, etc.) of the extracted broadcast.

특히, 본 발명의 일실시예에 의하면, 유저의 음성 신호에 대하여 동일한 답변을 제공하는 종래 기술의 문제점을 해결하여 데이터베이스를 자동으로 업데이트 한다. 관련하여, 도 3 내지 도 6을 참조하여 보다 상세히 후술하도록 하겠다.In particular, according to one embodiment of the present invention, the problem of the prior art that provides the same answer to the user's voice signal is solved and the database is automatically updated. With reference to FIG. 3 to FIG. 6, will be described later in detail.

예를 들어, 방송 신호의 텍스트 데이터에 포함된 주요 키워드를 추출하며, 특히 노출 빈도가 높은 참조어들(예를 들어, 날씨, 스포츠, 뉴스, 교통사고, 화재 등)에 대한 데이터베이스를 축적한다. 나아가, 전술한 방송 신호의 텍스트 데이터에 물음표가 포함된 경우, 이어지는 답변을 데이터베이스에 우선적으로 저장하도록 설계한다.For example, it extracts the main keywords included in the text data of the broadcast signal, and accumulates a database of reference words (for example, weather, sports, news, traffic accidents, fire, etc.) Further, when the question mark is included in the text data of the above-mentioned broadcast signal, the following answer is designed to be preferentially stored in the database.

인식 모듈(140)은, 상기 멀티미디어 디바이스(100)의 유저로부터 음성 신호를 인식하고, 검색 엔진(150)은 상기 인식된 음성 신호에 대응하는 오디오 데이터를, 상기 DB내에서 검색하도록 설계한다. 상기 인식 모듈(140)에 대해서는, 도 2를 참조하여 보다 상세히 후술하겠다.The recognition module 140 recognizes a voice signal from a user of the multimedia device 100 and the search engine 150 designs to search audio data corresponding to the recognized voice signal in the DB. The recognition module 140 will be described later in detail with reference to FIG.

그리고, 디스플레이 모듈(180)은, 상기 인식된 음성 신호에 대응하는 오디오 데이터가 상기 DB에 존재하지 않는 경우, 웹 페이지 검색 결과를 디스플레이 하도록 설계한다. 물론, 상기 인식된 음성 신호에 대응하는 오디오 데이터가 상기 DB에 존재하는 경우에는, 대응하는 멀티미디어 데이터 중 그래픽 데이터는 디스플레이 모듈(180)을 통해 출력하고 상기 대응하는 멀티미디어 데이터 중 오디오 데이터는 스피커(170)를 통해 출력하도록 컨트롤러(160)를 설계한다.The display module 180 is designed to display a web page search result when audio data corresponding to the recognized voice signal is not present in the DB. Of course, if the audio data corresponding to the recognized voice signal exists in the DB, the graphic data of the corresponding multimedia data is outputted through the display module 180, and the audio data of the corresponding multimedia data is output to the speaker 170 The controller 160 designates the controller 160 to output the control signal.

종래 기술에 의하면, 유저의 음성을 인식할 수 없거나 관련된 응답 데이터가 메모리에 저장되어 있지 않은 경우, 아무러 결과물을 출력하지 않거나 단순히 에러 메시지를 디스플레이 한다. 반면, 전술한 본 발명의 일실시예에 의하면, 인식된 키워드가 입력된 웹페이지 화면을 유저가 신속하게 액세스할 수 있도록 설계하는 장점이 있다.According to the prior art, if the user's voice can not be recognized or the associated response data is not stored in the memory, no output is output or simply an error message is displayed. On the other hand, according to the embodiment of the present invention described above, there is an advantage that a user can quickly access a web page screen in which a recognized keyword is input.

도 2는 도 1에 도시된 인식 모듈을 보다 상세히 설계한 도면이다. 이하, 도 2를 참조하여 본 발명의 일실시예에 의한 멀티미디어 디바이스가 유저의 음성 신호를 인식하는 프로세스를 설명하도록 하겠다. 다만, 도 2는 일실시예이며, 다른 프로세스로 음성 인식이 이루어 지도록 설계할 수도 있다.FIG. 2 is a detailed view of the recognition module shown in FIG. 1; FIG. Hereinafter, a process of recognizing a user's voice signal by a multimedia device according to an embodiment of the present invention will be described with reference to FIG. However, FIG. 2 is an embodiment, and may be designed so that voice recognition is performed by another process.

음성인식 기술은 일반적으로 패턴 매칭 기법을 기반으로 한다. 즉, 인식 대상 단어 또는 음소의 특징 파라미터를 미리 컴퓨터의 메모리에 저장해 놓고, 화자의 음성이 입력되면 이를 분석하여 특징을 추출한 후 미리 저장되어 있는 단어 또는 음소의 특징들과 유사도를 측정하여 가장 유사한 것을 인식 결과로 출력한다.Speech recognition techniques are generally based on pattern matching techniques. That is, characteristic parameters of a recognition target word or a phoneme are previously stored in a memory of a computer, and when a speaker's voice is input, the characteristic is extracted and analyzed, and the similarity with the characteristics of the previously stored word or phoneme is measured, And outputs it as a recognition result.

또한, 인식 알고리즘의 대표적인 예로 동적적합법(Dynamic Time Warping, DTW), 은닉마코프모델(Hidden Markov Model, HMM), 신경망(Neural Network) 등이 있으며, 대략적인 방법을 설명하면 다음과 같다.In addition, typical examples of recognition algorithms include Dynamic Time Warping (DTW), Hidden Markov Model (HMM), Neural Network, and the like.

동적적합법(Dynamic time warping:DTW)은, 대표 패턴과 주어진 input 패턴을 비교하여 유사성을 판별하는 방법이다. 같은 단어를 발성할 경우라도 화자, 감정, 주변환경에 따라 각기 다른 지속시간을 가지므로, 이러한 지속길이의 불일치를 비선형적으로 최적화하는 방법으로 부분최적화에 기반을 두어 전체적인 최적화를 수행하는 특성을 갖는다. 방법은 인식 대상 어휘가 작은 고립단어인식에 주로 이용되며, 기준 패턴을 쉽게 만들 수 있기 때문에 음성인식 시스템의 업무내용을 용이하게 변경할 수 있는 장점이 있다.Dynamic time warping (DTW) is a method of determining similarity by comparing a representative pattern with a given input pattern. Even if the same word is uttered, it has a different duration depending on the speaker, emotion, and surrounding environment. Therefore, the non-linear optimization of the discrepancy of the continuous length is performed based on the partial optimization and performs the overall optimization . The method is mainly used for small isolated word recognition of recognition target vocabulary, and it is easy to change the task contents of speech recognition system because it can easily create reference pattern.

은닉 마코프모델(Hidden Markov Model:HMM)은, 높은 인식율과 편리한 학습성으로 음성인식에 가장 널리 쓰이는 방법으로써 음성의 시간적 변화를 모델링하는 천이확률과 스펙트럼(spectrum) 변화를 모델링하는 출력확률로 구성된다. 입력패턴과 출력패턴간의 유사도를 이용하기보다는 주어진 모델과의 확률적인 추정값을 사용하여 모델의 유사도를 계산한다. The Hidden Markov Model (HMM) is the most widely used method for speech recognition with high recognition rate and convenient learning performance. It consists of a transition probability modeling the temporal change of speech and an output probability modeling the spectrum change . Rather than using the similarity between the input pattern and the output pattern, the similarity of the model is calculated by using a probabilistic estimate with a given model.

신경망(Neural Network)은, 인간의 뇌가 정보를 암호화하고 해독하는 과정을 공학적인 측면에서 모델링한 신경회로망을 이용하는 방법이다. 단순 퍼리 기능을 가진 인공뉴런들이 상호 밀도있게 연결되어 있으며, 이들간의 연결에 따라 다양한 기능을 수행하게 된다. 병렬계산능력,내고장성,적음 및 학습능력을 가지고 있다.Neural Network is a method of using a neural network modeling the process of encrypting and decrypting information in the human brain. Artificial neurons with a simple parietal function are interconnected densely and perform various functions according to the connection between them. Parallel computation ability, fault tolerance, low number and learning ability.

한편, 종래의 음성 처리 장치는 입력된 음성을 미리 설정된 어휘와 문법에 기반하여 인식하여 그 인식된 결과에 반응한다. 따라서, 종래 기술에 의할 경우, 문법상 하자 없는 음성에 대해서만 정확한 인식이 가능한 한계가 있었다.On the other hand, the conventional speech processing apparatus recognizes the input speech based on a preset vocabulary and grammar, and responds to the recognized result. Therefore, according to the prior art, there is a limitation in that it is possible to accurately recognize only the voice without a word in the grammar.

이와 같은 문제점을 해결하기 위한 일방안을 도 2를 참조하여 설명하겠다. 다만, 다른 실시예로 음성 인식을 구현하는 것도 본 발명의 권리범위에 속하며, 특허청구범위에 기재된 사항에 따라 권리범위가 해석되어야 한다.A method for solving such a problem will be described with reference to FIG. However, implementation of speech recognition in another embodiment is also within the scope of the present invention, and the scope of the right should be interpreted according to the matters described in the claims.

우선, 개체 추출부(241)는 입력된 음성으로부터 하나 이상의 개체 정보 및 그 개체 정보에 해당하는 상위개체명을 추출한다. 예를 들어, 음성신호는 "오늘 김태희가 나오는 드라마?" 라고 가정하도록 하겠다.First, the entity extracting unit 241 extracts at least one entity information and an upper entity name corresponding to the entity information from the input voice. For example, the voice signal is "the drama that Kim Tae-hee comes out of today?" .

개체정보는 입력된 음성의 내용을 이루는 세분화된 정보를 의미한다. 결국, 음성은 하나 이상의 개체정보로 이루어질 수 있다. 예컨대, "오늘", "김태희", "가", "나오는", "드라마"로 분할될 수 있으며 각각이 개체정보이다.The individual information means the sub-information constituting the contents of the inputted voice. Eventually, the speech may consist of one or more entity information. For example, it can be divided into "today", "Kim Tae-hee", "go", "come out", "drama"

결국, 음성을 이루는 각 문장속의 모든 개체 정보들은 서로 의미적으로 연결되어 있으나, 정상인이 이해 불가한 음성이 입력된다면, 개체정보들은 의미적으로 연결되어 있지 않다.Finally, all entity information in each sentence constituting the voice is semantically connected to each other, but if the voice is input which is not understood by the normal person, the entity information is not semantically connected.

한편, 개체명은 현실 속의 모든 지칭 가능한 사물(thing)의 카테고리를 의미한다. 이러한 개체명은 트리구조와 같이 계층적으로 구성된다. 이와 같은 계층적 의미 체계를 이하 "온톨로지" 라 명명할 수도 있다.On the other hand, an entity name means a category of all identifiable things in reality. These object names are organized hierarchically as the tree structure. This hierarchical semantic system can be called "ontology".

예를 들어, 지칭 가능한 사물 중 하나인 "오늘"의 개체명은 시각일 수도 있고, 날짜 일 수도 있고, 방송 날짜일 수도 있다. 즉, "오늘"이 속한 카테고리는 "시각", "날짜", 또는 "방송 날짜" 이다. 이 경우, "시각"은 "날짜" 또는 "방송날짜" 보다 상위개념이며, "날짜" 는 "방송 날짜" 보다 상위 개념이다.For example, one of the assignable objects, "today ", may be a visual name, a date, or a broadcast date. That is, the category to which "today" belongs is "time "," date " In this case, "time" is a higher concept than "date" or "broadcast date ", and" date "

이와 같이, 복수의 개체명들간에는 소정의 계층적 상하관계가 성립한다. 따라서, "시각"은 "날짜" 보다 상위개체명이며, "날짜"는 "방송날짜" 보다 상위개체명이다. As described above, a predetermined hierarchical relationship is established between a plurality of entity names. Thus, "time" is a higher entity name than "date ", and" date "is a higher entity name than" broadcast date ".

결국, 전술한 예시에서 개체 추출부(241)는 "오늘, 김태희, 드라마" 라는 개체정보를 추출할 수 있고, 그에 해당하는 상위개체명으로 "날짜, 주연배우, 방송 장르, 방송 프로그램먕" 등을 추출할 수가 있다. 메모리(230)는 복수의 개체정보 및 개체명을 데이터베이스화하여 저장하고 있으며, 정기적으로 업데이트 되도록 설계한다.As a result, in the above-described example, the entity extracting unit 241 can extract entity information called "Today, Kim Tae-hee, Drama ", and the " date, star actor, broadcast genre, Can be extracted. The memory 230 stores a plurality of pieces of entity information and entity names in a database, and is designed to be updated periodically.

개체 추출부(241)는 입력된 음성 신호의 내용 중 메모리(230)에 저장된 개체정보와 일치하는 부분을 감지하고, 그 감지된 개체 정보를 메모리(230)에서 추출한다.The entity extracting unit 241 detects a portion of the input voice signal that matches the entity information stored in the memory 230 and extracts the detected entity information from the memory 230.

또한, 개체 추출부(241)는 추출된 개체정보에 해당하는 상위개체명을 메모리(230)에서 추출한다. 전술한 예시에서, "오늘" 이라는 개체정보를 독출한 경우, 개체 추출부(241)는 "날짜" 라는 상위 개체명을 독출한다.In addition, the entity extracting unit 241 extracts an upper entity name corresponding to the extracted entity information from the memory 230. In the example described above, when the entity information "today" is read, the entity extracting unit 241 reads the name of the parent entity "date".

한편, 메모리(230)에는 복수의 상위개체명 뿐만 아니라 각각의 상위개체명에 속하는 복수의 하위개체명도 미리 저장하고 있다.On the other hand, in the memory 230, not only a plurality of parent entity names but also a plurality of child object names belonging to respective parent entity names are stored in advance.

초점 결정부(242)는 추출된 개체정보들 중 반응을 요구하는 내용을 갖는 개체정보들을 이용하여, 초점을 결정한다. 전술한 예시에서, 개체 추출부(241)는 "오늘 김태희가 나오는 드라마" 음성 신호에서 명사 부분에 초점을 맞추어, "오늘", "김태희", "드라마" 부분의 개체명에 독출한다.The focus determining unit 242 determines the focus using the individual information having the content requiring the response among the extracted individual information. In the above-described example, the object extracting unit 241 reads out the object names of the "today", "Kim Tae-hee", and "drama" parts by focusing on the noun portion in the "

매핑부(243)는 상기 초점 결정부(242)에서 독출된 3개의 단어를 조합하여 검증부(244)에 전달하고, 상기 검증부(244)는 메모리(230)에 액세스 하여 방송 신호의 EPG 정보에서 대응하는 값들만을 불러 들인다.The mapping unit 243 combines the three words read by the focus determination unit 242 and transmits the combination of the three words to the verification unit 244. The verification unit 244 accesses the memory 230 to obtain EPG information Lt; / RTI >

즉, 김태희 라는 배우명을 가지는 드라마 중에서 오늘 방영되는 방송 프로그램들에 대한 정보를 읽어 들인다. 따라서, 인식부(245)는 예를 들어, 금일 방송 예정인 프로그램들 중에서, 김태희가 출연하는 드라마 중 특정 드라마에 대한 정보만을 인식하도록 설계된다.In other words, it reads the information about the broadcasting programs broadcasted today in the drama having the actor name Kim Tae-hee. Therefore, the recognition unit 245 is designed to recognize only the information on the specific drama among the drama appearing by Kim Tae-hee, among the programs scheduled to be broadcast today, for example.

도 3은 본 발명의 일실시예에 따라 추출된 텍스트 데이터 및 오디오 데이터를 예시한 도면이다. 이하, 도 3을 참조하여, 본 발명의 일실시예에 따라 추출된 텍스트 데이터 및 오디오 데이터를 이용하는 프로세스를 설명하도록 하겠다.3 is a diagram illustrating text data and audio data extracted according to an embodiment of the present invention. Hereinafter, a process using text data and audio data extracted according to an embodiment of the present invention will be described with reference to FIG.

최근 데이터 방송에 의하면, 드라마, 뉴스, 연예 프로그램에서 제공하는 오디오 데이터에 대응하는 텍스트 데이터를 함께 제공한다. 따라서, 오디오 데이터 및 텍스트 데이터를 맵핑하여 추출 및 저장하는 것이 가능하다.According to recent data broadcasting, text data corresponding to audio data provided by drama, news, and entertainment programs are provided together. Therefore, it is possible to map and extract and store audio data and text data.

예를 들어, 도 3에 도시된 바와 같이, 연예 뉴스라는 방송 프로그램의 대본이 방송 신호를 통해 제공된다면, 김태희 라는 배우가 답변한 내용을 텍스트 및 오디오 데이터로 함께 저장한다. 특히, 각각의 답변 이전의 텍스트 데이터가 물음표로 종결되는 경우에 한해 데이터베이스로 구축함으로써, 추후 유저가 질문한 사항에 대해 답변하는 형식의 서비스를 제공하도록 유도하는 것이 가능하다.For example, as shown in FIG. 3, if a scenario of a broadcast program called Entertainment News is provided through a broadcast signal, texts and audio data are stored together with the contents of an answer by an actor Kim Tae-hee. In particular, it is possible to construct a database in which only the text data before each answer is terminated with a question mark, thereby guiding the user to provide a service of a type in which the user answers questions afterwards.

전술한 도 1 및 도 2에서 설명한 바와 같이, 유저에 의해 인식된 음성 신호가 도 3에 도시된 리포터의 질문(예를 들어, 요즘 어때요? 또는 올해 나이는? 등)과 동일하거나 적어도 하나 이상의 키워드가 매칭하는 경우, 김태희 라는 배우가 답변한 각각의 내용을 특정 배우의 음성으로 출력하는 것이 가능하다.As described above with reference to FIG. 1 and FIG. 2, when the voice signal recognized by the user is the same as the question of the reporter shown in FIG. 3 (for example, how are they nowadays? , It is possible to output the contents of each of the actors Kim Tae-hee responded to by a specific actor's voice.

즉, 이와 같이 설계하는 경우, 종래 기술과 같이 고정된(fixed) 한 사람의 음성 만으로 음성 서비스가 이루어 지지 않고, 유저가 원하는 유명인 상대방의 음성으로 오디오 서비스가 제공되는 장점이 있다. 따라서, 마치 가상의 현실 속에서 대화를 하는 듯한 인터랙티브 서비스가 가능한 효과가 있다.That is, in the case of such a design, there is an advantage that a voice service is not performed only by a fixed voice of a person, as in the prior art, and an audio service is provided by the voice of a desired person's favorite party. Therefore, it is possible to provide an interactive service as if the conversation is in a virtual reality.

도 4는 본 발명의 일실시예에 따라, 추출된 텍스트 데이터에 대응하는 가상의 질의값을 맵핑하여 저장하고 있는 화자별 데이터베이스를 도시한 도면이다. 이하, 도 4를 참조하여, 본 발명의 일실시예에 의한 인터랙티브(interactive) 음성 서비스를 제공하기 위한 데이터베이스를 화자별로 구축하는 프로세스를 설명하도록 하겠다.FIG. 4 is a diagram illustrating a database for each speaker that maps and stores virtual query values corresponding to extracted text data according to an embodiment of the present invention. Referring to FIG. Hereinafter, with reference to FIG. 4, a description will be made of a process of establishing a database for each speaker to provide an interactive voice service according to an embodiment of the present invention.

전술한 도 1 내지 도 3에서 설명한 바와 같이, 방송 신호를 통해 오디오 데이터에 대응하는 텍스트 데이터 및 화자가 맵핑되어 있는 것으로 가정하겠다.As described above with reference to FIGS. 1 to 3, it is assumed that text data corresponding to audio data and a speaker are mapped through a broadcast signal.

우선, 제1유명인의 데이터베이스(410)는 방송 신호에 포함된 텍스트 데이터를 이용하여, 나이 및 주거지에 대한 정보를 가상의 질의값과 함께 맵핑하여 저장하도록 설계한다.First, the database 410 of the first celebrity designates the information about the age and the residence with the virtual query value and stores it by using the text data included in the broadcast signal.

나아가, 제2유명인의 데이터베이스(420) 역시 방송 신호에 포함된 텍스트 데이터를 이용하여, 올해 목표 및 주거지에 대한 정보를 가상의 질의값과 함께 맵핑하여 저장하도록 설계한다.Furthermore, the database 420 of the second celebrity is designed to map and store the information on the target and settlement locations together with the virtual query value using the text data included in the broadcast signal.

전술하여 설명한 가상의 질의값을 맵핑하여 저장하는 이유는, 추후 유저로부터 인식된 음성 신호에 포함된 키워드와 가상의 질의값의 맵핑 정도에 따라 해당 답변을 출력할지 여부를 결정하기 위함이다.The reason why the virtual query values described above are mapped and stored is to decide whether or not to output the answers according to the degree of mapping between the keyword included in the voice signal recognized by the user and the virtual query value.

예를 들어, 인식된 키워드와 75% 이상 일치하는 경우에 한하여 해당 답변을 오디오 데이터 등의 형태로 출력하되, 75% 일치율에 미달하는 경우에는 인식된 키워드를 특정 웹사이트의 검색창에 입력된 형태로 디스플레이 한다. 따라서, 유저에게 잘못된 정보를 전달할 확률을 최소화할 수 있는 장점이 있다.For example, if the answer matches only 75% of the recognized keyword, the corresponding answer is output in the form of audio data, etc. If the answer is below the 75% match rate, the recognized keyword is displayed in the form . Therefore, there is an advantage that the probability of transmitting erroneous information to the user can be minimized.

도 5는 본 발명의 다른 일실시에에 따라, 추출된 텍스트 데이터에 대응하는 가상의 질의값을 맵핑하여 저장하고 있는 장르별 데이터베이스를 도시한 도면이다. 이하, 도 5를 참조하여, 본 발명의 일실시예에 의한 인터랙티브(interactive) 음성 서비스를 제공하기 위한 데이터베이스를 장르별로 구축하는 프로세스를 설명하도록 하겠다.FIG. 5 is a diagram showing a genre-specific database in which virtual query values corresponding to extracted text data are mapped and stored according to another embodiment of the present invention. Hereinafter, a process for constructing a database for providing an interactive voice service according to a genre will be described with reference to FIG.

전술한 도 1 내지 도 3에서 설명한 바와 같이, 방송 신호를 통해 오디오 데이터에 대응하는 텍스트 데이터 및 장르(genre) 정보가 맵핑되어 있는 것으로 가정하겠다.As described with reference to FIGS. 1 to 3, it is assumed that text data and genre information corresponding to audio data are mapped through a broadcast signal.

우선, 제1장르의 데이터베이스(510)는 방송 신호에 포함된 텍스트 데이터를 이용하여, 야구 결과 및 NBA 소식에 대한 정보를 가상의 질의값과 함께 맵핑하여 저장하도록 설계한다.First, the database 510 of the first genre is designed to use the text data included in the broadcast signal to map and store information about the baseball result and the NBA news together with the virtual query value.

나아가, 제2장르의 데이터베이스(520) 역시 방송 신호에 포함된 텍스트 데이터를 이용하여, 시청률 및 특정 드라마의 주연배우 정보를 가상의 질의값과 함께 맵핑하여 저장하도록 설계한다.Further, the database 520 of the second genre is also designed to store the audience rating and the main actor information of the specific drama together with the virtual query value using the text data included in the broadcast signal.

전술하여 설명한 가상의 질의값을 맵핑하여 저장하는 이유는, 추후 유저로부터 인식된 음성 신호에 포함된 키워드와 가상의 질의값의 맵핑 정도에 따라 해당 답변을 출력할지 여부를 결정하기 위함이다.The reason why the virtual query values described above are mapped and stored is to decide whether or not to output the answers according to the degree of mapping between the keyword included in the voice signal recognized by the user and the virtual query value.

이와 같이, 인식된 유저의 음성 신호에 대응하는 오디오 및 텍스트 데이터를 모든 데이터베이스에서 검색하도록 설계하지 않고, 인식된 음성 신호에 포함된 장르 정보에 기초하여 해당 장르 데이터베이스를 우선적으로 써치하도록 설계함으로써 데이터 처리 속도를 제고할 수 있는 장점이 있다.In this manner, the audio and text data corresponding to the recognized user's voice signal are not designed to be searched in all the databases, but the genre database is searched for preferentially based on the genre information included in the recognized voice signal, There is an advantage that speed can be improved.

도 6은 본 발명의 또 다른 일실시예에 따라, 추출된 텍스트 데이터에 대응하는 가상의 질의값을 맵핑하여 저장하고 있는 선호채널별 데이터베이스를 도시한 도면이다.FIG. 6 is a diagram illustrating a database for each preferred channel in which virtual query values corresponding to extracted text data are mapped and stored according to another embodiment of the present invention. FIG.

이전 도 4 및 도 5에서는 유저의 특별한 액션 없이 자동으로 데이터베이스가 구축되는 경우를 상정하였다. 다만, 이하 후술할 도 6에서는 유저의 니즈를 보다 명확히 반영하는 실시예를 설명하도록 하겠다.In FIGS. 4 and 5, it is assumed that the database is automatically constructed without any special action of the user. However, an embodiment that more clearly reflects the needs of the user will be described with reference to Fig. 6, which will be described below.

로그인 정보를 처리할 수 있는 멀티미디어 디바이스의 경우, 동일한 멀티미디어 디바이스를 사용하는 각 유저별로 선호 채널을 설정할 수가 있다. 예를 들어, A 유저는 채널 1, 2, 3을 선호채널로 설정하여 장기간 시청하며, B 유저는 채널 5, 6, 7을 선호채널로 설정하여 상대적으로 많은 시간 시청할 가능성이 높다.In the case of a multimedia device capable of processing login information, a preferred channel can be set for each user using the same multimedia device. For example, the user A is likely to view channels 1, 2, and 3 for a long period of time while setting channels 1, 2, and 3 as a preferred channel, and the user B may watch channels 5, 6, and 7 for a relatively long time by setting them as preferred channels.

따라서, 인식된 유저의 음성 신호에 대응하는 답변을 모든 데이터베이스에서 검색하는 것 보다, 로그인한 유저의 선호 채널 DB 부터 우선적으로 써치하도록 설계함이 바람직하다.Therefore, it is preferable that the search is preferentially performed from the preference channel DB of the logged-in user, rather than searching all databases for answers corresponding to recognized voice signals of the user.

또한, 도 6에 도시된 선호 채널 DB(610)는 다수의 채널로부터 수신하는 방송 신호 중에서 특히, 특정 유저가 설정한 선호 채널로부터 수신하는 방송 신호로 수집한 텍스트 데이터 및 오디오 데이터만을 제한적으로 포함하고 있다. 반면, 기타 DB(620)는 선호 채널 이외의 채널로부터 수신한 방송 신호에 포함된 텍스트 데이터 및 오디오 데이터를 저장하고 있다.The preference channel DB 610 shown in FIG. 6 restricts only the text data and the audio data collected by the broadcast signal received from the preference channel set by the specific user among the broadcast signals received from the plurality of channels have. On the other hand, the other DB 620 stores text data and audio data included in a broadcast signal received from a channel other than the preferred channel.

예를 들어, 12번의 스포츠 채널을 선호 채널로 등록한 유저는 스포츠 관련 오디오 서비스를 제공받고저 할 가능성이 상대적으로 높다. 따라서, 다른 데이터베이스에 대한 검색에 앞서, 유저에 인식된 음성 신호(예를 들어, 오늘 A 축구 게임 중계 시각은?, B 야구 선수의 기록은? 등)에 대응하는 텍스트/오디오 데이터를 12번 선호 채널 DB 에서 우선적으로 검색하도록 설계한다.For example, a user who registers 12 sports channels as a preferred channel is more likely to receive and receive sports-related audio services. Therefore, prior to the search for another database, the text / audio data corresponding to the voice signal recognized by the user (for example, the current A football game relay time?, The record of the B baseball player? It is designed to search preferentially in the channel DB.

도 7은 본 발명의 일실시예에 의한 멀티미디어 디바이스를 이용하여 유저의 음성 신호를 입력하는 과정을 도시한 도면이다. 이하, 도 7을 참조하여, 특정 채널의 방송을 시청하던 유저가 본 발명이 적용된 서비스를 구현하는 과정을 설명하도록 하겠다.7 is a diagram illustrating a process of inputting a user's voice signal using a multimedia device according to an embodiment of the present invention. Hereinafter, with reference to FIG. 7, a process of implementing a service to which the present invention is applied by a user watching a broadcast of a specific channel will be described.

우선, 도 7에 도시된 본 발명의 일실시예에 의한 멀티미디어 디바이스(700)는 도 1 및 도 2에 도시된 블록도를 참조하여 반복 실시 가능하다. 물론, 당업자의 필요에 따라 다른 음성 인식 기술을 적용하는 경우도 본 발명의 권리범위에 속한다.First, the multimedia device 700 according to an embodiment of the present invention shown in FIG. 7 can be repeated with reference to the block diagrams shown in FIG. 1 and FIG. Of course, it is also within the scope of the present invention to apply other speech recognition technologies according to the needs of those skilled in the art.

또한, 상기 멀티미디어 디바이스(700)는 예를 들어, 네트워크 TV, DTV, 스마트 TV, 웹 TV, 인터넷 TV, HBBTV 등으로 구현할 수도 있다.Also, the multimedia device 700 may be implemented as a network TV, a DTV, a smart TV, a web TV, an Internet TV, HBBTV, or the like.

상기 멀티미디어 디바이스(700)를 이용하여 임의의 방송 채널 화면(702)을 시청하던 유저(701)는 현재 시청 중인 방송 화면(702)과 관계 없는 음성 신호(예를 들어, 요즘 김태희는?)를 생성한다.The user 701 watching an arbitrary broadcast channel screen 702 using the multimedia device 700 generates a voice signal irrelevant to the currently viewed broadcast screen 702 (for example, what is Kim Tae-hee?) do.

본 발명의 일실시예에 의한 멀티미디어 디바이스(700)가 음성 신호를 분석하여 인식하는 방법에 대해서는, 이전 도 1 및 도 2에서 충분히 설명한 바, 반복 설명은 생략하도록 하겠다.A method of analyzing and recognizing a voice signal by the multimedia device 700 according to an embodiment of the present invention has been fully described with reference to FIGS. 1 and 2, and a repeated description thereof will be omitted.

나아가, 멀티미디어 디바이스(700)는 적어도 하나 이상의 데이터베이스를 검색하여, 유저(701)에 의해 생성된 음성 신호에 대응하는 텍스트 데이터 및 오디오 데이터를 확정한다. 또한, 상기 데이터베이스에 대해서는, 이전 도 3 내지 도 6에서 충분히 설명한 바 있다.Further, the multimedia device 700 searches at least one database to determine text data and audio data corresponding to the voice signal generated by the user 701. [ In addition, the database has been fully described in Figs. 3 to 6 above.

다만, 상기 멀티미디어 디바이스(700)가 음성 신호에 대응하는 해당 텍스트 데이터 및 오디오 데이터를 찾은 경우의 실시예(도 8)와 그렇지 아니한 경우의 실시예(도 9)를 나누어 설명하도록 하겠다.However, an embodiment (FIG. 8) in which the multimedia device 700 finds corresponding text data and audio data corresponding to a voice signal and an embodiment (FIG. 9) in which the multimedia data 700 is not found will be described separately.

도 8은 도 7에서 입력된 유저의 음성 신호에 대응하는 멀티미디어 데이터가 DB 에 저장된 경우의 처리 프로세스를 도시한 도면이다. 이하, 도 8을 참조하여, 검색된 텍스트 데이터 및 오디오 데이터를 출력하는 프로세스를 상세히 설명하도록 하겠다.FIG. 8 is a diagram showing a processing process when multimedia data corresponding to a voice signal of a user input in FIG. 7 is stored in a DB. Hereinafter, the process of outputting the retrieved text data and audio data will be described in detail with reference to FIG.

우선, 도 7과 대비하여 도 8에 도시된 멀티미디어 디바이스(800)는 이전 방송 화면(702) 대신 유저(801)의 음성 신호에 대응하는 그래픽 이미지 데이터(802)를 디스플레이 한다. 예를 들어, 인식된 음성 신호의 키워드에 포함된 영화배우의 캡쳐 화면 또는 동영상 등이 될 수가 있다.7, the multimedia device 800 shown in FIG. 8 displays the graphic image data 802 corresponding to the voice signal of the user 801 instead of the previous broadcast screen 702. In FIG. For example, it may be a movie screen shot or a moving picture included in a keyword of a recognized voice signal.

물론, 도 8에서는 도 7과 대비하여 전체 화면이 완전히 다른 그래픽으로 변경되는 경우의 실시예를 도시하였으나, 기존 방송 화면(702)과 그래픽 이미지 데이터(802)를 PIP 형태로 동시에 출력하는 것도 본 발명의 권리범위에 속한하고 할 것이다.In FIG. 8, the entire screen is changed to a completely different graphic as compared with FIG. 7. However, it is also possible to simultaneously output the existing broadcasting screen 702 and the graphic image data 802 in a PIP format And will do so.

또한, 본 발명의 다른 일실시예에 의한 멀티미디어 디바이스(800)는, 적어도 하나 이상의 스피커(804a, 804b)를 통해 인식된 유저(801)의 음성신호에 대응하는 오디오 데이터를 출력한다. 도 3 내지 도 6에서 전술한 바와 같이, 상기 오디오 데이터는 텍스트 데이터와 함께 데이터베이스에 저장되어 있다.In addition, the multimedia device 800 according to another embodiment of the present invention outputs audio data corresponding to a voice signal of the user 801 recognized through at least one speaker 804a and 804b. As described above with reference to Figs. 3 to 6, the audio data is stored in the database together with the text data.

나아가, 본 발명의 또 다른 일실시예에 의한 멀티미디어 디바이스(800)는, 오디오 데이터에 대응하는 텍스트 데이터를 화면의 일측면(803)에 함께 디스플레이 함으로써, 오디오 데이터를 들을 수 없는 환경에서도 인터랙티브 서비스가 가능한 장점이 있다.In addition, the multimedia device 800 according to another embodiment of the present invention displays text data corresponding to audio data on one side 803 of the screen, so that even in an environment where audio data can not be heard, There are advantages.

도 9는 도 7에서 입력된 유저의 음성 신호에 대응하는 멀티미디어 데이터가 DB 에 저장되어 있지 않은 경우의 처리 프로세스를 도시한 도면이다. 이하, 도 9를 참조하여, 검색된 텍스트 데이터 및 오디오 데이터를 출력할 수 없는 경우의 솔루션을 설명하도록 하겠다.9 is a diagram showing a processing process in the case where the multimedia data corresponding to the voice signal of the user input in FIG. 7 is not stored in the DB. Hereinafter, with reference to FIG. 9, a solution when the retrieved text data and audio data can not be output will be described.

종래 음성 인식 서비스의 가장 큰 문제점은 음성 인식에 에러가 발생하거나 대응하는 답변이 데이터베이스에 존재하지 않는 경우, 아무러 반응이 없거나 단순히 에러 메시지를 디스플레이 한다는 점이었다.The biggest problem of the conventional speech recognition service is that when there is an error in speech recognition or a corresponding answer does not exist in the database, there is no response or simply an error message is displayed.

반면, 도 9에 도시된 바와 같이, 본 발명의 일실시예에 의한 멀티미디어 디바이스(900)는 인식된 음성 신호에 대응하는 답변이 데이터베이스에 저장되어 있지 않은 경우, 자동으로 특정 웹사이트 접속 화면(901)을 출력한다. 즉, 상기 멀티미디어 디바이스(900)는 도 1에 도시된 바와 같이 예를 들어 네트워크 인터페이스를 통해 IP 네트워크로 연결되어 있는 것으로 가정한다.9, the multimedia device 900 according to an exemplary embodiment of the present invention automatically displays a specific website connection screen 901 (FIG. 9) when a response corresponding to the recognized speech signal is not stored in the database ). That is, it is assumed that the multimedia device 900 is connected to an IP network through a network interface, for example, as shown in FIG.

또한, 상기 멀티미디어 디바이스(900)는 검색 입력창(902)에 자동으로 인식된 키워드 중 특정 키워드(예를 들어, 김태희)만 입력되도록 설계한다. 물론, 도 7에서 유저가 생성한 음성 신호 전문(ex : 요즘 김태희는?)을 그대로 입력창(902)에 입력하도록 설계하는 것도 본 발명의 권리범위에 속한다.In addition, the multimedia device 900 is designed to input only specific keywords (e.g., Kim Tae-hee) among the automatically recognized keywords in the search input window 902. Of course, it is also within the scope of the present invention to design the voice signal specialist (ex: now Kim Tae-hee?) Input by the user in the input window 902 as it is in Fig.

따라서, 유저는 멀티미디어 디바이스(900)의 데이터베이스가 구축되지 않은 상황에서도 관련 정보를 신속하게 제공받을 수 있고, 나아가 본 발명의 다른 일실시예에 의하면 웹사이트에서 제공하는 오디오 데이터를 데이터베이스에 직접 저장하도록 설계할 수도 있다.Accordingly, the user can be quickly provided with relevant information even when the database of the multimedia device 900 is not established. Further, according to another embodiment of the present invention, the user can directly store the audio data provided by the website in the database It can also be designed.

그리고, 도 10은 본 발명의 일실시예에 의한 음성 인식 결과에 따라 데이터베이스에 액세스하는 멀티미디어 디바이스를 제어하는 방법을 도시한 플로우 차트이다. 도 10은 이전 도 1 내지 도 9에 대한 설명을 참조하여 보충 해석할 수도 있다.10 is a flowchart illustrating a method of controlling a multimedia device accessing a database according to a speech recognition result according to an embodiment of the present invention. Fig. 10 may be supplementary interpreted with reference to the description of Figs. 1 to 9 above.

본 발명의 일실시예에 의한 음성 인식 결과에 따라 데이터베이스에 액세스하는 멀티미디어 디바이스의 제어 방법은, 적어도 하나 이상의 채널을 스캔하는 단계(S1010)와 텍스트 데이터 및 오디오 데이터를 추출하는 단계(S1020)를 포함하도록 설계한다.A method of controlling a multimedia device accessing a database according to a speech recognition result according to an embodiment of the present invention includes scanning at least one channel (S1010) and extracting text data and audio data (S1020) .

나아가, 상기 추출된 텍스트 데이터 및 음성 데이터를 기설정된 기준에 따라, 데이터베이스(DB)에 저장하고(S1030), 상기 멀티미디어 디바이스의 유저로부터 음성 신호를 인식한다(S1040).Further, the extracted text data and voice data are stored in a database (DB) according to a preset reference (S1030), and a voice signal is recognized from the user of the multimedia device (S1040).

그리고, 상기 인식된 음성 신호에 대응하는 오디오 데이터를, 상기 DB내에서 검색하고(S1050), 상기 인식된 음성 신호에 대응하는 오디오 데이터가 상기 DB에 존재하지 않는 경우, 웹 페이지 검색 결과를 디스플레이 한다(S1060).Then, the audio data corresponding to the recognized voice signal is searched in the DB (S1050), and if the audio data corresponding to the recognized voice signal is not present in the DB, the web page search result is displayed (S1060).

상기 데이터베이스(DB)는, 예를 들어 상기 추출된 텍스트 데이터에 대응하는 가상의 질의값을 맵핑하여 저장하고 있도록 설계한다. 이전 도 3 내지 도 6을 참조하여 해석 가능하다.The database (DB) is designed to map and store virtual query values corresponding to the extracted text data, for example. Can be interpreted with reference to Figures 3 to 6 above.

상기 데이터베이스(DB)가 오디오 데이터의 화자별로 구축되어 있는 경우, 상기 S1050 단계는, 상기 인식된 음성 신호에 포함된 인물 키워드가 상기 DB의 특정 화자에 대응하는지 여부를 판단하는 단계 및 상기 DB에 저장된 특정 화자의 오디오 데이터를 스피커를 통해 출력하는 단계를 더 포함한다.If the database DB is constructed for each speaker of the audio data, the step S1050 may include the steps of: determining whether a person keyword included in the recognized speech signal corresponds to a specific speaker of the DB; And outputting audio data of a specific speaker through a speaker.

상기 데이터베이스(DB)가 오디오 데이터의 장르별로 구축되어 있는 경우, 상기 S1050 단계는, 상기 인식된 음성 신호에 포함된 장르 키워드를 추출하는 단계 및 상기 추출된 장르 키워드에 대응하는 특정 데이터베이스를 제한적으로 검색하는 단계를 더 포함한다.If the database (DB) is constructed for each genre of audio data, the step S1050 may include extracting a genre keyword included in the recognized voice signal, and searching for a specific database corresponding to the extracted genre keyword in a limited manner .

상기 유저가 로그인 한 경우, 상기 S1050 단계는, 상기 유저가 기설정한 선호 채널의 데이터베이스를 최우선으로 검색하는 단계 및 상기 인식된 음성 신호에 대응하는 오디오 데이터기 존재하지 않는 경우, 상기 선호 채널의 데이터베이스가 아닌 나머지 데이터베이스를 차순위로 검색하는 단계를 더 포함한다.If the user has logged in, the step S1050 is to search the database of the preferred channel previously set by the user with the highest priority, and if there is no audio data corresponding to the recognized voice signal, And retrieving the remaining databases in descending order.

따라서, 본 발명의 일실시예에 의하면 실감형 인터랙션 서비스(Interaction service)를 제공한다. 예를 들어, 실제 방송상의 화자가 이야기하는 육성을 그대로 들려줌으로써 마치 그 사람과 대화하는 듯한 효과를 준다.Therefore, according to an embodiment of the present invention, a realistic interaction service is provided. For example, by letting the speaker of the actual broadcast speak the story of the story, it gives the effect of talking to the person.

나아가, 본 발명의 다른 일실시예에 의하면, 자동으로 음성 서비스를 위한 데이터베이스를 업데이트 한다. 따라서, 기존 틀에 박힌 정형화된 답변을 회피할 수 있는 장점이 있다.Furthermore, according to another embodiment of the present invention, a database for voice service is automatically updated. Therefore, there is an advantage in that it is possible to avoid stereotypical responses stuck in existing frameworks.

당해 명세서에서는 도 1 내지 도 10을 설명의 편의상 각각 설명하고 있으나, 각 도면의 특징 중 일부를 결합하여 다른 실시예를 구현하는 것도 본 발명의 권리범위에 속함은 자명하다.1 to 10 are described for convenience of explanation, it is obvious that the present invention incorporates some of the features of the drawings to implement other embodiments.

그리고, 당해 명세서에서는 물건 발명과 방법 발명이 모두 설명되고 있으며, 필요에 따라 양발명의 설명은 보충적으로 적용될 수가 있다.In this specification, both the invention and the invention of the method are explained, and the description of the two inventions can be supplementarily applied as necessary.

본 발명에 따른 방법 발명은 모두 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. The method inventions according to the present invention can all be implemented in the form of program instructions that can be executed through various computer means and recorded on a computer readable medium.

상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다. The computer-readable medium may include program instructions, data files, data structures, and the like, alone or in combination. The program instructions recorded on the medium may be those specially designed and constructed for the present invention or may be available to those skilled in the art of computer software. Examples of computer-readable media include magnetic media such as hard disks, floppy disks and magnetic tape; optical media such as CD-ROMs and DVDs; magnetic media such as floppy disks; Magneto-optical media, and hardware devices specifically configured to store and execute program instructions such as ROM, RAM, flash memory, and the like. Examples of program instructions include machine language code such as those produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter or the like. The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. While the invention has been shown and described with reference to certain preferred embodiments thereof, it will be understood by those of ordinary skill in the art that various changes in form and details may be made therein without departing from the spirit and scope of the invention as defined by the appended claims. This is possible.

그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다. Therefore, the scope of the present invention should not be limited to the described embodiments, but should be determined by the equivalents of the claims, as well as the claims.

110 : 네트워크 인터페이스
120 : 추출 모듈
130 : 메모리
140 : 인식 모듈
150 : 검색 엔진
160 : 컨트롤러
170 : 스피커
180 : 디스플레이 모듈
110: Network interface
120: Extraction module
130: memory
140: recognition module
150: Search engine
160: Controller
170: Speaker
180: Display module

Claims (10)

삭제delete 삭제delete 삭제delete 삭제delete 삭제delete 삭제delete 음성 인식 결과에 따라 데이터베이스에 액세스하는 멀티미디어 디바이스에 있어서,
방송 신호로부터 적어도 하나 이상의 채널을 스캔하여, 텍스트 데이터 및 오디오 데이터를 추출하는 추출 모듈-상기 추출 모듈은 상기 방송 신호의 텍스트 데이터에서 사용 빈도가 높은 키워드를 우선적으로 추출함-;
상기 추출된 텍스트 데이터 및 오디오 데이터를 기설정된 기준에 따라, 데이터베이스(DB)에 저장하는 메모리-상기 기설정된 기준은 상기 방송 신호로부터 스캔된 적어도 하나 이상의 채널의 장르 정보, 그리고 상기 추출된 텍스트 데이터 및 오디오 데이터의 화자 정보를 포함함-;
상기 멀티미디어 디바이스의 유저로부터 음성 신호를 인식하는 인식 모듈;
상기 인식된 음성 신호에 대응하는 오디오 데이터를, 상기 DB내에서 검색하는 검색 엔진; 그리고
상기 인식된 음성 신호에 대응하는 오디오 데이터가 상기 DB에 존재하지 않는 경우, 웹 페이지 검색 결과를 디스플레이하는 디스플레이 모듈을 포함하고,
상기 검색 엔진은,
상기 인식된 음성 신호에 포함된 장르 정보 또는 화자 정보에 기초하여, 상기 인식된 음성 신호에 대응하는 오디오 데이터를 상기 장르 정보 또는 화자 정보에 대응하는 DB에서 우선적으로 검색하는 것을 특징으로 하는 멀티미디어 디바이스.
1. A multimedia device for accessing a database in accordance with speech recognition results,
An extraction module for extracting text data and audio data by scanning at least one channel from a broadcast signal, the extraction module preferentially extracting a keyword having a high frequency of use from text data of the broadcast signal;
A memory for storing the extracted text data and audio data in a database (DB) according to a predetermined criterion, the preset reference being at least one of genre information of at least one channel scanned from the broadcast signal, Comprising speaker information of audio data;
A recognition module for recognizing a voice signal from a user of the multimedia device;
A search engine for searching audio data corresponding to the recognized voice signal in the DB; And
And a display module for displaying a web page search result when audio data corresponding to the recognized voice signal is not present in the DB,
The search engine comprises:
And preferentially searches the DB corresponding to the genre information or the speaker information for audio data corresponding to the recognized voice signal based on genre information or speaker information included in the recognized voice signal.
제7항에 있어서,
상기 데이터베이스(DB)는,
상기 추출된 텍스트 데이터에 대응하는 가상의 질의값을 맵핑하여 저장하고 있는 것을 특징으로 하는 멀티미디어 디바이스.
8. The method of claim 7,
The database (DB)
And maps the virtual query value corresponding to the extracted text data and stores the mapped query value.
제8항에 있어서,
상기 데이터베이스(DB)는,
상기 추출된 텍스트 데이터에 대응하는 멀티미디어 데이터를 추가적으로 맵핑하여 저장하고 있는 것을 특징으로 하는 멀티미디어 디바이스.
9. The method of claim 8,
The database (DB)
And the multimedia data corresponding to the extracted text data is additionally mapped and stored.
제9항에 있어서,
상기 인식된 음성 신호에 대응하는 오디오 데이터를, 스피커를 통해 출력하도록 제어하고, 또한
상기 인식된 음성 신호에 대응하는 멀티미디어 데이터를 출력하도록 상기 디스플레이 모듈을 제어하는 컨트롤러
를 더 포함하는 멀티미디어 디바이스.
10. The method of claim 9,
Controls to output audio data corresponding to the recognized voice signal through a speaker,
A controller for controlling the display module to output the multimedia data corresponding to the recognized voice signal,
Lt; / RTI >
KR1020120019231A 2012-02-24 2012-02-24 Multimedia device for accessing database according to result of voice recognition and method for controlling the same KR101962126B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120019231A KR101962126B1 (en) 2012-02-24 2012-02-24 Multimedia device for accessing database according to result of voice recognition and method for controlling the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120019231A KR101962126B1 (en) 2012-02-24 2012-02-24 Multimedia device for accessing database according to result of voice recognition and method for controlling the same

Publications (2)

Publication Number Publication Date
KR20130097513A KR20130097513A (en) 2013-09-03
KR101962126B1 true KR101962126B1 (en) 2019-03-26

Family

ID=49449863

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120019231A KR101962126B1 (en) 2012-02-24 2012-02-24 Multimedia device for accessing database according to result of voice recognition and method for controlling the same

Country Status (1)

Country Link
KR (1) KR101962126B1 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110399468A (en) * 2018-04-20 2019-11-01 北京搜狗科技发展有限公司 A kind of data processing method, device and the device for data processing
KR20200079741A (en) 2018-12-26 2020-07-06 주식회사 케이티 Device, method and computer program for providing personalized service
US20220293106A1 (en) * 2019-09-24 2022-09-15 Lg Electronics Inc. Artificial intelligence server and operation method thereof
KR102466985B1 (en) * 2020-07-14 2022-11-11 (주)드림어스컴퍼니 Method and Apparatus for Controlling Sound Quality Based on Voice Command
CN113012693B (en) * 2021-02-18 2024-04-30 深圳创维-Rgb电子有限公司 Voice-based local media screening and playing method and device, terminal equipment and medium

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100716147B1 (en) 2006-02-01 2007-05-10 주식회사 팬택 Server, method and system for providing menu navigation service for mobile communication terminal by using voice extensible markup language
KR100766094B1 (en) 2006-09-27 2007-10-12 한국전자통신연구원 Home network system based voice interface and method for controlling thereof

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2345661A1 (en) * 1998-10-02 2000-04-13 International Business Machines Corporation Conversational browser and conversational systems
KR20090059510A (en) * 2007-12-06 2009-06-11 엘지전자 주식회사 Multimedia reproduction apparatus and method for searching dictionary using the same
KR20110038448A (en) * 2009-10-08 2011-04-14 한국전자통신연구원 Translation terminal and server, system and method therefor
KR20110114797A (en) * 2010-04-14 2011-10-20 한국전자통신연구원 Mobile search apparatus using voice and method thereof

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100716147B1 (en) 2006-02-01 2007-05-10 주식회사 팬택 Server, method and system for providing menu navigation service for mobile communication terminal by using voice extensible markup language
KR100766094B1 (en) 2006-09-27 2007-10-12 한국전자통신연구원 Home network system based voice interface and method for controlling thereof

Also Published As

Publication number Publication date
KR20130097513A (en) 2013-09-03

Similar Documents

Publication Publication Date Title
US11423074B2 (en) Systems and methods for determining whether a negation statement applies to a current or past query
US20230328325A1 (en) Methods and systems for recommending content in context of a conversation
US10674208B2 (en) Methods and systems for automatically evaluating an audio description track of a media asset
US11863806B2 (en) Systems and methods for correcting errors in caption text
KR102310980B1 (en) Methods, systems, and media for generating search results based on contextual information
US10225625B2 (en) Caption extraction and analysis
US10672390B2 (en) Systems and methods for improving speech recognition performance by generating combined interpretations
US9202523B2 (en) Method and apparatus for providing information related to broadcast programs
US10523987B2 (en) Systems and methods for generating aggregated media assets on related content from different sources
CN108292314B (en) Information processing apparatus, information processing method, and program
BR112016006860B1 (en) APPARATUS AND METHOD FOR CREATING A SINGLE DATA FLOW OF COMBINED INFORMATION FOR RENDERING ON A CUSTOMER COMPUTING DEVICE
US12019985B2 (en) Language-based content recommendations using closed captions
KR101962126B1 (en) Multimedia device for accessing database according to result of voice recognition and method for controlling the same
CN113035199B (en) Audio processing method, device, equipment and readable storage medium
KR102246893B1 (en) Interactive system, control method thereof, interactive server and control method thereof
WO2011106087A1 (en) Method for processing auxilary information for topic generation
KR20200008341A (en) Media play device and method for controlling screen and server for analyzing screen
KR20170083232A (en) Method for providing knowledge related to digital data broadcast contents on tv
EP3944614B1 (en) Systems and methods for generating aggregated media assets on related content from different sources
KR20140084431A (en) Server and method for providing vocabulary icon for foreign language study service and device for representing video
KR20110007384A (en) System for studying a foreign language to extract video data and method thereof
KR20130089992A (en) Method and apparatus for providing media contents

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant