WO2016175443A1 - 음성 인식을 이용한 정보 검색 방법 및 장치 - Google Patents

음성 인식을 이용한 정보 검색 방법 및 장치 Download PDF

Info

Publication number
WO2016175443A1
WO2016175443A1 PCT/KR2016/002168 KR2016002168W WO2016175443A1 WO 2016175443 A1 WO2016175443 A1 WO 2016175443A1 KR 2016002168 W KR2016002168 W KR 2016002168W WO 2016175443 A1 WO2016175443 A1 WO 2016175443A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice data
input
voice
information
microphone
Prior art date
Application number
PCT/KR2016/002168
Other languages
English (en)
French (fr)
Inventor
박은민
정상우
김기영
Original Assignee
주식회사 아마다스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 아마다스 filed Critical 주식회사 아마다스
Priority to US15/570,587 priority Critical patent/US10403277B2/en
Publication of WO2016175443A1 publication Critical patent/WO2016175443A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/61Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Definitions

  • the present invention relates to an information retrieval method and apparatus, and more particularly, when voice data input through a microphone exists in a user-defined database and is repeatedly input, voice recognition for retrieving information corresponding to the voice data and providing the same to a user.
  • An information retrieval method and apparatus are provided.
  • Smartphones have become very popular smart devices with various functions such as data communication, schedule management, internet search, location-based services, etc., which are compact in size and portable.
  • data input, information retrieval, and various function manipulations for smartphones are somewhat inconvenient due to the small size of the terminal screen.
  • the conventional voice recognition-based service assumes that a user receives a voice consciously intentionally uttered and provides information corresponding thereto immediately when the voice is recognized.
  • the information is output as long as the user unintentionally and unintentionally spit out the word and the speech recognition module is activated when the voice recognition module is activated. According to the search, there is a problem that the information provided may be noise or pollution to the user.
  • the present invention was devised to solve the above problems, and an object of the present invention is to perform information search as soon as the user's voice is recognized, so that information can be prevented from receiving a situation where unwanted information is received. Search and provide a device.
  • Another object of the present invention is to provide an information retrieval and apparatus using voice recognition, which enables a user to perform information retrieval close to the content of interest by the user, whether the user is conscious or unconscious.
  • the information retrieval method using the voice recognition comprises the steps of comparing the input voice data with the voice data stored in the user-defined voice database when the voice data is input through the microphone, and the matching voice data Determining whether repetitive input of voice data is set, if it exists, and if the repetitive input of voice data is set as a result of the determination, checking whether voice data that matches the input voice data exists in an internal memory; Outputting an event and requesting the search server for information corresponding to the voice data, if the matching voice data exists.
  • the information retrieval apparatus using the voice recognition compares the user-defined voice database for storing the voice data that is the target of the information search, and the voice data input through the microphone with the voice data stored in the user-defined voice database
  • a voice comparator a memory for temporarily storing voice data input through the microphone
  • a communication unit for transmitting and receiving data to and from a search server, and voice data matching the result of the comparison by the voice comparator, and repeating the voice data. If the input is set, check whether there is voice data matching the voice data input through the microphone in the memory, and if there is voice data matching, output an event, and send information corresponding to the voice data to the search server. Includes a control to generate the request signal The.
  • the voice data input through the microphone is present in the user-defined database and repeatedly inputted, information corresponding to the voice data is searched for, so that the user unintentionally utters words or intentions. It is possible to prevent a phenomenon in which information is automatically searched for words that are not spoken.
  • the user may intentionally repeat a word that he or she intends to search, or unintentionally repeat the word corresponding to the content of interest unconsciously, thus preventing unnecessary information searching and optimal information for the user.
  • the effect is to provide a quick.
  • FIG. 1 is a schematic structural diagram of an information retrieval system according to the present invention.
  • FIG 2 is an internal configuration diagram of an information retrieval apparatus using speech recognition according to the present invention.
  • FIG. 3 is a flowchart of an information retrieval method using speech recognition according to the present invention.
  • FIG. 1 shows a schematic configuration of an information retrieval system using speech recognition according to the present invention.
  • an information retrieval system includes an information retrieval terminal 100 possessed by a user and a retrieval server 200 held by a service provider, and the information retrieval terminal 100 and the retrieval server 200 are mutually connected through a communication network. Connected.
  • the information retrieval terminal 100 is a device having a voice recognition module that recognizes a user's voice and receives various information corresponding to the recognized voice from the search server 200 and outputs the information to the user.
  • the information retrieval terminal 100 may be a device such as a smart phone, a tablet PC, a notebook computer, a personal computer, but is not limited thereto.
  • the information retrieval function may be a dedicated device for information retrieval or an information retrieval function that is not a separate device. It can be implemented embedded in a door lock, a car, a home network system, and the like.
  • the search server 200 receives a voice recognition based information search request from the information search terminal 100, searches for information corresponding to the recognized voice through a search engine, and provides the searched information to the information search terminal 100.
  • FIG 2 shows an internal configuration of an information retrieval apparatus using speech recognition according to the present invention.
  • an information retrieval apparatus using voice recognition includes a microphone 11, a voice processor 13, a display unit 15, a speaker 17, a user-defined voice DB 19, a memory 21, and a communication unit ( 23) a voice comparator 25, a controller 27 and the like.
  • the microphone 11 converts a user's voice into an electrical signal
  • the voice processor 13 processes the electrical signal input from the microphone 11 and converts the electrical signal into a digital signal.
  • the voice data which is a digital signal processed by the voice processor 13, is input to the controller 27.
  • the display unit 15 is a part for visually outputting the state of the information retrieval apparatus, and in particular, displays various information corresponding to the recognized voice to the user.
  • the display unit 15 may be implemented as a touch screen. In this case, the display unit 15 also plays a role of an input interface in addition to a display function.
  • the user may set a repetitive input through the input interface of the display unit 15.
  • the repetitive input setting refers to a search setting option for executing information retrieval only when the voice data input through the microphone 11 is duplicated two or more times.
  • the user may set a repetitive input through the input interface and arbitrarily input the repetition number.
  • the speaker 17 is an audible output of the state of the information retrieval apparatus.
  • the speaker 17 is a machine sound, a sound (for example, to inform the user when searching for information corresponding to a recognized voice or providing searched information. Audio events such as ⁇ Bingo ''.
  • the user-defined voice database (DB) 19 is a space for storing voice data of a search target predefined by the user.
  • the user-defined voice database 19 may exist in the information retrieval apparatus but may exist in the search server 200 or in another space on the Internet.
  • the user-defined voice database 19 is periodically updated whether it exists inside the information retrieval apparatus or on an external server.
  • the memory 21 is a part for storing various programs and data, and includes a ROM, a RAM, a flash memory, and the like, of which the flash memory is voice data input through the microphone 11. Temporarily stores or stores the user's setting information (eg, the repetitive input setting).
  • the communication unit 23 is a part for transmitting and receiving data with the search server 200.
  • the communication unit 23 transmits an information search request signal corresponding to voice data to the search server 200, and receives various information from the search server 200.
  • the communication unit 23 may include a mobile communication module such as LTE, LTE-A, a wireless Internet communication module such as Wi-Fi, a wired Internet communication module such as Ethernet, and the like for data communication.
  • the voice comparator 25 compares voice data input through the microphone 11 with voice data stored in the user-defined voice database 19. That is, the voice comparator 25 checks whether the same voice data as the voice data input through the microphone 11 exists in the user definition database 19.
  • the controller 27 checks whether the repetitive input of the voice data is set.
  • the controller 27 checks whether the voice data corresponding to the voice data input through the microphone 11 exists in the memory 21.
  • the controller 27 If there is voice data corresponding to the memory 21, the controller 27 outputs an event for notifying the user of information search or provision, and retrieves information for requesting the search server 200 for information corresponding to the voice data. Generate a request signal. If the repetitive input of the voice data is not set, the control unit 27 immediately outputs an event and generates an information search request signal.
  • the control unit 27 deletes the voice data stored in the memory 21 after transmitting the information search request signal through the communication unit 23.
  • control unit 27 stores the voice data input through the microphone 11 in the memory 21, and waits for input of the voice data again.
  • the voice data corresponding to the voice data stored in the memory 21 is input through the microphone 11, the voice data is deleted after the information retrieval request as described above, and when the matching voice data is not input, the time point at which the voice data is stored After a predetermined time elapses, the voice data is deleted from the memory 21.
  • FIG. 3 is a flowchart illustrating an information retrieval method using speech recognition according to the present invention.
  • the information retrieval apparatus 100 may be provided inside or exist in an external server. 19 and by comparing the voice data input through the microphone 11 and the voice data stored in the user-defined voice database 19, the voice data input through the microphone 11 to the user-defined voice database 19 It is determined whether there exists (S12).
  • step S14 if the repetitive input of the voice data is set, it is checked whether the voice data corresponding to the voice data input through the microphone 11 exists in the internal memory 21 (S16). If the repeated input of the voice data is not set, an event is immediately output and a request for information search corresponding to the voice data is requested (S20).
  • An event according to an embodiment of the present invention indicates that information can be searched and provided, and may be an auditory event in which a specific sound is output, such as 'bingo', but a visual event such as an LED lamp flickering is also possible. Can be output.
  • step S16 if the voice data corresponding to the voice data input through the microphone 11 does not exist in the memory 21, the voice data input through the microphone 11 is input to the memory 21. Save (S18) and wait for input of voice data again.
  • the corresponding voice data stored in the memory 21 is deleted (S22).
  • the time point at which the voice data stored in the memory 21 is deleted is after a search request for information corresponding to the voice data or after a predetermined time elapses after the voice data is stored in the memory 21.
  • the present invention is a technology for searching and providing information corresponding to the voice data only when the voice data exists in the user-defined database and is repeatedly input, and can be widely used in the field of information retrieval using voice recognition.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 정보 검색 방법 및 장치에 관한 것으로서, 상세하게는 마이크를 통해 입력되는 음성 데이터가 사용자 정의 데이터베이스에 존재하고 반복적으로 입력되는 경우 그 음성 데이터에 대응하는 정보를 검색하여 사용자에게 제공하는 음성 인식을 이용한 정보 검색 방법 및 장치에 관한 것이다. 이를 위하여, 본 발명에 따른 음성 인식을 이용한 정보 검색 방법은 마이크를 통해 음성 데이터가 입력되면 입력된 음성 데이터를 사용자 정의 음성 데이터베이스에 저장된 음성 데이터와 비교하는 단계와, 상기 비교 결과 일치하는 음성 데이터가 존재하면 음성 데이터의 반복 입력이 설정되어 있는지 판단하는 단계와, 상기 판단 결과 음성 데이터의 반복 입력이 설정되어 있으면 내부 메모리에 상기 입력된 음성 데이터와 일치하는 음성 데이터가 존재하는지 확인하는 단계와, 상기 확인 결과 일치하는 음성 데이터가 존재하면 이벤트를 출력하고 음성 데이터에 대응하는 정보를 검색 서버에 요청하는 단계를 포함한다.

Description

음성 인식을 이용한 정보 검색 방법 및 장치
본 발명은 정보 검색 방법 및 장치에 관한 것으로서, 상세하게는 마이크를 통해 입력되는 음성 데이터가 사용자 정의 데이터베이스에 존재하고 반복적으로 입력되는 경우 그 음성 데이터에 대응하는 정보를 검색하여 사용자에게 제공하는 음성 인식을 이용한 정보 검색 방법 및 장치에 관한 것이다.
스마트폰은 휴대의 편이성과 함께 작은 크기에 집약된 데이터 통신, 일정관리, 인터넷 검색, 위치기반 서비스 등 다양한 기능으로 매우 대중적인 스마트 기기가 되었다. 그런데 스마트폰을 대상으로 하는 데이터의 입력, 정보검색, 각종 기능조작 등은 작은 크기의 단말기 화면으로 인해 사용이 다소 불편한 점이 있다.
특히 사용자가 데이터 검색을 위해 텍스트 데이터를 입력하거나 각종 프로그램 등을 조작하고자 할 때 그 불편함이 가중된다. 이러한 사용자 인터페이스를 개선하기 위한 방법으로 음성 인식을 적용한 방법이 연구되고 있다. 이 방법은 사용자의 음성을 인식하여 기기상의 프로그램을 실행 또는 제어하거나 데이터의 입력을 가능하게 한다.
또한, 최근에는 스마트폰에서 사용자의 음성을 인식하여 그 음성에 대응하는 각종 정보를 검색하여 제공하는 서비스가 실현되고 있다.
즉, 종래 음성인식 기반의 서비스는 사용자가 의식적으로 의도하여 발성한 음성을 입력받아 그 음성이 인식되면 즉각적으로 그에 대응하는 정보를 제공하는 것을 상정하고 있다.
그러나 이러한 방식에서는 사용자 음성이 인식되는 대로 계속해서 정보를 검색하여 제공하기 때문에, 사용자가 의도하지 않고 무심코 내뱉은 말도 인식이 되는 한 해당 정보가 출력되어 음성인식 모듈이 활성화된 상태에서는 음성인식에 따른 무차별 검색에 따라 그 제공되는 정보가 오히려 사용자에게 소음이나 공해가 될 수 있는 문제점이 있다.
본 발명은 상기와 같은 문제점을 해결하기 위해 창안된 것으로서, 본 발명의 목적은 사용자 음성이 인식되는 대로 정보 검색이 모두 수행되어 오히려 원치 않은 정보를 받게 되는 상황을 방지할 수 있는 음성 인식을 이용한 정보 검색 및 장치를 제공하는 것이다.
본 발명의 다른 목적은 사용자가 의식적이든 무의식적이든 사용자의 음성을 통해 사용자가 관심 있어 하는 내용에 근접한 정보 검색을 수행할 수 있는 음성 인식을 이용한 정보 검색 및 장치를 제공하는 것이다.
이를 위하여, 본 발명에 따른 음성 인식을 이용한 정보 검색 방법은 마이크를 통해 음성 데이터가 입력되면 입력된 음성 데이터를 사용자 정의 음성 데이터베이스에 저장된 음성 데이터와 비교하는 단계와, 상기 비교 결과 일치하는 음성 데이터가 존재하면 음성 데이터의 반복 입력이 설정되어 있는지 판단하는 단계와, 상기 판단 결과 음성 데이터의 반복 입력이 설정되어 있으면 내부 메모리에 상기 입력된 음성 데이터와 일치하는 음성 데이터가 존재하는지 확인하는 단계와, 상기 확인 결과 일치하는 음성 데이터가 존재하면 이벤트를 출력하고 음성 데이터에 대응하는 정보를 검색 서버에 요청하는 단계를 포함한다.
또한, 본 발명에 따른 음성 인식을 이용한 정보 검색 장치는 정보 검색의 대상이 되는 음성 데이터를 저장하는 사용자 정의 음성 데이터베이스와, 마이크를 통해 입력된 음성 데이터를 상기 사용자 정의 음성 데이터베이스에 저장된 음성 데이터와 비교하는 음성 비교부와, 상기 마이크를 통해 입력된 음성 데이터를 임시 저장하는 메모리와, 검색 서버와 데이터를 송수신하는 통신부와, 상기 음성 비교부에 의한 비교 결과 일치하는 음성 데이터가 존재하고 음성 데이터의 반복 입력이 설정되어 있으면, 상기 메모리에 상기 마이크를 통해 입력된 음성 데이터와 일치하는 음성 데이터가 존재하는지 확인하여 일치하는 음성 데이터가 존재하면 이벤트를 출력하고, 해당 음성 데이터에 대응하는 정보를 검색 서버에 요청하는 신호를 생성하는 제어부를 포함한다.
상술한 바와 같이, 본 발명에 따르면 마이크를 통해 입력되는 음성 데이터가 사용자 정의 데이터베이스에 존재하고 또한 반복적으로 입력되는 경우에 한하여 그 음성 데이터에 대응하는 정보를 검색하기 때문에 사용자가 무심코 내뱉은 말이나 의도하지 않은 말에 대하여 자동으로 정보가 검색되는 현상을 방지할 수 있다.
이에 따라 사용자는 의도적으로 검색하고자 하는 단어를 반복하든지 또는 의도하지 않더라도 관심 있어 하는 내용에 대해서는 무의식적으로 그 내용에 해당하는 단어를 반복할 개연성이 높기 때문에 불필요한 정보의 검색을 방지하고 사용자에게 최적의 정보를 신속하게 제공할 수 있는 효과가 있다.
도 1은 본 발명에 따른 정보 검색 시스템의 개략적 구성도.
도 2는 본 발명에 따른 음성 인식을 이용한 정보 검색 장치의 내부 구성도.
도 3은 본 발명에 따른 음성 인식을 이용한 정보 검색 방법의 순서도.
이하, 첨부된 도면을 참조하여 본 발명에 따른 실시 예를 상세하게 설명한다. 본 발명의 구성 및 그에 따른 작용 효과는 이하의 상세한 설명을 통해 명확하게 이해될 것이다.
본 발명의 상세한 설명에 앞서, 동일한 구성요소에 대해서는 다른 도면상에 표시되더라도 가능한 동일한 부호로 표시하며, 공지된 구성에 대해서는 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 구체적인 설명은 생략하기로 함에 유의한다.
도 1은 본 발명에 따른 음성 인식을 이용한 정보 검색 시스템의 개략적 구성을 나타낸 것이다.
도 1을 참조하면, 정보 검색 시스템은 사용자가 소지한 정보 검색 단말(100) 및 서비스업자가 보유한 검색 서버(200)로 구성되며, 정보 검색 단말(100)과 검색 서버(200)는 통신망을 통해 상호 접속되어 있다.
정보 검색 단말(100)은 음성인식 모듈을 구비하여 사용자의 음성을 인식하고 그 인식한 음성에 대응하는 각종 정보를 검색 서버(200)로부터 제공받아 사용자에게 출력하는 장치이다.
정보 검색 단말(100)은 스마트폰, 태블릿 PC, 노트북, 퍼스널 컴퓨터 등의 장치가 될 수 있으나, 이에 한정하는 것은 아니며 정보 검색을 위한 전용 장치이거나 또는 별도의 장치가 아닌 정보 검색 기능이 IoT 기반의 도어락, 자동차, 홈 네트워크 시스템 등에 내장되어 구현될 수 있다.
검색 서버(200)는 정보 검색 단말(100)로부터 음성 인식 기반의 정보 검색 요청을 받아 인식된 음성에 대응하는 정보를 검색 엔진을 통해 검색하여 검색된 정보를 정보 검색 단말(100)에 제공한다.
도 2는 본 발명에 따른 음성 인식을 이용한 정보 검색 장치의 내부 구성을 나타낸 것이다.
도 2를 참조하면, 음성 인식을 이용한 정보 검색 장치는 마이크(11), 음성 처리부(13), 표시부(15), 스피커(17), 사용자 정의 음성 DB(19), 메모리(21), 통신부(23), 음성 비교부(25), 제어부(27) 등을 포함한다.
마이크(11)는 사용자의 음성을 전기 신호로 변환하고, 음성 처리부(13)는 마이크(11)로부터 입력된 전기 신호를 처리하여 디지털 신호로 변환한다. 음성 처리부(13)에서 처리된 디지털 신호인 음성 데이터는 제어부(27)로 입력된다.
표시부(15)는 정보 검색 장치의 상태를 시각적으로 출력하는 부분으로, 특히 인식된 음성에 대응하는 각종 정보를 사용자에게 표시한다. 표시부(15)는 터치스크린으로 구현될 수 있으며, 이 경우 표시부(15)는 디스플레이 기능 외에 입력 인터페이스의 역할도 동시에 수행한다.
본 발명의 실시예에 따르면 사용자는 표시부(15)의 입력 인터페이스를 통해 반복 입력을 설정할 수 있다. 여기서, 반복 입력 설정이란 마이크(11)를 통해 입력되는 음성 데이터가 2번 이상 중복되는 경우에 한하여 정보 검색을 실행하도록 하기 위한 검색 설정 옵션을 말한다. 사용자는 입력 인터페이스를 통해 반복 입력을 설정하고 그 반복 횟수를 임의로 입력할 수 있다.
스피커(17)는 정보 검색 장치의 상태를 청각적으로 출력하는 부분으로, 특히 인식된 음성에 대응하는 정보를 검색하거나 검색한 정보를 제공할 때 이를 사용자에게 알리기 위해 기계음, 음향(예를 들어, '빙고'라는 소리) 등의 청각적 이벤트를 출력한다.
사용자 정의 음성 데이터베이스(DB)(19)는 사용자가 미리 정의해 놓은 검색 대상의 음성 데이터를 저장하고 있는 공간이다. 사용자 정의 음성 데이터베이스(19)는 정보 검색 장치 내에 존재할 수 있으나 검색 서버(200)나 인터넷상의 다른 공간에 존재할 수 있다. 사용자 정의 음성 데이터베이스(19)는 정보 검색 장치 내부에 존재하든 외부 서버에 존재하든 주기적으로 갱신된다.
메모리(21)는 각종 프로그램 및 데이터를 저장하는 부분으로, 롬(ROM), 램(RAM), 플래시 메모리 등을 포함하며, 메모리(21) 중에서 플래시 메모리는 마이크(11)를 통해 입력된 음성 데이터를 임시 저장하거나 사용자의 설정 정보(예를 들어, 상기 반복 입력 설정)를 저장한다.
통신부(23)는 검색 서버(200)와 데이터를 송수신하는 부분이다. 통신부(23)는 음성 데이터에 대응하는 정보 검색 요청 신호를 검색 서버(200)로 전송하고, 검색 서버(200)로부터 각종 정보를 수신한다. 통신부(23)는 데이터 통신을 위해 LTE, LTE-A 등의 이동통신모듈, Wi-Fi 등의 무선 인터넷 통신모듈, 이더넷 등의 유선 인터넷 통신모듈 등으로 구성될 수 있다.
음성 비교부(25)는 마이크(11)를 통해 입력된 음성 데이터와 사용자 정의 음성 데이터베이스(19)에 저장된 음성 데이터를 비교하는 부분이다. 즉, 음성 비교부(25)는 사용자 정의 데이터베이스(19)에 마이크(11)를 통해 입력된 음성 데이터와 동일한 음성 데이터가 존재하는지 확인한다.
제어부(27)는 음성 비교부(25)에 의한 비교 결과 일치하는 음성 데이터가 존재하는 것으로 확인되면 음성 데이터의 반복 입력이 설정되어 있는지 확인한다.
음성 데이터의 반복 입력이 설정되어 있으면, 제어부(27)는 메모리(21)에 마이크(11)를 통해 입력된 음성 데이터와 일치하는 음성 데이터가 존재하는지 확인한다.
메모리(21)에 일치하는 음성 데이터가 존재하면 제어부(27)는 사용자에게 정보 검색 또는 제공을 알리기 위한 이벤트를 출력하고, 해당 음성 데이터에 대응하는 정보를 검색 서버(200)에 요청하기 위한 정보 검색 요청 신호를 생성한다. 만약 음성 데이터의 반복 입력이 설정되어 있지 않으면, 제어부(27)는 곧바로 이벤트를 출력하고 정보 검색 요청 신호를 생성한다.
제어부(27)는 통신부(23)를 통해 정보 검색 요청 신호를 전송한 후, 메모리(21)에 저장된 해당 음성 데이터를 삭제한다.
한편 메모리(21)에 일치하는 음성 데이터가 존재하지 않으면 제어부(27)는 메모리(21)에 마이크(11)를 통해 입력된 음성 데이터를 저장하고, 다시 음성 데이터의 입력을 대기한다.
그리고 마이크(11)를 통해 메모리(21)에 저장된 음성 데이터와 일치하는 음성 데이터가 입력되면 상술한 바와 같이 정보 검색 요청 후에 음성 데이터를 삭제하고, 일치하는 음성 데이터가 입력되지 않으면 음성 데이터가 저장된 시점부터 일정 시간 경과 후에 메모리(21)에서 음성 데이터를 삭제한다.
이와 같이 구성된 본 발명에 따른 정보 검색 장치에서 음성 인식을 이용하여 정보 검색을 처리하는 과정을 도 3을 참조하여 구체적으로 설명한다.
도 3은 본 발명에 따른 음성 인식을 이용한 정보 검색 방법의 순서도를 나타낸 것이다.
먼저, 정보 검색 장치(100)에 구비된 마이크(11)를 통해 사용자의 음성 데이터가 입력되면(S10), 정보 검색 장치(100)는 내부에 구비되거나 또는 외부 서버에 존재하는 사용자 정의 음성 데이터베이스(19)에 접근하여 마이크(11)를 통해 입력된 음성 데이터와 사용자 정의 음성 데이터베이스(19)에 저장된 음성 데이터를 비교함으로써, 마이크(11)를 통해 입력된 음성 데이터가 사용자 정의 음성 데이터베이스(19)에 존재하는지 판단한다(S12).
사용자 정의 음성 데이터베이스(19)에 마이크(11)를 통해 입력된 음성 데이터와 일치하는 음성 데이터가 존재하면, 음성 데이터의 반복 입력이 설정되어 있는지 판단한다(S14). 만약 사용자 정의 음성 데이터베이스(19)에 마이크(11)를 통해 입력된 음성 데이터와 일치하는 음성 데이터가 존재하지 않으면, 아무런 동작도 발생하지 않으며 다시 음성 데이터의 입력을 대기한다.
상기 단계(S14)의 판단 결과, 음성 데이터의 반복 입력이 설정되어 있으면, 내부 메모리(21)에 마이크(11)를 통해 입력된 음성 데이터와 일치하는 음성 데이터가 존재하는지 확인한다(S16). 만약 음성 데이터의 반복 입력이 설정되어 있지 않으면 바로 이벤트를 출력하고 그 음성 데이터에 대응하는 정보 검색을 요청한다(S20).
본 발명의 실시예에 따른 이벤트는 정보 검색 및 제공이 가능함을 나타내는 것으로 '빙고' 등 특정 음이 출력되는 청각적 이벤트일 수 있으나, LED 램프가 깜박이는 것과 같은 시각적 이벤트도 가능하며 두 요소가 동시에 출력될 수 있다.
상기 단계(S16)의 확인 결과, 메모리(21)에 마이크(11)를 통해 입력된 음성 데이터와 일치하는 음성 데이터가 존재하지 않으면, 메모리(21)에 마이크(11)를 통해 입력된 음성 데이터를 저장하고(S18) 다시 음성 데이터의 입력을 대기한다.
만약 메모리(21)에 마이크(11)를 통해 입력된 음성 데이터와 일치하는 음성 데이터가 존재하면 이벤트를 출력하고 그 음성 데이터에 대응하는 정보 검색을 요청한다(S20).
음성 데이터에 대응하는 정보 검색을 요청한 후 메모리(21)에 저장된 해당 음성 데이터를 삭제한다(S22). 메모리(21)에 저장된 음성 데이터가 삭제되는 시점은 해당 음성 데이터에 대응하는 정보에 대한 검색 요청 이후이거나 음성 데이터가 메모리(21)에 저장된 다음 일정 시간이 지난 후이다.
이와 같이 사용자 정의 음성 데이터베이스(19)에 검색 대상이 되는 음성 데이터가 존재하되 그 음성 데이터의 반복 입력이 설정되어 있으면 음성 데이터가 일정 시간 안에 중복해서 입력되는 경우에 한하여 정보 검색을 실행함으로써 음성 인식에 따른 무차별적 정보 검색을 방지할 수 있다.
이상의 설명은 본 발명을 예시적으로 설명한 것에 불과하며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 본 발명의 기술적 사상에서 벗어나지 않는 범위에서 다양한 변형이 가능할 것이다.
따라서 본 발명의 명세서에 개시된 실시 예들은 본 발명을 한정하는 것이 아니다. 본 발명의 범위는 아래의 특허청구범위에 의해 해석되어야 하며, 그와 균등한 범위 내에 있는 모든 기술도 본 발명의 범위에 포함되는 것으로 해석해야 할 것이다.
본 발명은 음성 데이터가 사용자 정의 데이터베이스에 존재하고 반복적으로 입력되는 경우에 한하여 해당 음성 데이터에 대응하는 정보를 검색 및 제공하는 기술로서, 음성 인식을 이용한 정보 검색 분야에 널리 사용될 수 있다.

Claims (9)

  1. 음성 인식 기반의 정보 검색 장치에서 음성 데이터에 대응하는 정보를 검색하는 방법에 있어서,
    마이크를 통해 음성 데이터가 입력되면 입력된 음성 데이터를 사용자 정의 음성 데이터베이스에 저장된 음성 데이터와 비교하는 단계와,
    상기 비교 결과 일치하는 음성 데이터가 존재하면 음성 데이터의 반복 입력이 설정되어 있는지 판단하는 단계와,
    상기 판단 결과 음성 데이터의 반복 입력이 설정되어 있으면 내부 메모리에 상기 입력된 음성 데이터와 일치하는 음성 데이터가 존재하는지 확인하는 단계와,
    상기 확인 결과 일치하는 음성 데이터가 존재하면 이벤트를 출력하고 음성 데이터에 대응하는 정보를 검색 서버에 요청하는 단계를 포함하는 음성 인식을 이용한 정보 검색 방법.
  2. 제1항에 있어서,
    상기 판단 결과 음성 데이터의 반복 입력이 설정되어 있지 않으면 이벤트를 출력하고 음성 데이터에 대응하는 정보를 검색 서버에 요청하는 단계를 더 포함하는 것을 음성 인식을 이용한 정보 검색 방법.
  3. 제1항에 있어서,
    상기 확인 결과 일치하는 음성 데이터가 존재하지 않으면 상기 내부 메모리에 상기 입력된 음성 데이터를 저장하는 단계와,
    상기 입력된 음성 데이터가 저장된 후 일정 시간이 지나면 상기 내부 메모리에서 음성 데이터를 삭제하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식을 이용한 정보 검색 방법.
  4. 제1항에 있어서,
    상기 검색 서버로 정보 요청 후 상기 내부 메모리에 저장된 음성 데이터를 삭제하는 단계를 더 포함하는 음성 인식을 이용한 정보 검색 방법.
  5. 정보 검색의 대상이 되는 음성 데이터를 저장하는 사용자 정의 음성 데이터베이스와,
    마이크를 통해 입력된 음성 데이터를 상기 사용자 정의 음성 데이터베이스에 저장된 음성 데이터와 비교하는 음성 비교부와,
    상기 마이크를 통해 입력된 음성 데이터를 임시 저장하는 메모리와,
    검색 서버와 데이터를 송수신하는 통신부와,
    상기 음성 비교부에 의한 비교 결과 일치하는 음성 데이터가 존재하고 음성 데이터의 반복 입력이 설정되어 있으면, 상기 메모리에 상기 마이크를 통해 입력된 음성 데이터와 일치하는 음성 데이터가 존재하는지 확인하여 일치하는 음성 데이터가 존재하면 이벤트를 출력하고, 해당 음성 데이터에 대응하는 정보를 검색 서버에 요청하는 신호를 생성하는 제어부를 포함하는 음성 인식을 이용한 정보 검색 장치.
  6. 제5항에 있어서,
    상기 제어부는 상기 검색 서버로 정보 요청 후 상기 메모리에서 해당 음성 데이터를 삭제하는 것을 특징으로 하는 음성 인식을 이용한 정보 검색 장치.
  7. 제5항에 있어서,
    상기 제어부는 상기 음성 데이터의 반복 입력이 설정되어 있지 않으면 이벤트를 출력하고 해당 음성 데이터에 대응하는 정보를 검색 서버에 요청하는 신호를 생성하는 것을 특징으로 하는 음성 인식을 이용한 정보 검색 장치.
  8. 제5항에 있어서,
    상기 제어부는 상기 메모리에 상기 마이크를 통해 입력된 음성 데이터와 일치하는 음성 데이터가 존재하지 않으면 상기 메모리에 상기 마이크를 통해 입력된 음성 데이터를 저장하고, 상기 마이크를 통해 입력된 음성 데이터가 저장된 후 일정 시간이 지나면 상기 메모리에서 음성 데이터를 삭제하는 것을 특징으로 하는 음성 인식을 이용한 정보 검색 장치.
  9. 제1항 내지 제4항 중 어느 한 항에 의한 방법을 실행하기 위한 프로그램을 저장한 컴퓨터로 읽을 수 있는 기록매체.
PCT/KR2016/002168 2015-04-30 2016-03-04 음성 인식을 이용한 정보 검색 방법 및 장치 WO2016175443A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US15/570,587 US10403277B2 (en) 2015-04-30 2016-03-04 Method and apparatus for information search using voice recognition

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020150061412A KR101595090B1 (ko) 2015-04-30 2015-04-30 음성 인식을 이용한 정보 검색 방법 및 장치
KR10-2015-0061412 2015-04-30

Publications (1)

Publication Number Publication Date
WO2016175443A1 true WO2016175443A1 (ko) 2016-11-03

Family

ID=55457823

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2016/002168 WO2016175443A1 (ko) 2015-04-30 2016-03-04 음성 인식을 이용한 정보 검색 방법 및 장치

Country Status (3)

Country Link
US (1) US10403277B2 (ko)
KR (1) KR101595090B1 (ko)
WO (1) WO2016175443A1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018078751A1 (ja) * 2016-10-26 2018-05-03 株式会社トヨタマップマスター 施設検索装置、施設検索方法、コンピュータプログラム及びコンピュータプログラムを記録した記録媒体
KR102594022B1 (ko) * 2016-11-24 2023-10-26 삼성전자주식회사 전자 장치 및 그의 채널맵 업데이트 방법
KR20180084392A (ko) * 2017-01-17 2018-07-25 삼성전자주식회사 전자 장치 및 그의 동작 방법
US11204988B2 (en) * 2018-04-20 2021-12-21 Spotify Ab Association via voice

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060063420A (ko) * 2004-12-07 2006-06-12 에스케이 텔레콤주식회사 휴대단말기에서의 음성인식방법 및 이를 구비한 휴대단말기
JP2008309865A (ja) * 2007-06-12 2008-12-25 Fujitsu Ten Ltd 音声認識装置および音声認識方法
WO2012081788A1 (ko) * 2010-12-16 2012-06-21 엔에이치엔(주) 온라인 음성인식을 처리하는 음성인식 클라이언트 시스템, 음성인식 서버 시스템 및 음성인식 방법
KR101309794B1 (ko) * 2012-06-27 2013-09-23 삼성전자주식회사 디스플레이 장치, 디스플레이 장치의 제어 방법 및 대화형 시스템
WO2015023138A1 (ko) * 2013-08-14 2015-02-19 Kim Kyung-Cheol 음성인식 기반의 메시징 통역서비스 제공 시스템 및 그 방법

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI97919C (fi) * 1992-06-05 1997-03-10 Nokia Mobile Phones Ltd Puheentunnistusmenetelmä ja -järjestelmä puheella ohjattavaa puhelinta varten
EP1030483B1 (en) * 1993-02-15 2003-10-08 Mitsubishi Denki Kabushiki Kaisha Asynchronous transfer mode switch
US6505153B1 (en) * 2000-05-22 2003-01-07 Compaq Information Technologies Group, L.P. Efficient method for producing off-line closed captions
US7072328B2 (en) * 2001-01-12 2006-07-04 Voicegenie Technologies Inc. Computer-implemented voice markup language-based server
US20030046071A1 (en) * 2001-09-06 2003-03-06 International Business Machines Corporation Voice recognition apparatus and method
US20040193425A1 (en) * 2002-11-12 2004-09-30 Tomes Christopher B. Marketing a business employing voice and speech recognition technology
TWI225638B (en) * 2003-09-26 2004-12-21 Delta Electronics Inc Speech recognition method
US8005668B2 (en) * 2004-09-22 2011-08-23 General Motors Llc Adaptive confidence thresholds in telematics system speech recognition
US7949533B2 (en) * 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
TWI298844B (en) * 2005-11-30 2008-07-11 Delta Electronics Inc User-defines speech-controlled shortcut module and method
JP4812029B2 (ja) * 2007-03-16 2011-11-09 富士通株式会社 音声認識システム、および、音声認識プログラム
US20090210233A1 (en) * 2008-02-15 2009-08-20 Microsoft Corporation Cognitive offloading: interface for storing and composing searches on and navigating unconstrained input patterns
US8140330B2 (en) * 2008-06-13 2012-03-20 Robert Bosch Gmbh System and method for detecting repeated patterns in dialog systems
US8965765B2 (en) * 2008-09-19 2015-02-24 Microsoft Corporation Structured models of repetition for speech recognition
US8990085B2 (en) * 2009-09-30 2015-03-24 At&T Intellectual Property I, L.P. System and method for handling repeat queries due to wrong ASR output by modifying an acoustic, a language and a semantic model
JP5158174B2 (ja) * 2010-10-25 2013-03-06 株式会社デンソー 音声認識装置
KR101789619B1 (ko) * 2010-11-22 2017-10-25 엘지전자 주식회사 멀티미디어 장치에서 음성과 제스쳐를 이용한 제어 방법 및 그에 따른 멀티미디어 장치
US8489398B1 (en) * 2011-01-14 2013-07-16 Google Inc. Disambiguation of spoken proper names
KR101322394B1 (ko) 2011-05-16 2013-10-29 경북대학교 산학협력단 음성인식 정보검색 시스템 및 그 방법
KR101889836B1 (ko) * 2012-02-24 2018-08-20 삼성전자주식회사 음성인식을 통한 단말기의 잠금 상태 해제 및 조작 방법 및 장치
EP2645364B1 (en) * 2012-03-29 2019-05-08 Honda Research Institute Europe GmbH Spoken dialog system using prominence
KR102109381B1 (ko) * 2013-07-11 2020-05-12 삼성전자주식회사 전기기기 및 그 제어 방법
KR102155482B1 (ko) * 2013-10-15 2020-09-14 삼성전자 주식회사 디스플레이장치 및 그 제어방법
US9653073B2 (en) * 2013-11-26 2017-05-16 Lenovo (Singapore) Pte. Ltd. Voice input correction
US20150199965A1 (en) * 2014-01-16 2015-07-16 CloudCar Inc. System and method for recognition and automatic correction of voice commands
US9589562B2 (en) * 2014-02-21 2017-03-07 Microsoft Technology Licensing, Llc Pronunciation learning through correction logs
US9430186B2 (en) * 2014-03-17 2016-08-30 Google Inc Visual indication of a recognized voice-initiated action
JP6233650B2 (ja) * 2014-05-20 2017-11-22 パナソニックIpマネジメント株式会社 操作補助装置および操作補助方法
US9715875B2 (en) * 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9503688B1 (en) * 2014-06-13 2016-11-22 Google Inc. Techniques for automatically scheduling and providing time-shifted communication sessions
US10446141B2 (en) * 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9921725B2 (en) * 2015-06-16 2018-03-20 International Business Machines Corporation Displaying relevant information on wearable computing devices
US20170092278A1 (en) * 2015-09-30 2017-03-30 Apple Inc. Speaker recognition
US10354642B2 (en) * 2017-03-03 2019-07-16 Microsoft Technology Licensing, Llc Hyperarticulation detection in repetitive voice queries using pairwise comparison for improved speech recognition

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060063420A (ko) * 2004-12-07 2006-06-12 에스케이 텔레콤주식회사 휴대단말기에서의 음성인식방법 및 이를 구비한 휴대단말기
JP2008309865A (ja) * 2007-06-12 2008-12-25 Fujitsu Ten Ltd 音声認識装置および音声認識方法
WO2012081788A1 (ko) * 2010-12-16 2012-06-21 엔에이치엔(주) 온라인 음성인식을 처리하는 음성인식 클라이언트 시스템, 음성인식 서버 시스템 및 음성인식 방법
KR101309794B1 (ko) * 2012-06-27 2013-09-23 삼성전자주식회사 디스플레이 장치, 디스플레이 장치의 제어 방법 및 대화형 시스템
WO2015023138A1 (ko) * 2013-08-14 2015-02-19 Kim Kyung-Cheol 음성인식 기반의 메시징 통역서비스 제공 시스템 및 그 방법

Also Published As

Publication number Publication date
KR101595090B1 (ko) 2016-02-17
US20180137859A1 (en) 2018-05-17
US10403277B2 (en) 2019-09-03

Similar Documents

Publication Publication Date Title
US10832686B2 (en) Method and apparatus for pushing information
CN107277754B (zh) 一种蓝牙连接的方法及蓝牙外围设备
CN106663430B (zh) 使用用户指定关键词的说话者不相依关键词模型的关键词检测
US10490192B2 (en) Apparatus, method, non-transitory computer-readable medium and system for modifying voice recognition information
WO2018147687A1 (en) Method and apparatus for managing voice-based interaction in internet of things network system
WO2016175443A1 (ko) 음성 인식을 이용한 정보 검색 방법 및 장치
US20180103376A1 (en) Device and method for authenticating a user of a voice user interface and selectively managing incoming communications
US10811005B2 (en) Adapting voice input processing based on voice input characteristics
WO2015058616A1 (zh) 恶意网站的识别方法和装置
US20180285068A1 (en) Processing method of audio control and electronic device thereof
JP2017530431A (ja) 迷惑電話番号確定方法、装置及びシステム
WO2018208026A1 (ko) 수신된 음성 입력의 입력 음량에 기반하여 출력될 소리의 출력 음량을 조절하는 사용자 명령 처리 방법 및 시스템
JP2013167806A (ja) 情報通知支援装置、情報通知支援方法、および、プログラム
CN108428450B (zh) 一种操作指令处理方法及装置
US11282528B2 (en) Digital assistant activation based on wake word association
CN110139152B (zh) 禁言方法、装置、电子设备及计算机可读存储介质
US20180367669A1 (en) Input during conversational session
CN109741749B (zh) 一种语音识别的方法和终端设备
US20170229119A1 (en) Method for detecting voice and electronic device using the same
CN108600559B (zh) 静音模式的控制方法、装置、存储介质及电子设备
CN109087647B (zh) 声纹识别处理方法、装置、电子设备及存储介质
WO2018117660A1 (en) Security enhanced speech recognition method and device
KR20150104930A (ko) 통신 단말기에서 음성 인식 서비스의 멀티태스킹을 지원하는 방법 및 시스템
EP2913822A1 (en) Speaker recognition method
US20210210083A1 (en) Response to secondary inputs at a digital personal assistant

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16786630

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 15570587

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16786630

Country of ref document: EP

Kind code of ref document: A1