KR20220023208A - Terminal devices running voice recognition-based AI agent programs and how they work - Google Patents

Terminal devices running voice recognition-based AI agent programs and how they work Download PDF

Info

Publication number
KR20220023208A
KR20220023208A KR1020200104797A KR20200104797A KR20220023208A KR 20220023208 A KR20220023208 A KR 20220023208A KR 1020200104797 A KR1020200104797 A KR 1020200104797A KR 20200104797 A KR20200104797 A KR 20200104797A KR 20220023208 A KR20220023208 A KR 20220023208A
Authority
KR
South Korea
Prior art keywords
command
voice
unit
search
instruction
Prior art date
Application number
KR1020200104797A
Other languages
Korean (ko)
Other versions
KR102389602B1 (en
Inventor
장금숙
Original Assignee
장금숙
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 장금숙 filed Critical 장금숙
Priority to KR1020200104797A priority Critical patent/KR102389602B1/en
Publication of KR20220023208A publication Critical patent/KR20220023208A/en
Application granted granted Critical
Publication of KR102389602B1 publication Critical patent/KR102389602B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/12Hotels or restaurants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/081Search algorithms, e.g. Baum-Welch or Viterbi
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Abstract

A terminal device running a voice recognition-based AI agent program according to an embodiment of the present invention comprises: a voice matching unit filtering voice frequency of voice information inputted by using a frequency band filter and then determining identity thereof with preset voice frequency; a voice-character transformation unit transforming the voice information into a character string; an instruction setup unit setting an instruction related to at least one among an online product order, an emergency rescue request and a web search; an instruction extraction unit extracting an instruction, identical to the instruction set by the instruction setup unit, from the character string resulted from the transformation of the voice-character transformation unit; and an AI agent unit separating the instruction, extracted by the instruction extraction unit, into a search instruction and a running instruction, then accessing a URL related to the running instruction and then searching for information and performing an action in correspondence with the search instruction. The present invention can easily treat the web search, an emergency rescue, a shopping, a purchase order and a payment.

Description

음성인식 기반의 AI 에이전트 프로그램을 실행하는 단말장치 및 이의 동작방법{Terminal devices running voice recognition-based AI agent programs and how they work}Terminal devices running voice recognition-based AI agent programs and how they work

본 발명은 음성인식 기반의 AI 에이전트 프로그램을 실행하는 단말장치에 관한 것이다.The present invention relates to a terminal device that executes an AI agent program based on voice recognition.

최근, 정보통신 기술의 비약적인 발전에 따라 IoT(Internet of Things) 기술에 대한 관심 및 수요가 급격히 증가하고 있다. 이러한 IoT는, 이를 바라보는 관점에 따라 다양한 방식으로 정의될 수 있다. 그러나, 본질적으로 IoT는 인터넷을 기반으로 다양한 사물들을 통신 네트워크로 연결함으로써 사람과 사물, 사물과 사물 간의 통신을 가능하게 하는 지능형 정보통신 기술 내지 서비스이다.Recently, with the rapid development of information and communication technology, interest in and demand for Internet of Things (IoT) technology is rapidly increasing. The IoT may be defined in various ways depending on the viewpoint from which it is viewed. However, in essence, IoT is an intelligent information and communication technology or service that enables communication between people and things and between things and things by connecting various things through a communication network based on the Internet.

이러한 IoT 기술은 스마트 홈(smart home), 스마트 헬스(smart health), 스마트 카(smart car) 등과 같은 다양한 기술 분야에서 응용되고 있다. 특히, IoT 기술을 홈 네트워크 시스템에 접목한 스마트 홈 서비스에 관한 연구가 활발히 진행되고 있다.These IoT technologies are being applied in various technology fields such as smart home, smart health, and smart car. In particular, research on smart home services in which IoT technology is grafted into home network systems is being actively conducted.

스마트 홈 서비스는 통신 네트워크가 구축된 주거 환경에서 사물인터넷 기능이 포함된 IoT 기기를 통해 생활 수준 향상을 추구하는 시스템 전반을 의미한다. TV/냉장고/에어컨 등의 가전제품, 전기/수도 등의 에너지 소비장치, 보안 서비스 등을 통신 네트워크로 연결하여 사용자로 하여금 스마트 폰 또는 음성 제어기(또는 AI 스피커)등을 통해 댁 내의 상황 정보를 원격으로 실시간 확인 및 제어가 가능하도록 할 수 있다. 특히, 최근에는 AI 스피커를 통해 댁 내에 존재하는 IoT 기기들을 원격으로 제어할 수 있는 스마트 홈 서비스가 점점 증가하는 추세이다.Smart home service refers to the overall system that seeks to improve living standards through IoT devices with Internet of Things (IoT) functions in a residential environment in which a communication network is established. Home appliances such as TVs/refrigerators/air conditioners, energy consumption devices such as electricity/water, and security services are connected through a communication network to allow users to remotely access situation information in the house through a smart phone or voice controller (or AI speaker). to enable real-time confirmation and control. In particular, in recent years, smart home services that can remotely control IoT devices in the house through an AI speaker are increasing.

AI 스피커는 음성인식(Voice Recognition) 기술 및 인공지능(Artificial Intelligence) 기술 등을 이용하여 대화형 AI 비서 서비스를 제공할 수 있다. 여기서, 대화형 AI 비서 서비스란 단어 그대로 인공지능이 화자의 비서역할을 수행해주는 서비스를 의미한다. 이러한 AI 스피커는 개인 일정 관리 서비스, SNS 관리 서비스, 앱 실행서비스, 인터넷 쇼핑 서비스, 이메일 관리 서비스, 메신저 관리 서비스, 멀티미디어 재생 서비스, 날씨/교통/여행 정보 제공 서비스, IoT 기기 제어 서비스 등과 같은 다양한 서비스를 제공할 수 있다.The AI speaker can provide an interactive AI assistant service using voice recognition technology and artificial intelligence technology. Here, the conversational AI assistant service literally means a service in which artificial intelligence performs the role of a speaker's assistant. These AI speakers provide various services such as personal schedule management service, SNS management service, app execution service, internet shopping service, email management service, messenger management service, multimedia playback service, weather/traffic/travel information provision service, IoT device control service, etc. can provide

한편, 기존 출시된 음성인식 AI프로그램 및 AI스피커의 경우, 사람마다 가지는 고유한 신체적 문화적 특징으로부터 나오는 다양한 목소리 및 음성의 특징과 지역별 방언까지 포함되어 표현되는 다양한 패턴의 대화내용을 원활하게 인식하여 명령을 수용하기까지에는 아직 일정한 한계를 보이고 있어, 대화형 인공지능 제품 소비자들이 처음에는 호기심으로 구매 또는 사용을 하지만 점차 잦은 오류로 인한 실망감과 스트레스로 인해 더 이상의 지속적인 사용을 하고 있지 못하는 실정에 있다.On the other hand, in the case of the previously released voice recognition AI program and AI speaker, various voices and voice characteristics from the unique physical and cultural characteristics of each person and various patterns of conversations expressed including regional dialects are smoothly recognized and commanded. There is still a certain limit to the acceptance of AI products, and consumers of interactive AI products initially purchase or use them out of curiosity, but are unable to continue using them anymore due to disappointment and stress caused by frequent errors.

사람의 음성과 다양한 기타의 소리패턴(음악소리, 소음, 물체소리, 동물소리등 목소리외 일체)과는 그 소리의 파장 형태에 있어 뚜렷한 차이가 있어, 이러한 사람음성과 기타소리간의 분별은 현재까지 출시된 AI음성인식 프로그램이 비교적 쉽게 분리해 내고 있으며, 또한 2초 내외의 짧은 단어에 대한 인식률은 상당한 수준에 있음이 확인되어 인식율이 떨어지는 긴 문장보다는 짧은 단어의 음성명령어 만으로만 AI음성인식 프로그램을 활용하는 추세로서, 스마트폰의 경우 크게는 구글의 안드로이드와 애플의 IOS가 기본OS로 셋팅되어 판매되고 있으나, 시중에 판매되고 있는 음성인식 스피커 제품들도 마찬가지지만 광고효과를 위해 개발사가 지정하는 특정단어로 먼저 호출한 후 사용하도록 강제하고 있고, 개발회사의 브랜드명을 지속적으로 언급해야 하는 것 또한 상당히 부자연스러운 것으로, 즉, 구글의 안드로이드 음성인식AI의 경우에는 “Hi, 구글” 또는 “Hello, 구글” 애플사의 경우는 “Hi, 쉬리, 또는 Hello 쉬리”로 먼저 말해야 음성인식AI가 호출되도록 강제하고 있고, 또한, 출고 시 기본OS로 설정되어 사용자가 임의로 삭제 또는 교체할 수 없도록 규제화되고 있는 실정이다.There is a clear difference between the human voice and the various guitar sound patterns (music sounds, noises, object sounds, animal sounds, etc.) The released AI speech recognition program is relatively easy to separate, and it has been confirmed that the recognition rate for short words of less than 2 seconds is at a considerable level. As a trend to utilize, in the case of smartphones, Google's Android and Apple's IOS are set as the default OS and are sold. It is forced to use it after calling it first with a word, and it is also quite unnatural to constantly mention the brand name of the developer, that is, in the case of Google's Android voice recognition AI, "Hi, Google" or "Hello, In the case of Apple's Google, it is forced to call the voice recognition AI when it is first said "Hi, Shiri, or Hello Shiri", and it is also set as the default OS at the time of shipment and is regulated so that users cannot delete or replace it arbitrarily. am.

이에 본 발명은 이용자가 사전 호출 행위 및 대화형 명령이 아닌 짧은 단어뿐만 아니라, 단어들 간이 연계된 장문으로도 완벽하게 명령어를 수집하여 명령어를 실행시키는 음성인식 기반의 AI 에이전트 프로그램을 실행하는 단말장치를 제공하고자 한다.Accordingly, the present invention is a terminal device for executing a voice recognition-based AI agent program in which the user perfectly collects commands and executes commands not only with short words, but also with long sentences linked between words, rather than prior call actions and interactive commands. would like to provide

공개특허공보 제10-2020-0060331호Unexamined Patent Publication No. 10-2020-0060331

본 발명이 해결하고자 하는 과제는 종래의 문제점을 해결할 수 있는 음성인식 기반의 AI 에이전트 프로그램을 실행하는 단말장치를 제공하는 데 그 목적이 있다.An object of the present invention is to provide a terminal device that executes a voice recognition-based AI agent program that can solve the problems of the prior art.

상기 과제를 해결하기 위한 본 발명의 일 실시예에 따른 음성인식 기반의 AI 에이전트 프로그램을 실행하는 단말장치는 주파수 밴드필터를 이용하여 입력된 음성정보의 음성주파수를 필터링한 후, 기 설정된 음성주파수와의 동일성을 판단하는 음성 매칭부; 상기 음성정보를 문자열로 변환하는 음성-문자 변환부; 온라인 상품주문, 긴급구조요청, 웹 검색 중 적어도 하나 이상과 관련된 명령어를 설정하는 명령어 설정부; 상기 음성-문자변환부에서 변환된 문자열 내에서 상기 명령어 설정부에 설정된 명령어와 동일한 명령어를 추출하는 명령어 추출부; 및 상기 명령어 추출부에서 추출된 명령어를 검색명령어 및 실행명령어로 분리한 후, 상기 실행명령어와 연관된 URL에 접속한 후, 상기 검색명령어에 상응하는 정보를 검색 및 실행하는 것을 특징으로 한다.A terminal device for executing an AI agent program based on voice recognition according to an embodiment of the present invention for solving the above problem filters the voice frequency of the input voice information using a frequency band filter, and then includes a preset voice frequency and a voice matching unit that determines the identity of ; a voice-text converter converting the voice information into a character string; a command setting unit for setting commands related to at least one of an online product order, an emergency rescue request, and a web search; a command extraction unit for extracting the same command as the command set in the command setting unit within the character string converted by the voice-text conversion unit; and after separating the command extracted by the command extraction unit into a search command and an execution command, accessing a URL associated with the execution command, and searching and executing information corresponding to the search command.

상기 과제를 해결하기 위한 본 발명의 일 실시예에 따른 음성인식 기반의 AI 에이전트 프로그램을 실행하는 단말장치의 동작방법은 음성 매칭부에서 주파수 밴드필터를 이용하여 입력된 음성정보의 음성주파수를 필터링한 후, 기 설정된 음성주파수와의 동일성을 판단하는 단계; 음성-문자 변환부에서 상기 음성정보를 문자열로 변환하는 단계; 명령어 설정부에서 온라인 상품주문, 긴급구조요청, 웹 검색 중 적어도 하나 이상과 관련된 명령어를 설정하는 단계; 명령어 추출부에서 변환된 문자열 내에서 상기 명령어 설정부에 설정된 명령어와 동일한 명령어를 추출하는 단계; 및 AI 에이전트부에서 상기 명령어 추출부에서 추출된 명령어를 검색명령어 및 실행명령어로 분리한 후, 상기 실행명령어와 연관된 URL에 접속한 후, 상기 검색명령어에 상응하는 정보를 검색 및 실행하는 단계를 포함한다.In order to solve the above problems, the method of operating a terminal device for executing an AI agent program based on voice recognition according to an embodiment of the present invention is to filter the voice frequency of the input voice information using a frequency band filter in the voice matching unit. thereafter, determining the sameness with a preset voice frequency; converting the voice information into a character string in a voice-text converter; setting a command related to at least one of an online product order, an emergency rescue request, and a web search in the command setting unit; extracting the same command as the command set in the command setting unit from the string converted by the command extraction unit; and after separating the command extracted from the command extraction unit into a search command and an execution command in the AI agent unit, accessing the URL associated with the execution command, and searching for and executing information corresponding to the search command do.

본 발명의 일 실시예에 따른 음성인식 기반의 AI 에이전트 프로그램을 실행하는 단말장치를 이용하면, 사용자는 자신만의 명령어를 설정한 후, 웹 서치, 긴급구조, 쇼핑/구매주문/결제를 손쉽게 처리할 수 있다는 이점이 있다.Using a terminal device executing a voice recognition-based AI agent program according to an embodiment of the present invention, the user sets his or her own command and then easily processes web search, emergency rescue, shopping/purchase order/payment There are advantages to being able to

도 1 및 도 2는 본 발명의 일 실시예에 따른 음성인식 기반의 AI 에이전트 프로그램을 실행하는 단말장치의 실행화면을 나타낸 도이다.
도 3은 본 발명의 일 실시예에 따른 음성인식 기반의 AI 에이전트 프로그램을 실행하는 단말장치의 세부구성을 나타낸 블록도이다.
도 4는 본 발명의 일 실시예에 따른 음성인식 기반의 AI 에이전트 프로그램을 실행하는 단말장치의 동작방법을 설명한 흐름도이다.
1 and 2 are diagrams illustrating an execution screen of a terminal device executing an AI agent program based on voice recognition according to an embodiment of the present invention.
3 is a block diagram illustrating a detailed configuration of a terminal device executing an AI agent program based on voice recognition according to an embodiment of the present invention.
4 is a flowchart illustrating a method of operating a terminal device for executing an AI agent program based on voice recognition according to an embodiment of the present invention.

본 발명에서 사용되는 기술적 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아님을 유의해야 한다. 또한, 본 발명에서 사용되는 기술적 용어는 본 발명에서 특별히 다른 의미로 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 의미로 해석되어야 하며, 과도하게 포괄적인 의미로 해석되거나, 과도하게 축소된 의미로 해석되지 않아야 한다. 또한, 본 발명에서 사용되는 기술적인 용어가 본 발명의 사상을 정확하게 표현하지 못하는 잘못된 기술적 용어일 때에는 당업자가 올바르게 이해할 수 있는 기술적 용어로 대체되어 이해되어야 할 것이다. 또한, 본 발명에서 사용되는 일반적인 용어는 사전에 정의되어 있는 바에 따라, 또는 전후 문맥상에 따라 해석되어야 하며, 과도하게 축소된 의미로 해석되지 않아야 한다.It should be noted that the technical terms used in the present invention are only used to describe specific embodiments, and are not intended to limit the present invention. In addition, the technical terms used in the present invention should be interpreted as meanings generally understood by those of ordinary skill in the art to which the present invention belongs, unless otherwise specifically defined in the present invention, and excessively comprehensive It should not be construed in the meaning of a human being or in an excessively reduced meaning. In addition, when the technical term used in the present invention is an incorrect technical term that does not accurately express the spirit of the present invention, it should be understood by being replaced with a technical term that can be correctly understood by those skilled in the art. In addition, the general terms used in the present invention should be interpreted according to the definition in the dictionary or according to the context before and after, and should not be interpreted in an excessively reduced meaning.

또한, 본 발명에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함한다. 본 발명에서 "구성된다" 또는 "포함한다" 등의 용어는 발명에 기재된 여러 구성 요소들 또는 여러 단계를 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.Also, the singular expression used in the present invention includes the plural expression unless the context clearly dictates otherwise. In the present invention, terms such as “consisting of” or “comprising” should not be construed as necessarily including all of the various components or various steps described in the invention, and some components or some steps may not be included. It should be construed that it may further include additional components or steps.

또한, 본 발명에서 사용되는 제 1, 제 2 등과 같이 서수를 포함하는 용어는 구성 요소들을 설명하는데 사용될 수 있지만, 구성 요소들은 용어들에 의해 한정되어서는 안 된다. 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제 1 구성 요소는 제 2 구성 요소로 명명될 수 있고, 유사하게 제 2 구성 요소도 제 1 구성 요소로 명명될 수 있다.Also, terms including ordinal numbers such as first, second, etc. used in the present invention may be used to describe the elements, but the elements should not be limited by the terms. The terms are used only for the purpose of distinguishing one component from another. For example, without departing from the scope of the present invention, a first component may be referred to as a second component, and similarly, the second component may also be referred to as a first component.

이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성 요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.Hereinafter, a preferred embodiment according to the present invention will be described in detail with reference to the accompanying drawings, but the same or similar components are assigned the same reference numerals regardless of reference numerals, and redundant description thereof will be omitted.

또한, 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 발명의 사상을 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 발명의 사상이 제한되는 것으로 해석되어서는 아니 됨을 유의해야 한다.In addition, in the description of the present invention, if it is determined that a detailed description of a related known technology may obscure the gist of the present invention, the detailed description thereof will be omitted. In addition, it should be noted that the accompanying drawings are only for easy understanding of the spirit of the present invention, and should not be construed as limiting the spirit of the present invention by the accompanying drawings.

이하, 첨부된 도면을 참조하여 본 발명의 일 실시예에 따른 음성인식 기반의 AI 에이전트 프로그램을 실행하는 단말장치를 보다 상세하게 설명하도록 한다.Hereinafter, a terminal device executing the AI agent program based on voice recognition according to an embodiment of the present invention will be described in more detail with reference to the accompanying drawings.

도 1 및 도 2는 본 발명의 일 실시예에 따른 음성인식 기반의 AI 에이전트 프로그램을 실행하는 단말장치의 실행화면을 나타낸 도이고, 도 3은 본 발명의 일 실시예에 따른 음성인식 기반의 AI 에이전트 프로그램을 실행하는 단말장치의 세부구성을 나타낸 블록도이다.1 and 2 are diagrams illustrating an execution screen of a terminal device executing a voice recognition-based AI agent program according to an embodiment of the present invention, and FIG. 3 is a voice recognition-based AI according to an embodiment of the present invention. It is a block diagram showing the detailed configuration of a terminal device that executes an agent program.

도 1 내지 도 3에 도시한 바와 같이, 음성인식 기반의 AI 에이전트 프로그램을 실행하는 단말장치(100)는 입력부(101), 통신부(110), 저장부(120), 표시부(130), 음성 출력부(140) 및 제어부(150)로 구성된다. 1 to 3 , the terminal device 100 executing the AI agent program based on voice recognition includes an input unit 101 , a communication unit 110 , a storage unit 120 , a display unit 130 , and a voice output unit. It is composed of a unit 140 and a control unit 150 .

도 1에 도시된 음성인식 기반의 AI 에이전트 프로그램을 실행하는 단말장치(100)의 구성 요소 모두가 필수 구성 요소인 것은 아니며, 도 1에 도시된 구성 요소보다 많은 구성 요소에 의해 음성인식 기반의 AI 에이전트 프로그램을 실행하는 단말장치(100)가 구현될 수도 있고, 그보다 적은 구성 요소에 의해서도 음성인식 기반의 AI 에이전트 프로그램을 실행하는 단말장치(100)가 구현될 수도 있다.Not all of the components of the terminal device 100 for executing the voice recognition-based AI agent program shown in FIG. 1 are essential components, and voice recognition-based AI has more components than those shown in FIG. The terminal device 100 for executing the agent program may be implemented, and the terminal device 100 for executing the AI agent program based on voice recognition may be implemented with fewer components.

상기 음성인식 기반의 AI 에이전트 프로그램을 실행하는 단말장치(100)는 스마트폰(Smart Phone), 휴대 단말기(Portable Terminal), 이동 단말기(Mobile Terminal), 폴더블 단말기(Foldable Terminal), 개인 정보 단말기(Personal Digital Assistant: PDA), PMP(Portable Multimedia Player) 단말기, 텔레매틱스(Telematics) 단말기, 내비게이션(Navigation) 단말기, 개인용 컴퓨터(Personal Computer), 노트북 컴퓨터, 슬레이트 PC(Slate PC), 태블릿 PC(Tablet PC), 울트라북(ultrabook), 웨어러블 디바이스(Wearable Device, 예를 들어, 워치형 단말기(Smartwatch), 글래스형 단말기(Smart Glass), HMD(Head Mounted Display) 등 포함), 와이브로(Wibro) 단말기, IPTV(Internet Protocol Television) 단말기, 스마트 TV, 디지털방송용 단말기, AVN(Audio Video Navigation) 단말기, A/V(Audio/Video) 시스템, 플렉시블 단말기(Flexible Terminal), 디지털 사이니지 장치 등과 같은 다양한 단말기에 적용될 수 있다.The terminal device 100 for executing the voice recognition-based AI agent program is a smart phone, a portable terminal, a mobile terminal, a foldable terminal, a personal information terminal ( Personal Digital Assistant: PDA, PMP (Portable Multimedia Player) Terminal, Telematics Terminal, Navigation Terminal, Personal Computer, Notebook Computer, Slate PC, Tablet PC , ultrabook, wearable device (including, for example, watch-type terminal (Smartwatch), glass-type terminal (Smart Glass), HMD (Head Mounted Display), etc.), Wibro (Wibro) terminal, IPTV ( It can be applied to various terminals such as Internet Protocol Television) terminals, smart TVs, digital broadcasting terminals, AVN (Audio Video Navigation) terminals, A/V (Audio/Video) systems, flexible terminals, digital signage devices, etc. .

상기 입력부(101)는 오디오 신호 입력을 위한 마이크로폰(microphone)을 포함할 수 있다. 마이크로폰은 외부의 음향 신호를 전기적인 음성 데이터로 처리한다. 처리된 음성 데이터는 제어부에서 처리수행 중인 기능(또는 실행중인 응용 프로그램)에 따라 다양하게 활용될 수 있다. 한편, 마이크로폰에는 외부의 음향 신호를 입력 받는 과정에서 발생되는 잡음(noise)을 제거하기 위한 다양한 잡음 제거 알고리즘이 구현될 수 있다.The input unit 101 may include a microphone for inputting an audio signal. The microphone processes external sound signals into electrical voice data. The processed voice data may be variously utilized according to a function being processed by the control unit (or an application program being executed). Meanwhile, various noise removal algorithms for removing noise generated in the process of receiving an external sound signal may be implemented in the microphone.

상기 통신부(110)는 유/무선 통신망을 통해 내부의 임의의 구성 요소 또는 외부의 임의의 적어도 하나의 단말기와 통신 연결한다. 이때, 상기 외부의 임의의 단말기는 서버(미도시), 다른 단말(미도시) 등을 포함할 수 있다. 여기서, 무선 인터넷 기술로는 무선랜(Wireless LAN: WLAN), DLNA(Digital Living Network Alliance), 와이브로(Wireless Broadband: Wibro), 와이맥스(World Interoperability for Microwave Access: Wimax), HSDPA(High Speed Downlink Packet Access), HSUPA(High Speed Uplink Packet Access), IEEE 802.16, 롱 텀 에볼루션(Long Term Evolution: LTE), LTE-A(Long Term Evolution-Advanced), 광대역 무선 이동 통신 서비스(Wireless Mobile Broadband Service: WMBS) 등이 있으며, 상기 통신부(110)는 상기에서 나열되지 않은 인터넷 기술까지 포함한 범위에서 적어도 하나의 무선 인터넷 기술에 따라 데이터를 송수신하게 된다. 또한, 근거리 통신 기술로는 블루투스(Bluetooth), RFID(Radio Frequency Identification), 적외선 통신(Infrared Data Association: IrDA), UWB(Ultra Wideband), 지그비(ZigBee), 인접 자장 통신(Near Field Communication: NFC), 초음파 통신(Ultra Sound Communication: USC), 가시광 통신(Visible Light Communication: VLC), 와이 파이(Wi-Fi), 와이 파이 다이렉트(Wi-Fi Direct) 등이 포함될 수 있다. 또한, 유선 통신 기술로는 전력선 통신(Power Line Communication: PLC), USB 통신, 이더넷(Ethernet), 시리얼 통신(serial communication), 광/동축 케이블 등이 포함될 수 있다.The communication unit 110 communicates with any internal component or at least one external terminal through a wired/wireless communication network. In this case, the external arbitrary terminal may include a server (not shown), another terminal (not shown), and the like. Here, as wireless Internet technologies, wireless LAN (WLAN), DLNA (Digital Living Network Alliance), WiBro (Wireless Broadband: Wibro), Wimax (World Interoperability for Microwave Access: Wimax), HSDPA (High Speed Downlink Packet Access) ), High Speed Uplink Packet Access (HSUPA), IEEE 802.16, Long Term Evolution (LTE), Long Term Evolution-Advanced (LTE-A), Wireless Mobile Broadband Service (WMBS), etc. In this case, the communication unit 110 transmits and receives data according to at least one wireless Internet technology within a range including Internet technologies not listed above. In addition, short-range communication technologies include Bluetooth, Radio Frequency Identification (RFID), Infrared Data Association (IrDA), Ultra Wideband (UWB), ZigBee, and Near Field Communication (NFC). , Ultra Sound Communication (USC), Visible Light Communication (VLC), Wi-Fi (Wi-Fi), Wi-Fi Direct (Wi-Fi Direct), etc. may be included. In addition, the wired communication technology may include Power Line Communication (PLC), USB communication, Ethernet, serial communication, optical/coaxial cable, and the like.

또한, 상기 통신부(110)는 유니버설 시리얼 버스(Universal Serial Bus: USB)를 통해 임의의 단말과 정보를 상호 전송할 수 있다.Also, the communication unit 110 may mutually transmit information with an arbitrary terminal through a Universal Serial Bus (USB).

또한, 상기 통신부(110)는 이동통신을 위한 기술표준들 또는 통신방식(예를 들어, GSM(Global System for Mobile communication), CDMA(Code Division Multi Access), CDMA2000(Code Division Multi Access 2000), EV-DO(Enhanced Voice-Data Optimized or Enhanced Voice-Data Only), WCDMA(Wideband CDMA), HSDPA(High Speed Downlink Packet Access), HSUPA(High Speed Uplink Packet Access), LTE(Long Term Evolution), LTE-A(Long Term Evolution-Advanced) 등)에 따라 구축된 이동 통신망 상에서 기지국, 상기 서버, 상기 다른 단말 등과 무선 신호를 송수신한다.In addition, the communication unit 110 is a technology standard or communication method for mobile communication (eg, GSM (Global System for Mobile communication), CDMA (Code Division Multi Access), CDMA2000 (Code Division Multi Access 2000), EV -Enhanced Voice-Data Optimized or Enhanced Voice-Data Only (DO), Wideband CDMA (WCDMA), High Speed Downlink Packet Access (HSDPA), High Speed Uplink Packet Access (HSUPA), Long Term Evolution (LTE), LTE-A (Long Term Evolution-Advanced, etc.) transmits and receives radio signals to and from the base station, the server, and the other terminal on a mobile communication network constructed according to the same.

또한, 상기 통신부(110)는 상기 제어부(150)의 제어에 의해 유/무선 통신 연결되는 서버로부터 제공되는 인공지능 기반의 음성검색 및 음성주문 프로그램 앱, 해당 앱과 관련한 데이터 등을 수신한다.In addition, the communication unit 110 receives an artificial intelligence-based voice search and voice order program app, data related to the app, and the like, provided from a server connected to wired/wireless communication under the control of the control unit 150 .

상기 저장부(120)는 다양한 사용자 인터페이스(User Interface: UI), 그래픽 사용자 인터페이스(Graphic User Interface: GUI) 등을 저장한다.The storage unit 120 stores various user interfaces (UIs), graphic user interfaces (GUIs), and the like.

또한, 상기 저장부(120)는 상기 음성인식 기반의 AI 에이전트 프로그램을 실행하는 단말장치(100)가 동작하는데 필요한 데이터와 프로그램 등을 저장한다.In addition, the storage unit 120 stores data and programs necessary for the terminal device 100 to run the voice recognition-based AI agent program.

즉, 상기 저장부(120)는 상기 음성인식 기반의 AI 에이전트 프로그램을 실행하는 단말장치(100)에서 구동되는 다수의 응용 프로그램(application program 또는 애플리케이션(application)), 음성인식 기반의 AI 에이전트 프로그램을 실행하는 단말장치(100)의 동작을 위한 데이터들, 명령어들을 저장할 수 있다. 이러한 응용 프로그램 중 적어도 일부는 무선 통신을 통해 외부 서버로부터 다운로드 될 수 있다. 또한, 이러한 응용 프로그램 중 적어도 일부는 음성인식 기반의 AI 에이전트 프로그램을 실행하는 단말장치(100)의 기본적인 기능을 위하여 출고 당시부터 음성인식 기반의 AI 에이전트 프로그램을 실행하는 단말장치(100)상에 존재할 수 있다. 한편, 응용 프로그램은 상기 저장부(120)에 저장되고, 음성인식 기반의 AI 에이전트 프로그램을 실행하는 단말장치(100)에 설치되어, 제어부(150)에 의하여 상기 음성인식 기반의 AI 에이전트 프로그램을 실행하는 단말장치(100)의 동작(또는 기능)을 수행하도록 구동될 수 있다.That is, the storage unit 120 stores a plurality of applications (application programs or applications) driven in the terminal device 100 that executes the voice recognition-based AI agent program, a voice recognition-based AI agent program. It is possible to store data and commands for the operation of the terminal device 100 to be executed. At least some of these applications may be downloaded from an external server through wireless communication. In addition, at least some of these application programs exist on the terminal device 100 executing the voice recognition-based AI agent program from the time of shipment for the basic function of the terminal device 100 executing the voice recognition-based AI agent program. can On the other hand, the application program is stored in the storage unit 120, installed in the terminal device 100 that executes the voice recognition-based AI agent program, and executes the voice recognition-based AI agent program by the control unit 150 may be driven to perform an operation (or function) of the terminal device 100 .

또한, 상기 저장부(120)는 플래시 메모리 타입(Flash Memory Type), 하드 디스크 타입(Hard Disk Type), 멀티미디어 카드 마이크로 타입(Multimedia Card Micro Type), 카드 타입의 메모리(예를 들면, SD 또는 XD 메모리 등), 자기 메모리, 자기 디스크, 광디스크, 램(Random Access Memory: RAM), SRAM(Static Random Access Memory), 롬(Read-Only Memory: ROM), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory) 중 적어도 하나의 저장매체를 포함할 수 있다. 또한, 음성인식 기반의 AI 에이전트 프로그램을 실행하는 단말장치(100)는 인터넷(internet)상에서 저장부(120)의 저장 기능을 수행하는 웹 스토리지(web storage)를 운영하거나, 또는 상기 웹 스토리지와 관련되어 동작할 수도 있다.In addition, the storage unit 120 is a flash memory type (Flash Memory Type), a hard disk type (Hard Disk Type), a multimedia card micro type (Multimedia Card Micro Type), a card type memory (eg, SD or XD) memory, etc.), magnetic memory, magnetic disk, optical disk, RAM (Random Access Memory: RAM), SRAM (Static Random Access Memory), ROM (Read-Only Memory: ROM), EEPROM (Electrically Erasable Programmable Read-Only Memory), It may include at least one storage medium among Programmable Read-Only Memory (PROM). In addition, the terminal device 100 executing the voice recognition-based AI agent program operates a web storage that performs a storage function of the storage unit 120 on the Internet, or related to the web storage and may work.

또한, 상기 저장부(120)는 상기 제어부(150)의 제어에 의해 상기 수신된 단어 학습 앱(프로그램), 해당 앱(프로그램)과 관련한 데이터 등을 저장한다.In addition, the storage unit 120 stores the received word learning app (program) and data related to the corresponding app (program) under the control of the controller 150 .

상기 표시부(또는 디스플레이부)(130)는 상기 제어부(150)의 제어에 의해 상기 저장부(120) 및 제어부(150)에 저장된 사용자 인터페이스 및/또는 그래픽 사용자 인터페이스를 이용하여 다양한 메뉴 화면 등과 같은 다양한 콘텐츠를 표시할 수 있다. The display unit (or display unit) 130 uses a user interface and/or a graphic user interface stored in the storage unit 120 and the control unit 150 under the control of the control unit 150 to display a variety of menu screens, etc. content can be displayed.

여기서, 상기 표시부(130)에 표시되는 콘텐츠는 다양한 텍스트 또는 이미지 데이터(각종 정보 데이터 포함)와 아이콘, 리스트 메뉴, 콤보 박스 등의 데이터를 포함하는 메뉴 화면 등을 포함한다. 또한, 상기 표시부(130)는 터치 스크린 일 수 있다.Here, the content displayed on the display unit 130 includes various text or image data (including various information data) and a menu screen including data such as icons, list menus, and combo boxes. Also, the display unit 130 may be a touch screen.

또한, 상기 표시부(130)는 액정 디스플레이(Liquid Crystal Display: LCD), 박막 트랜지스터 액정 디스플레이(Thin Film Transistor-Liquid Crystal Display: TFT LCD), 유기 발광 다이오드(Organic Light-Emitting Diode: OLED), 플렉시블 디스플레이(Flexible Display), 3차원 디스플레이(3D Display), 전자잉크 디스플레이(e-ink display), LED(Light Emitting Diode) 중에서 적어도 하나를 포함할 수 있다.In addition, the display unit 130 includes a liquid crystal display (LCD), a thin film transistor liquid crystal display (TFT LCD), an organic light-emitting diode (OLED), and a flexible display. (Flexible Display), a three-dimensional display (3D Display), an e-ink display (e-ink display), may include at least one of LED (Light Emitting Diode).

또한, 상기 표시부(130)는 상기 제어부(150)의 제어에 의해 영어 단어 암기 앱 실행 결과 화면 등을 표시한다.In addition, the display unit 130 displays a screen of the execution result of the English word memorization app under the control of the control unit 150 .

상기 음성 출력부(140)는 상기 제어부(150)에 의해 소정 신호 처리된 신호에 포함된 음성 정보를 출력한다. 여기서, 상기 음성 출력부(140)에는 리시버(receiver), 스피커(speaker), 버저(buzzer) 등이 포함될 수 있다.The audio output unit 140 outputs audio information included in a signal processed by the control unit 150 . Here, the audio output unit 140 may include a receiver, a speaker, a buzzer, and the like.

또한, 상기 음성 출력부(140)는 상기 제어부(150)에 의해 생성된 안내 음성을 출력한다.In addition, the voice output unit 140 outputs a guide voice generated by the control unit 150 .

또한, 상기 음성 출력부(140)는 상기 제어부(150)에 의해 상기 단어학습 앱 실행 결과 화면에 대응하는 음성 정보(또는 음향 효과)를 출력한다.In addition, the voice output unit 140 outputs voice information (or sound effects) corresponding to the execution result screen of the word learning app by the control unit 150 .

상기 제어부(controller, 또는 MCU(microcontroller unit)(150)는 상기 음성인식 기반의 AI 에이전트 프로그램을 실행하는 단말장치(100)의 전반적인 제어 기능을 실행한다.The controller (or microcontroller unit) 150 executes the overall control function of the terminal device 100 for executing the AI agent program based on the voice recognition.

또한, 상기 제어부(150)는 상기 저장부(120)에 저장된 프로그램 및 데이터를 이용하여 음성인식 기반의 AI 에이전트 프로그램을 실행하는 단말장치(100)의 전반적인 제어 기능을 실행한다. 상기 제어부(150)는 RAM, ROM, CPU, GPU, 버스를 포함할 수 있으며, RAM, ROM, CPU, GPU 등은 버스를 통해 서로 연결될 수 있다. CPU는 상기 저장부(120)에 액세스하여, 상기 저장부(120)에 저장된 O/S를 이용하여 부팅을 수행할 수 있으며, 상기 저장부(120)에 저장된 각종 프로그램, 콘텐츠, 데이터 등을 이용하여 다양한 동작을 수행할 수 있다.In addition, the control unit 150 executes the overall control function of the terminal device 100 for executing the AI agent program based on voice recognition using the program and data stored in the storage unit 120 . The controller 150 may include RAM, ROM, CPU, GPU, and a bus, and the RAM, ROM, CPU, GPU, etc. may be connected to each other through a bus. The CPU may access the storage unit 120 to perform booting using the O/S stored in the storage unit 120 , and use various programs, contents, data, etc. stored in the storage unit 120 . Thus, various operations can be performed.

또한, 상기 제어부(150)는 상기 서버로부터 제공되는 인공지능 기반의 음성검색 및 음성주문 프로그램(앱)을 실행하는 단말장치(100)에 설치한다. 이때, 상기 전용 앱은 인공지능 기반의 음성검색 및 음성주문 프로그램일 수 있다.In addition, the control unit 150 is installed in the terminal device 100 for executing the artificial intelligence-based voice search and voice order program (app) provided from the server. In this case, the dedicated app may be an artificial intelligence-based voice search and voice order program.

또한, 상기 음성인식 기반의 AI 에이전트 프로그램을 실행하는 단말장치(100)에 설치된 전용 앱(또는 애플리케이션)이 사용자의 (음성 또는 사용자 터치/입력)에 따라 선택(또는 터치/실행)되는 경우, 상기 제어부(150)는 해당 전용 앱을 실행하여, 앱 실행 결과 화면을 상기 표시부(130)에 표시한다.In addition, when the dedicated app (or application) installed in the terminal device 100 executing the voice recognition-based AI agent program is selected (or touched/executed) according to the user's (voice or user touch/input), the The controller 150 executes the dedicated app and displays the app execution result screen on the display unit 130 .

상기 제어부(150)는 음성 매칭부(151), 음성-문자 변환부(152), 명령어 설정부(153), 명령어 추출부(154) 및 AI 에이전트부(155)를 포함한다.The control unit 150 includes a voice matching unit 151 , a voice-text conversion unit 152 , a command setting unit 153 , a command extraction unit 154 , and an AI agent unit 155 .

상기 음성 매칭부(151)는 주파수 밴드필터를 이용하여 입력된 음성주파수를 필터링한 후, 기 설정된 음성주파수와의 동일성을 통해 사용자를 인식한 음성인식신호를 출력한다.The voice matching unit 151 filters the input voice frequency using a frequency band filter, and then outputs a voice recognition signal that recognizes a user through the sameness with a preset voice frequency.

상기 음성-문자 변환부(152)는 음성 매칭부(151)로부터 음성인식신호를 수신하면, 입력된 음성을 숫자 및 문자열로 변환하는 구성일 수 있다.The voice-text conversion unit 152 may be configured to convert the input voice into numbers and character strings when receiving a voice recognition signal from the voice matching unit 151 .

상기 명령어 설정부(153)는 주문, 웹 서치, 연락처 등과 같은 카테고리 내에 사용자가 이용하고자 하는 명령어를 매크로 형식으로 설정하는 기능을 한다.The command setting unit 153 functions to set a command that the user wants to use in a category such as order, web search, contact, etc. in a macro format.

한편, 상기 명령어 설정부(153)에서 설정된 매크로 형식의 명령어는 검색 매크로 및 실행 매크로로 분류될 수 있고, 실행 매크로의 경우, URL 주소가 동반설정될 수 있다.Meanwhile, the macro-type command set in the command setting unit 153 may be classified into a search macro and an execution macro, and in the case of an execution macro, a URL address may be set together.

상기 명령어 설정부(153)는 실행 매크로로 인지된 명령어가 설정될 경우, 자동으로 해당 명령어와 연관된 URL 주소가 자동으로 표기되어 설정될 수 있다. 또한, 상기 명령어 설정부(153)는 명령어들이 조합된 단문 및 복문으로 구성된 탬플릿으로 저장할 수도 있다.When a command recognized as an execution macro is set, the command setting unit 153 may automatically mark and set a URL address associated with the command. Also, the command setting unit 153 may store the command as a template composed of a combination of short and complex sentences.

다음으로, 상기 명령어 추출부(154)는 음성-문자 변환부(152)에서 변환된 숫자 및 문자열 내에서 상기 명령어 설정부에 설정된 명령어와 동일한 명령어를 추출하는 기능을 한다.Next, the command extraction unit 154 functions to extract the same command as the command set in the command setting unit from within the numbers and character strings converted by the voice-text conversion unit 152 .

상기 명령어 추출부(154)는 명령어 설정부(153)에 설정된 매크로 기능에 따라 기설정된 전사 데이터의 문장 템플릿을 호출할 수 있다. 이때, 문장 템플릿 형식은 어느 하나로 한정되지 않는다. 문장 템플릿 형식은 단문장 형식뿐 아니라 복수의 문장을 포함하는 형식으로 구현되는 것도 가능하다. The command extracting unit 154 may call a sentence template of preset transcription data according to the macro function set in the command setting unit 153 . In this case, the sentence template format is not limited to any one. The sentence template format may be implemented not only in a short sentence format but also in a format including a plurality of sentences.

예를 들어 "1번 템플릿 호출", "1번 템플릿 불러와"와 같은 음성 데이터가 입력되면 저장된 템플릿 리스트에서 1번 템플릿으로 지정된 템플릿 문장을 불러올 수 있다. For example, when voice data such as "call template no. 1" or "call template no. 1" is input, a template sentence designated as template No. 1 can be called from the saved template list.

따라서, 명령어 설정부(153)에 기록된 내용을 불러들이는 방법으로 템플릿을 호출할 수도 있다. 즉 다양하고, 업데이트 가능한 템플릿 형태를 이용할 수 있다. Accordingly, the template may be called by a method of retrieving the contents recorded in the command setting unit 153 . That is, various and updatable template types can be used.

이때 템플릿의 구분은 일련 번호로 구분하거나, 상황별 키워드로 구분하도록 구현될 수도 있다. 템플릿 구분을 위한 식별 정보 즉, 일련번호나 상황별 키워드는 사용자에 의해 미리 설정된 것일 수 있다. In this case, the template may be classified by serial number or by contextual keyword. Identification information for template classification, ie, a serial number or a keyword for each situation, may be preset by the user.

가령, 명령어 설정부(153)의 주문 카테고리 내에 '요기요', '앱', '맛집', '짜장면', '검색'이라는 용어가 설정된 상태에서, 사용자가 “요기요에서 짜장면 맛집 검색해” 라고 음성을 입력될 경우, 명령어 추출부(154)는 '요기요', '앱', '맛집', '짜장면', '검색'이라는 용어를 추출한다.For example, in the state in which the terms 'yogiyo', 'app', 'restaurant', 'jajangmyeon', and 'search' are set in the order category of the command setting unit 153, the user says "Search for a jjajangmyeon restaurant in Yogiyo" When a voice is input, the command extraction unit 154 extracts terms such as 'yogiyo', 'app', 'restaurant', 'jajangmyeon', and 'search'.

다음으로, AI 에이전트부(155)는 명령어 추출부(153)에서 추출된 명령어 중 검색명령어 및 실행명령어를 분리한 후, 실행명령어와 연관된 URL에 접속한 후, 검색명령어에 상응하는 정보를 검색하는 기능을 한다.Next, the AI agent unit 155 separates the search command and the execution command among the commands extracted from the command extraction unit 153, accesses the URL associated with the execution command, and searches for information corresponding to the search command. function.

상기 AI 에이전트부(155)는 챗봇 기능을 구비할 수 있고, 명령어에 따른 실행 및 검색 결과 후, 사용자에게 결과정보를 음성 서비스를 지원할 수 있다.The AI agent unit 155 may have a chatbot function, and may support a voice service by providing result information to the user after execution and search results according to commands.

또한, 상기 AI 에이전트부(155)는 사용자의 음성정보가 명령어 설정부(153) 내에 설정된 정보와 매칭되지 않을 경우, 가장 유사한 명령어를 사용자에게 제시할 수 있다.In addition, when the user's voice information does not match the information set in the command setting unit 153 , the AI agent unit 155 may present the most similar command to the user.

또한, 상기 AI 에이전트부(155)는 외부서버로부터 대중들이 자주사용하는 명령어(검색 및 실행)를 제공받아 명령어 설정부(153)에서 자동설정되도록 지원하는 기능을 포함할 수 있다.In addition, the AI agent unit 155 may include a function to receive commands (search and execution) frequently used by the public from an external server and to support automatic setting in the command setting unit 153 .

또한, AI 에이전트부(155)는 양방향 대화가 가능한 챗봇 서비스를 지원할 수 있다.In addition, the AI agent unit 155 may support a chatbot service capable of interactive conversation.

챗봇에 대해서는 다양한 유사 용어가 존재하므로, 본 발명의 일 실시예에 따른 챗봇은, 지능형 가상비서, 가상 개인비서(Virtual Personal Assistant), 지능형 개인비서(Intelligent Personal Assistant), 대화형 에이전트(conversational agent), 가상 동반자(virtual companion), 가상도우미(virtual assistant) 등과 같은 용어로 이용되더라도 본 발명의 챗봇의 범위에 포함될 수 있다. Since various similar terms exist for a chatbot, the chatbot according to an embodiment of the present invention includes an intelligent virtual assistant, a virtual personal assistant, an intelligent personal assistant, and a conversational agent. , virtual companion (virtual companion), virtual assistant (virtual assistant), etc. may be included in the scope of the chatbot of the present invention even if used as terms.

그리고, 챗봇은 채팅을 나누는 챗앱, 채팅 내용에 따라 정보를 검색하고 서비스를 제공하는 서버, 챗앱과 서버를 중계하는 봇API로 구성될 수 있고, 인공지능 분야의 강화학습 알고리즘을 통한 자연어 처리(NLP)와 자연어 생성(NLG)의 기능을 수행할 수 있다. 챗봇은, 인간이 하는 말과 글을 이해하고 자기가 갖고 있거나 학습한 데이터를 분석해서 인간이 이해할 수 있는 말과 글로 대답할 수 있는데, 이를 위해서는 도형, 문자, 음성 등의 패턴을 인식하여 인간이 쓰는 언어를 처리할 수 있으며, 논리적 추론까지 가능할 수 있다. 또한, 챗봇은, 사용자가 요구하는 정보를 비정형 데이터에서 찾아낼 수도 있고, 현실의 상황을 정보화하고 활용하는 지능화된 서비스를 제공할 수도 있다.In addition, the chatbot can be composed of a chat app that shares chatting, a server that searches for information and provides services according to the chat content, and a bot API that relays the chat app and server, and uses natural language processing (NLP) through reinforcement learning algorithms in the artificial intelligence field. ) and natural language generation (NLG). A chatbot can understand human speech and text and analyze the data it possesses or learned to respond with speech and text that humans can understand. It can process the written language, and even logical reasoning is possible. In addition, the chatbot may find the information requested by the user from the unstructured data, and may provide an intelligent service that informatizes and utilizes the real situation.

이를 위해, 본 발명의 일 실시예에 따른 챗봇은, 기계가 도형, 문자, 음성 등을 식별하는 패턴 인식(Pattern Recognition), 인간이 보통 쓰는 언어를 기계가 인식하도록, 정보검색, 질의응답, 시스템 자동번역, 통역의 기능을 포함하는 자연어처리(Natural Language Processing), 정보 데이터의 뜻을 이해하고, 논리적 추론까지 할 수 있는 시멘틱 웹(Semantic Web), 비정형 텍스트 데이터에서 새롭고 유용한 정보를 찾아내는 텍스트 마이닝(Text Mining), 가상공간에서 현실의 상황을 정보화하고, 이를 활용하여 사용자 중심의 지능화된 서비스를 제공하는 상황인식컴퓨팅(Text Aware Computing)의 기능을 수행할 수 있다.To this end, the chatbot according to an embodiment of the present invention provides a pattern recognition (Pattern Recognition) in which a machine identifies a figure, a text, a voice, etc., an information search, a question answering system, and a system so that the machine recognizes a language commonly used by humans. Natural Language Processing with automatic translation and interpretation functions, Semantic Web that understands the meaning of information data and even logical reasoning, Text Mining that finds new and useful information from unstructured text data ( Text Mining), it is possible to perform the function of context-aware computing (Text Aware Computing) that informatizes the real situation in virtual space and provides a user-centered intelligent service by using it.

이때, 본 발명의 일 실시예는, 챗봇에 캐릭터를 부여, 즉 정체성을 심어주어 다양한 성격을 가지도록 학습시킬 수도 있다. 챗봇에 정체성을 심어주었을 경우 사람으로 인식하는 확률이 높아진다는 것은 다양한 연구들을 통해 밝혀져 있다. 사람이 로봇에게 성격을 부여하는 것은 로봇 사용자들이 로봇의 행동을 더욱 쉽게 이해할 수 있게 하고, 더욱 친근한 상호작용을 가능하게 해주기 때문에 도움이 되고 선호도가 더 높아질 수 있다.In this case, according to an embodiment of the present invention, a character may be given to the chatbot, that is, an identity may be planted to learn to have various personalities. It has been found through various studies that the probability of recognizing a chatbot as a person increases when an identity is implanted in the chatbot. Giving robots personalities by humans can help and increase their preferences as it makes it easier for robot users to understand the robot's behavior and allows for more friendly interactions.

성격 유형 분석 도구로 다양한 방법들이 존재하지만 본 발명의 일 실시예에서는 관찰이 어려운 개인의 기질과 같은 내면적 요소보다는 쉽게 드러나는 행동을 통해 유형을 구분할 수 있는 DISC모델을 사용할 수 있다. 왜냐하면, DISC모델은 구분이 단순해서 사용자들의 전체적인 선호도를 파악하기 쉬우므로 인공지능에 적합한 성격을 파악하는데 적절하기 때문이다. DISC 분석의 기준이 되는 두 가지 차원은 대상(일/사람)과 속도(느림/빠름)이다. 성격유형은 4가지로 주도형(D: Dominance), 사교형(I: Influences), 신중형(C: Conscientiousness), 안정형(S: Steadiness)으로 구분될 수 있다. 예를 들어, 주도형인 D형은 일 중심적 성향으로 빠른 결단과 추진력을 중요시한다. 사교형인 I형은 상대방에게 감화를 잘하고 적극적이며 재미있는 성격이다. C형은 신중형으로 말수가 적고 분석적이고 정확하다. S형은 안정형으로 여유 있으며 합리적인 성격이다. 이러한 성격 유형을 챗봇의 역할에 맞춰 가정해볼 수 있을 것이다. D형의 챗봇은 빠르고 정확한 일처리가 중요한 테스크 중심 챗봇에 적합할 수 있고 사교적인 I형은 심심할 때 말동무로 적절할 수 있을 것이고 신중한 C형 또는 안정적인 S형은 상담을 위한 챗봇으로 적절할 수 있다고 가정해볼 수 있다. 또한, 상술한 성격으로 정의가 되었다고 할지라도, 사용자의 취향 및 유형에 따른 선호도가 반영되어 변경적용될 수도 있다.Although various methods exist as a personality type analysis tool, in one embodiment of the present invention, a DISC model that can distinguish types through easily revealed behaviors rather than internal factors such as individual temperament, which is difficult to observe, can be used. This is because the DISC model is suitable for identifying characteristics suitable for artificial intelligence because it is easy to identify users' overall preferences due to simple classification. The two dimensions of the DISC analysis are subject (work/person) and speed (slow/fast). There are four personality types, which can be divided into four types: dominant (D: Dominance), sociable (I: Influences), conscientious (C: Conscientiousness), and stable (S: Steadiness). For example, type D, who is a leader, is task-oriented and places importance on quick decisions and driving force. Type I, the sociable type, is a good influencer, active, and fun personality. Type C is a prudent type, less talkative and analytical and precise. The S-type is a stable, relaxed and rational personality. We can assume that these personality types fit the role of the chatbot. Assume that Type D chatbots can be suitable for task-oriented chatbots where fast and accurate work is important, sociable Type I chatbots can be suitable as companions when bored, and prudent Type C or stable S types can be suitable as chatbots for consultation. can In addition, even if it is defined with the above characteristics, the preference according to the user's taste and type may be reflected and changed and applied.

또한, 본 발명의 일 실시예는, 대화형 에이전트를 사람처럼 느끼게 하는 인터랙션 설계인 의인화(anthropomorphism)를 더 포함할 수 있다. 이때, Computers Are Social Actors(CASA) 관련 연구들을 이용하여 긍정적인 사회적 반응을 끌어내 사람과 에이전트 간 상호작용의 질을 증진시킬 수도 있다.In addition, an embodiment of the present invention may further include anthropomorphism, which is an interaction design that makes the interactive agent feel like a human. In this case, it is possible to elicit a positive social response by using Computers Are Social Actors (CASA)-related studies to improve the quality of interaction between people and agents.

한편, 상기 AI 에이전트부(155)는 검색명령어 및 실행명령어를 기초로 웹 및 앱에 접속한 후, 주문 및 결제를 처리하는 기능을 지원할 수 있다.On the other hand, the AI agent unit 155 may support a function of processing an order and payment after accessing a web and an app based on a search command and an execution command.

상기 AI 에이전트부(155)는 검색명령어를 통해 접속한 웹 서버로부터 검색명령어에 해당하는 웹 페이지(검색 및 결제 페이지) 정보를 요청하여 제공받을 수 있고, 이를 명령어 설정부에 설정등록할 수 있다.The AI agent unit 155 may request and receive web page (search and payment page) information corresponding to the search command from the web server accessed through the search command, and may set and register it in the command setting unit.

또한, AI 에이전트부(155)는 실행명령어(주문/결제)를 기초로 검색 결제 페이지에 접속하여 자동으로 실행명령어를 입력하여 상품 주문 및 결제를 처리할 수 있다.In addition, the AI agent unit 155 may access the search payment page based on the execution command (order/payment) and automatically input the execution command to process the product order and payment.

도 4는 본 발명의 일 실시예에 따른 음성검색 및 음성주문 프로그램을 실행하는 단말장치의 동작방법을 설명한 흐름도이다.4 is a flowchart illustrating a method of operating a terminal device for executing a voice search and voice order program according to an embodiment of the present invention.

도 4를 참조하면, 본 발명의 일 실시예에 따른 음성검색 및 음성주문 프로그램을 실행하는 단말장치의 동작방법(S700)은 먼저, 음성 매칭부에서 주파수 밴드필터를 이용하여 입력된 음성정보의 음성주파수를 필터링한 후, 기 설정된 음성주파수와의 동일성을 판단(S710)하면, 음성-문자 변환부에서 상기 음성정보를 문자열로 변환(S720)한다.Referring to FIG. 4 , in the operation method ( S700 ) of a terminal device for executing a voice search and voice order program according to an embodiment of the present invention, first, the voice information of voice information inputted by the voice matching unit using a frequency band filter is voiced. After filtering the frequency, if it is determined that the frequency is identical to a preset voice frequency (S710), the voice-text converter converts the voice information into a character string (S720).

이후, 명령어 설정부에서 온라인 상품주문, 긴급구조요청, 웹 검색 중 적어도 하나 이상과 관련된 명령어를 설정(S730)하고, 명령어 추출부에서 변환된 문자열 내에서 상기 명령어 설정부에 설정된 명령어와 동일한 명령어를 추출(S740)하면, AI 에이전트부에서 상기 명령어 추출부에서 추출된 명령어를 검색명령어 및 실행명령어로 분리한 후, 상기 실행명령어와 연관된 URL에 접속한 후, 상기 검색명령어에 상응하는 정보를 검색 및 실행(S750)한다.Thereafter, a command related to at least one of online product order, emergency rescue request, and web search is set in the command setting unit (S730), and the same command as the command set in the command setting unit within the string converted by the command extraction unit is executed Upon extraction (S740), the AI agent unit separates the command extracted from the command extraction unit into a search command and an execution command, accesses the URL associated with the execution command, and searches for information corresponding to the search command and Execute (S750).

여기서, S730 과정은 명령어 설정부(153)가 주문, 웹 서치, 연락처 등과 같은 카테고리 내에 사용자가 이용하고자 하는 명령어를 매크로 형식으로 설정하는 과정을 포함할 수 있고, 상기 명령어 설정부(153)에서 설정된 매크로 형식의 명령어는 검색 매크로 및 실행 매크로로 분류될 수 있고, 실행 매크로의 경우, URL 주소가 동반설정될 수 있다.Here, the S730 process may include a process in which the command setting unit 153 sets a command that the user wants to use in a category such as order, web search, contact, etc. in a macro format, and is set by the command setting unit 153 A macro-type command may be classified into a search macro and an execution macro, and in the case of an execution macro, a URL address may be set together.

또한, 상기 S730 과정은 상기 명령어 설정부(153)에서 실행 매크로로 인지된 명령어가 설정될 경우, 자동으로 해당 명령어와 연관된 URL 주소가 자동으로 표기되어 설정되는 과정을 포함할 수 있고, 또한, 명령어들이 조합된 단문 및 복문으로 구성된 탬플릿으로 저장하는 과정을 더 포함할 수 있다.In addition, the process S730 may include a process in which, when a command recognized as an execution macro by the command setting unit 153 is set, a URL address associated with the command is automatically marked and set. It may further include the process of storing as a template composed of the combined short and complex sentences.

상기 S740 과정은 명령어 추출부(154)가 명령어 설정부(153)에 설정된 매크로 기능에 따라 기설정된 전사 데이터의 문장 템플릿을 호출하는 과정을 포함할 수 있고, 이때, 문장 템플릿 형식은 어느 하나로 한정되지 않는다. 문장 템플릿 형식은 단문장 형식뿐 아니라 복수의 문장을 포함하는 형식으로 구현되는 것도 가능하다. The process S740 may include a process in which the command extracting unit 154 calls a sentence template of the transcription data preset according to the macro function set in the command setting unit 153. In this case, the sentence template format is not limited to any one. does not The sentence template format may be implemented not only in a short sentence format but also in a format including a plurality of sentences.

예를 들어 "1번 템플릿 호출", "1번 템플릿 불러와"와 같은 음성 데이터가 입력되면 저장된 템플릿 리스트에서 1번 템플릿으로 지정된 템플릿 문장을 불러올 수 있다. For example, when voice data such as "call template no. 1" or "call template no. 1" is input, a template sentence designated as template No. 1 can be called from the saved template list.

따라서, 명령어 설정부(153)에 기록된 내용을 불러들이는 방법으로 템플릿을 호출할 수도 있다. 즉 다양하고, 업데이트 가능한 템플릿 형태를 이용할 수 있다. Accordingly, the template may be called by a method of retrieving the contents recorded in the command setting unit 153 . That is, various and updatable template types can be used.

이때 템플릿의 구분은 일련 번호로 구분하거나, 상황별 키워드로 구분하도록 구현될 수도 있다. 템플릿 구분을 위한 식별 정보 즉, 일련번호나 상황별 키워드는 사용자에 의해 미리 설정된 것일 수 있다. In this case, the template may be classified by serial number or by contextual keyword. Identification information for template classification, ie, a serial number or a keyword for each situation, may be preset by the user.

가령, 명령어 설정부(153)의 주문 카테고리 내에 '요기요', '앱', '맛집', '짜장면', '검색'이라는 용어가 설정된 상태에서, 사용자가 “요기요에서 짜장면 맛집 검색해” 라고 음성을 입력될 경우, 명령어 추출부(154)는 '요기요', '앱', '맛집', '짜장면', '검색'이라는 용어를 추출한다.For example, in the state in which the terms 'yogiyo', 'app', 'restaurant', 'jajangmyeon', and 'search' are set in the order category of the command setting unit 153, the user says "Search for a jjajangmyeon restaurant in Yogiyo" When a voice is input, the command extraction unit 154 extracts terms such as 'yogiyo', 'app', 'restaurant', 'jajangmyeon', and 'search'.

다음으로, 상기 S750 과정은 AI 에이전트부(155)가 명령어에 따른 실행 및 검색 결과 후, 사용자에게 결과정보를 음성 서비스를 지원하는 과정을 포함할 수 있다.Next, the process S750 may include a process in which the AI agent unit 155 supports the voice service by providing the result information to the user after the execution and search results according to the command.

또한, 사용자의 음성정보가 명령어 설정부(153) 내에 설정된 정보와 매칭되지 않을 경우, 가장 유사한 명령어를 사용자에게 제시하는 과정을 더 포함할 수 있다.In addition, when the user's voice information does not match the information set in the command setting unit 153, the method may further include a process of presenting the most similar command to the user.

또한, 외부서버로부터 대중들이 자주사용하는 명령어(검색 및 실행)를 제공받아 명령어 설정부(153)에서 자동설정되도록 지원하는 과정을 더 포함할 수 있다.In addition, the method may further include a process of receiving a command (search and execution) frequently used by the public from an external server and supporting the command setting unit 153 to automatically set the command.

따라서, 본 발명의 일 실시예에 따른 음성인식 기반의 AI 에이전트 프로그램을 실행하는 단말장치를 이용하면, 사용자는 자신만의 명령어를 설정한 후, 웹 서치, 긴급구조, 쇼핑/구매주문/결제를 손쉽게 처리할 수 있다는 이점이 있다.Therefore, when using the terminal device executing the voice recognition-based AI agent program according to an embodiment of the present invention, the user sets his or her own command, and then performs web search, emergency rescue, shopping/purchase order/payment It has the advantage of being easy to handle.

본 발명의 일 실시예에서 사용된 “~부”는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상“~ part” used in an embodiment of the present invention may be implemented as a hardware component, a software component, and/or a combination of a hardware component and a software component. For example, devices and components described in the embodiments may include, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable array (FPA), It may be implemented using one or more general purpose or special purpose computers, such as a programmable logic unit (PLU), microprocessor, or any other device capable of executing and responding to instructions. The processing unit includes an operating system (OS) and one or more running on the operating system.

의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.of software applications. A processing device may also access, store, manipulate, process, and generate data in response to execution of the software. For convenience of understanding, although one processing device is sometimes described as being used, one of ordinary skill in the art will recognize that the processing device includes a plurality of processing elements and/or a plurality of types of processing elements. It can be seen that can include For example, the processing device may include a plurality of processors or one processor and one controller. Other processing configurations are also possible, such as parallel processors.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다Software may comprise a computer program, code, instructions, or a combination of one or more thereof, which configures a processing device to operate as desired or is independently or collectively processed You can command the device. The software and/or data may be any kind of machine, component, physical device, virtual equipment, computer storage medium or device, to be interpreted by or to provide instructions or data to the processing device. , or may be permanently or temporarily embody in a transmitted signal wave. The software may be distributed over networked computer systems and stored or executed in a distributed manner. Software and data may be stored in one or more computer-readable recording media.

본 발명의 실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The method according to an embodiment of the present invention may be implemented in the form of program instructions that can be executed through various computer means and recorded in a computer-readable medium. The computer-readable medium may include program instructions, data files, data structures, etc. alone or in combination. The program instructions recorded on the medium may be specially designed and configured for the embodiment, or may be known and available to those skilled in the art of computer software. Examples of the computer-readable recording medium include magnetic media such as hard disks, floppy disks and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic media such as floppy disks. - includes magneto-optical media, and hardware devices specially configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like. Examples of program instructions include not only machine language codes such as those generated by a compiler, but also high-level language codes that can be executed by a computer using an interpreter or the like. The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.

전술된 내용은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.Those of ordinary skill in the art to which the present invention pertains may modify and modify the above-described contents without departing from the essential characteristics of the present invention. Accordingly, the embodiments disclosed in the present invention are not intended to limit the technical spirit of the present invention, but to explain, and the scope of the technical spirit of the present invention is not limited by these embodiments. The protection scope of the present invention should be construed by the following claims, and all technical ideas within the scope equivalent thereto should be construed as being included in the scope of the present invention.

100: 음성인식 프로그램을 실행하는 단말장치
100: 통신부
120: 저장부
130: 표시부
140: 음성 출력부
150: 제어부
151: 음성 매칭부
152: 음성-문자 변환부
153: 명령어 설정부
154: 명령어 추출부
155: AI 에이전트부
100: a terminal device for executing a voice recognition program
100: communication department
120: storage
130: display unit
140: audio output unit
150: control unit
151: voice matching unit
152: voice-text conversion unit
153: command setting unit
154: command extraction unit
155: AI agent unit

Claims (7)

주파수 밴드필터를 이용하여 입력된 음성정보의 음성주파수를 필터링한 후, 기 설정된 음성주파수와의 동일성을 판단하는 음성 매칭부;
상기 음성정보를 문자열로 변환하는 음성-문자 변환부;
온라인 상품주문, 긴급구조요청, 웹 검색 중 적어도 하나 이상과 관련된 명령어를 설정하는 명령어 설정부;
상기 음성-문자변환부에서 변환된 문자열 내에서 상기 명령어 설정부에 설정된 명령어와 동일한 명령어를 추출하는 명령어 추출부; 및
상기 명령어 추출부에서 추출된 명령어를 검색명령어 및 실행명령어로 분리한 후, 상기 실행명령어와 연관된 URL에 접속한 후, 상기 검색명령어에 상응하는 정보를 검색 및 실행하는 AI 에이전트부를 포함하는 음성인식 기반의 AI 에이전트 프로그램을 실행하는 단말장치.
a voice matching unit that filters the voice frequency of the input voice information using a frequency band filter and determines the sameness with a preset voice frequency;
a voice-text converter converting the voice information into a character string;
a command setting unit for setting commands related to at least one of an online product order, an emergency rescue request, and a web search;
a command extraction unit for extracting the same command as the command set in the command setting unit from the character string converted by the voice-text conversion unit; and
After separating the command extracted from the command extracting unit into a search command and an execution command, after accessing the URL associated with the execution command, the voice recognition base includes an AI agent unit that searches and executes information corresponding to the search command A terminal device that runs the AI agent program of
제1항에 있어서,
상기 명령어 설정부는 상기 검색명령어 및 실행명령어를 매크로 형식으로 기록 설정하고,
상기 실맹명령어의 매그로의 경우, URL 주소가 동반설정되는 것을 특징으로 하는 음성인식 기반의 AI 에이전트 프로그램을 실행하는 단말장치.
According to claim 1,
The command setting unit records and sets the search command and the execution command in a macro format,
In the case of the macro of the blind command, a terminal device for executing a voice recognition-based AI agent program, characterized in that the URL address is set together.
제1항에 있어서,
상기 명령어 설정부는
복수 개의 명령어들이 조합된 단문 및 복문으로 구성된 문장 템플릿을 설정하고,
상기 문장 템플릿은 일련번호 또는 상황별 키워드가 기록된 것을 특징으로 하는 음성검색 및 음성주문 프로그램을 실행하는 단말장치.
The method of claim 1,
The command setting unit
Set a sentence template consisting of a short sentence and a complex sentence in which a plurality of commands are combined,
The sentence template is a terminal device for executing a voice search and voice order program, characterized in that the serial number or keyword for each situation is recorded.
제3항에 있어서,
상기 명령어 추출부는
상기 음성-문자 변환부에서 변환된 문자열이 가장 많이 포함된 문장 템플릿을 호출하는 것을 특징으로 하는 음성검색 및 음성주문 프로그램을 실행하는 단말장치.
4. The method of claim 3,
The command extraction unit
A terminal device for executing a voice search and voice order program, characterized in that the voice-text conversion unit calls a sentence template containing the most converted character strings.
제2항에 있어서,
상기 AI 에이전트부는
상기 명령어 추출부에서 추출된 명령어 중 검색명령어 및 실행명령어를 분리한 후, 실행명령어와 연관된 URL에 접속한 후, 검색명령어 및 실행명령어에 상응하는 정보를 검색 및 실행하는 음성검색 및 음성주문 프로그램을 실행하는 단말장치.
3. The method of claim 2,
The AI agent unit
After separating the search command and the execution command among the commands extracted by the command extraction unit, after accessing the URL associated with the execution command, the voice search and voice order program for searching and executing information corresponding to the search command and the execution command running terminal device.
제4항에 있어서,
상기 AI 에이전트부는
상기 명령어에 따른 실행 및 검색 결과 후, 사용자에게 결과정보를 음성 서비스를 지원하고, 사용자의 음성정보가 상기 명령어 설정부 내에 설정된 정보와 매칭되지 않을 경우, 가장 유사한 명령어를 사용자에게 제시하고, 외부서버로부터 대중들이 자주사용하는 명령어(검색 및 실행)를 제공받아 명령어 설정부에서 자동설정되도록 지원하는 음성검색 및 음성주문 프로그램을 실행하는 단말장치.
5. The method of claim 4,
The AI agent unit
After the execution and search results according to the command, the result information to the user is supported by the voice service, and when the user's voice information does not match the information set in the command setting unit, the most similar command is presented to the user, and an external server A terminal device that executes a voice search and voice order program that receives commands (search and execution) frequently used by the public from the command line setting unit and supports automatic settings.
음성 매칭부에서 주파수 밴드필터를 이용하여 입력된 음성정보의 음성주파수를 필터링한 후, 기 설정된 음성주파수와의 동일성을 판단하는 단계;
음성-문자 변환부에서 상기 음성정보를 문자열로 변환하는 단계;
명령어 설정부에서 온라인 상품주문, 긴급구조요청, 웹 검색 중 적어도 하나 이상과 관련된 명령어를 설정하는 단계;
명령어 추출부에서 변환된 문자열 내에서 상기 명령어 설정부에 설정된 명령어와 동일한 명령어를 추출하는 단계; 및
AI 에이전트부에서 상기 명령어 추출부에서 추출된 명령어를 검색명령어 및 실행명령어로 분리한 후, 상기 실행명령어와 연관된 URL에 접속한 후, 상기 검색명령어에 상응하는 정보를 검색 및 실행하는 단계를 포함하는 음성검색 및 음성주문 프로그램을 실행하는 단말장치의 동작방법.
After filtering the voice frequency of the input voice information using a frequency band filter in the voice matching unit, determining the sameness with a preset voice frequency;
converting the voice information into a character string in a voice-text converter;
setting a command related to at least one of an online product order, an emergency rescue request, and a web search in the command setting unit;
extracting the same command as the command set in the command setting unit from within the string converted by the command extraction unit; and
Separating the command extracted from the command extraction unit into a search command and an execution command in the AI agent unit, accessing a URL associated with the execution command, and searching for and executing information corresponding to the search command A method of operating a terminal device for executing a voice search and voice order program.
KR1020200104797A 2020-08-20 2020-08-20 Terminal devices running voice recognition-based AI agent programs and how they work KR102389602B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200104797A KR102389602B1 (en) 2020-08-20 2020-08-20 Terminal devices running voice recognition-based AI agent programs and how they work

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200104797A KR102389602B1 (en) 2020-08-20 2020-08-20 Terminal devices running voice recognition-based AI agent programs and how they work

Publications (2)

Publication Number Publication Date
KR20220023208A true KR20220023208A (en) 2022-03-02
KR102389602B1 KR102389602B1 (en) 2022-04-22

Family

ID=80815392

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200104797A KR102389602B1 (en) 2020-08-20 2020-08-20 Terminal devices running voice recognition-based AI agent programs and how they work

Country Status (1)

Country Link
KR (1) KR102389602B1 (en)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06186994A (en) * 1992-12-15 1994-07-08 Ricoh Co Ltd Speech recognizing device
JP2008281778A (en) * 2007-05-10 2008-11-20 Yaskawa Electric Corp Robot
KR20180069660A (en) * 2016-12-15 2018-06-25 삼성전자주식회사 Method and Apparatus for Voice Recognition
KR20180096483A (en) * 2017-02-21 2018-08-29 삼성전자주식회사 Electronic apparatus, method for controlling thereof, and non-transitory computer readable recording medium
KR20190107351A (en) * 2018-03-12 2019-09-20 순천향대학교 산학협력단 System and method for minimizing service delays for user voice based on terminal
KR20200060331A (en) 2020-05-25 2020-05-29 주식회사 오리지널메이커스 Order processing system using voice recognition and order processing method thereof

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06186994A (en) * 1992-12-15 1994-07-08 Ricoh Co Ltd Speech recognizing device
JP2008281778A (en) * 2007-05-10 2008-11-20 Yaskawa Electric Corp Robot
KR20180069660A (en) * 2016-12-15 2018-06-25 삼성전자주식회사 Method and Apparatus for Voice Recognition
KR20180096483A (en) * 2017-02-21 2018-08-29 삼성전자주식회사 Electronic apparatus, method for controlling thereof, and non-transitory computer readable recording medium
KR20190107351A (en) * 2018-03-12 2019-09-20 순천향대학교 산학협력단 System and method for minimizing service delays for user voice based on terminal
KR20200060331A (en) 2020-05-25 2020-05-29 주식회사 오리지널메이커스 Order processing system using voice recognition and order processing method thereof

Also Published As

Publication number Publication date
KR102389602B1 (en) 2022-04-22

Similar Documents

Publication Publication Date Title
US11435980B2 (en) System for processing user utterance and controlling method thereof
KR102298947B1 (en) Voice data processing method and electronic device supporting the same
US10839806B2 (en) Voice processing method and electronic device supporting the same
EP3392877B1 (en) Device for performing task corresponding to user utterance
KR102339819B1 (en) Method and device for generating natural language expression by using framework
US11393465B2 (en) Artificial intelligence apparatus for speech interaction and method for the same
KR102508863B1 (en) A electronic apparatus and a server for processing received data from the apparatus
US20190019509A1 (en) Voice data processing method and electronic device for supporting the same
EP3866160A1 (en) Electronic device and control method thereof
KR20200059054A (en) Electronic apparatus for processing user utterance and controlling method thereof
US20180272240A1 (en) Modular interaction device for toys and other devices
KR102369083B1 (en) Voice data processing method and electronic device supporting the same
US20200043476A1 (en) Electronic device, control method therefor, and non-transitory computer readable recording medium
KR102391298B1 (en) electronic device providing speech recognition service and method thereof
KR102464120B1 (en) Electronic apparatus for processing user utterance
KR20180109465A (en) Electronic device and method for screen controlling for processing user input using the same
US20200193994A1 (en) Electronic device and method for controlling electronic device
CN113793398A (en) Drawing method and device based on voice interaction, storage medium and electronic equipment
CN112735418A (en) Voice interaction processing method and device, terminal and storage medium
KR102419374B1 (en) Electronic apparatus for processing user utterance for controlling an external electronic apparatus and controlling method thereof
KR102380717B1 (en) Electronic apparatus for processing user utterance and controlling method thereof
CN112889023A (en) Electronic device and control method thereof
KR102426411B1 (en) Electronic apparatus for processing user utterance and server
KR102389602B1 (en) Terminal devices running voice recognition-based AI agent programs and how they work
CN109887490A (en) The method and apparatus of voice for identification

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant