KR20200054154A - 인공지능스피커의 기능을 조작하는 전자펜 시스템 - Google Patents

인공지능스피커의 기능을 조작하는 전자펜 시스템 Download PDF

Info

Publication number
KR20200054154A
KR20200054154A KR1020200055763A KR20200055763A KR20200054154A KR 20200054154 A KR20200054154 A KR 20200054154A KR 1020200055763 A KR1020200055763 A KR 1020200055763A KR 20200055763 A KR20200055763 A KR 20200055763A KR 20200054154 A KR20200054154 A KR 20200054154A
Authority
KR
South Korea
Prior art keywords
electronic pen
artificial intelligence
voice
command
speaker
Prior art date
Application number
KR1020200055763A
Other languages
English (en)
Other versions
KR102164774B1 (ko
Inventor
김철회
Original Assignee
김철회
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 김철회 filed Critical 김철회
Priority to KR1020200055763A priority Critical patent/KR102164774B1/ko
Publication of KR20200054154A publication Critical patent/KR20200054154A/ko
Application granted granted Critical
Publication of KR102164774B1 publication Critical patent/KR102164774B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/162Interface to dedicated audio devices, e.g. audio drivers, interface to CODECs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47202End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting content on demand, e.g. video on demand
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/02Casings; Cabinets ; Supports therefor; Mountings therein
    • H04R1/028Casings; Cabinets ; Supports therefor; Mountings therein associated with devices performing functions other than acoustics, e.g. electric candles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/08Mouthpieces; Microphones; Attachments therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Business, Economics & Management (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

일 실시예는, 제1음성데이터를 분석하여 상기 제1음성데이터에 포함된 음성명령을 인식하고, 상기 음성명령에 대응되는 명령데이터를 명령수행장치로 송신하는 인공지능서버; 호출음성이 인식되면 명령대기상태로 진입하고, 상기 명령대기상태에서 인식되는 음성을 상기 제1음성데이터로 변환하여 상기 인공지능서버로 송신하는 인공지능스피커; 및 인쇄물에 시각적으로 인식되지 않는 크기로 인쇄된 패턴이미지를 촬영하고, 상기 패턴이미지에 대응되는 코드를 생성하며, 상기 코드를 상기 인공지능스피커로 송신하는 전자펜을 포함하고, 상기 전자펜은, 복수의 조작버튼으로 구성되는 조작부를 포함하고, 상기 조작버튼에 대응되는 명령코드를 생성하여 상기 인공지능스피커로 송신하며, 상기 인공지능서버는, 상기 음성명령 중 상기 전자펜을 호출하는 전자펜호출명령에 대응되는 제1명령데이터를 상기 인공지능스피커로 송신하고, 상기 인공지능스피커는, 상기 제1명령데이터를 수신하면 무선연결신호를 탐색하여 상기 전자펜과 무선연결하고 전자펜서비스상태로 진입하며, 상기 전자펜서비스상태에서 상기 명령코드에 대응되는 기능을 수행하여 음성의 출력이나 영상의 출력을 변경하는 전자펜 시스템을 제공한다.

Description

인공지능스피커의 기능을 조작하는 전자펜 시스템{ELECTRONIC PEN SYSTEM FOR CONTROLLING FUNCTION OF ARTIFICIAL INTELLIGENT SPEAKER}
본 실시예는 인공지능스피커의 기능을 조작하는 전자펜에 관한 것이다.
매체에 인쇄된 표식을 인식하고 표식과 관련된 데이터를 출력하는 장치들이 있다.
*바코드 리더가 대표적인 장치인데, 바코드 리더는 매체에 인쇄된 바코드들을 읽어들인 후 대응되는 데이터를 디스플레이 장치 등에 출력한다.
최근에는 책과 같은 매체에 인쇄된 특정 코드를 인식하고 인식된 코드에 대응되는 음성을 출력하는 전자펜이 다수 개발되고 있다.
이러한 전자펜은 코드 리더 장치를 포함하고 있으면서 책과 같은 매체에 인쇄된 특정 코드를 읽어들인 후 해당 코드에 대응되는 음성을 스피커 등을 통해 출력한다.
통상적으로 책과 같은 인쇄매체에는 텍스트만 표시되기 때문에 독자에게 활자 정보만 제공하게 되는데, 이러한 전자펜을 이용하면 활자 정보 이외에 음성 정보도 함께 제공할 수 있기 때문에 독자의 사용자 경험이 강화되는 효과가 있다.
일반적으로 알려진 사용자 입력장치-키보드, 마우스 등-는 매체와 독립적으로 구성되어 있어서, 사용자가 매체와 입력장치를 별도로 인식해야 하는 단점이 있는데 반해, 전자펜을 이용한 사용자 입력은 매체를 통해 이루어지기 때문에 매체와 입력장치가 통합적으로 인식되고 직관적인 조작이 가능하다는 장점이 있다.
한편, 일반적으로 알려진 사용자 입력장치-키보드, 마우스 등-보다 사용자 편의성을 더 갖춘 입력장치로서 인공지능스피커(일명, AI(artificial intelligent)스피커)가 개발되고 있다. 인공지능스피커는 사용자의 음성을 인식하고, 음성에 따른 기능을 수행하거나 음성에 대한 대답을 출력하는 장치로서, 사용자의 수작업 없이 사용자의 음성만으로 명령을 입력할 수 있다는 측면에서 종래의 입력장치보다 더 사용자 편의성을 가지고 있는 것으로 평가된다.
하지만, 아직까지 인공지능스피커의 음성인식수준이나 음성이해수준이 높지 않아, 기능이 제한되어 있고 기능 수행에 있어서도 보다 많은 사용자 음성입력을 요구하고 있어서 인공지능스피커가 종래의 입력장치를 완벽하게 대체하지 못하고 있다.
이러한 배경에서, 본 실시예의 목적은, 인공지능스피커와 연동되는 전자펜을 통해 개선된 사용자 입력장치 기술을 제공하는 것이다.
전술한 목적을 달성하기 위하여, 일 실시예는, 제1음성데이터를 분석하여 상기 제1음성데이터에 포함된 음성명령을 인식하고, 상기 음성명령에 대응되는 명령데이터를 명령수행장치로 송신하는 인공지능서버; 컨텐츠코드를 수신하고, 상기 컨텐츠코드에 대응되는 컨텐츠데이터를 컨텐츠출력장치로 송신하는 컨텐츠서버; 호출음성이 인식되면 명령대기상태로 진입하고, 상기 명령대기상태에서 인식되는 음성을 상기 제1음성데이터로 변환하여 상기 인공지능서버로 송신하는 인공지능스피커; 및 인쇄물에 시각적으로 인식되지 않는 크기로 인쇄된 패턴이미지를 촬영하고, 상기 패턴이미지에 대응되는 코드를 생성하며, 상기 코드 중 상기 컨텐츠코드를 상기 인공지능스피커를 경유하여 상기 컨텐츠서버로 송신하는 전자펜을 포함하고, 상기 인공지능서버는, 상기 음성명령 중 상기 전자펜을 호출하는 전자펜호출명령에 대응되는 제1명령데이터를 상기 인공지능스피커로 송신하고, 상기 인공지능스피커는, 상기 제1명령데이터를 수신하면 무선연결신호를 탐색하여 상기 전자펜과 무선연결하고 전자펜서비스상태로 진입하며, 상기 전자펜서비스상태에서 상기 컨텐츠코드를 상기 컨텐츠서버로 송신하고 상기 컨텐츠서버로부터 수신되는 상기 컨텐츠데이터 중 음성컨텐츠데이터를 내장스피커를 통해 출력하는 전자펜 시스템을 제공한다.
상기 전자펜 시스템에서, 상기 인공지능스피커는, TV(television)서비스상태에서 TV데이터를 수신하고 상기 TV데이터를 TV장치를 통해 출력하며, 상기 전자펜서비스상태에서 상기 컨텐츠데이터 중 영상컨텐츠데이터를 상기 TV장치를 통해 출력할 수 있다.
상기 전자펜 시스템에서, 상기 인공지능스피커는, 무선연결된 상기 전자펜으로부터 제품식별데이터를 수신하고 상기 제품식별데이터에 대응되는 상기 전자펜의 외관이미지를 별도의 영상출력장치를 통해 표시
상기 전자펜 시스템에서, 상기 전자펜은, 펜스피커를 내장하고, 상기 인공지능스피커와 무선연결되면 상기 펜스피커의 기능을 턴오프할 수 있다.
상기 전자펜 시스템에서, 상기 전자펜은, 복수의 조작버튼으로 구성되는 조작부를 포함하고, 상기 조작버튼에 대응되는 명령코드를 생성하여 상기 인공지능스피커로 송신하며, 상기 인공지능스피커는, 상기 명령코드에 대응되는 기능을 수행하여 음성의 출력이나 영상의 출력을 변경할 수 있다.
상기 전자펜 시스템에서, 상기 컨텐츠서버는, 상기 인공지능스피커를 경유하여 상기 전자펜으로부터 수신되는 인터랙티브(interactive)코드에 대응되는 프로그램을 실행시키고, 상기 프로그램의 실행에 따른 영상출력데이터 및 음성출력데이터를 상기 인공지능스피커로 송신하며, 상기 전자펜으로부터 인공지능스피커를 경유하여 상기 전자펜으로부터 명령코드를 수신하여 상기 프로그램의 기능을 조작할 수 있다.
상기 전자펜 시스템에서, 상기 전자펜은, 마이크로폰을 더 포함하고 상기 마이크로폰을 통해 생성되는 제2음성데이터를 상기 인공지능스피커를 경유하여 상기 인공지능서버로 송신하고, 상기 인공지능서버는, 상기 제2음성데이터를 텍스트데이터로 변환하여 상기 컨텐츠서버로 송신하고, 상기 컨텐츠서버는, 상기 텍스트데이터의 적합도를 판단하고 판단결과를 상기 인공지능스피커를 통해 출력할 수 있다.
그리고, 상기 전자펜은, 상기 제2음성데이터를 송신하기 전에 상기 컨텐츠서버로 제1회화문에 대응되는 일 컨텐츠코드를 상기 컨텐츠서버로 송신하고, 상기 컨텐츠서버는, 상기 제1회화문의 대답으로서 미리 설정된 제2회화문과 상기 텍스트데이터의 유사도를 판단하여 상기 판단결과를 생성할 수 있다.
다른 실시예는, 제1음성데이터를 분석하여 상기 제1음성데이터에 포함된 음성명령을 인식하고, 상기 음성명령에 대응되는 명령데이터를 명령수행장치로 송신하는 인공지능서버; 복수의 좌표코드를 수신하고, 상기 복수의 좌표코드를 조합하여 텍스트를 생성하고 상기 텍스트, 상기 텍스트를 변환한 음성데이터 및 상기 텍스트에 대응되는 영상데이터 중 적어도 하나를 송신하는 텍스트서버; 호출음성이 인식되면 명령대기상태로 진입하고, 상기 명령대기상태에서 인식되는 음성을 상기 제1음성데이터로 변환하여 상기 인공지능서버로 송신하는 인공지능스피커; 및 인쇄물에 시각적으로 인식되지 않는 크기로 인쇄된 패턴이미지를 촬영하고, 상기 패턴이미지에 대응되는 코드를 생성하며, 상기 코드 중 상기 좌표코드를 상기 인공지능스피커를 경유하여 상기 텍스트서버로 송신하는 전자펜을 포함하고, 상기 인공지능서버는, 상기 음성명령 중 상기 전자펜을 호출하는 전자펜호출명령에 대응되는 제1명령데이터를 상기 인공지능스피커로 송신하고, 상기 인공지능스피커는, 상기 제1명령데이터를 수신하면 무선연결신호를 탐색하여 상기 전자펜과 무선연결하고 전자펜서비스상태로 진입하며, 상기 전자펜서비스상태에서 상기 좌표코드를 상기 텍스트서버로 송신하고 상기 텍스트를 변환한 음성데이터를 내장스피커를 통해 출력하거나 상기 텍스트를 미리 선택된 다른 서버로 송신하는 전자펜 시스템을 제공한다.
상기 다른 서버는, 날짜별로 메모를 기록하고, 상기 전자펜의 고유번호에 대응되는 저장공간에 상기 텍스트를 날짜별로 저장할 수 있다.
또 다른 실시예는, 제1음성데이터를 분석하여 상기 제1음성데이터에 포함된 음성명령을 인식하고, 상기 음성명령에 대응되는 명령데이터를 명령수행장치로 송신하는 인공지능서버; 호출음성이 인식되면 명령대기상태로 진입하고, 상기 명령대기상태에서 인식되는 음성을 상기 제1음성데이터로 변환하여 상기 인공지능서버로 송신하는 인공지능스피커; 및 인쇄물에 시각적으로 인식되지 않는 크기로 인쇄된 패턴이미지를 촬영하고, 상기 패턴이미지에 대응되는 코드를 생성하며, 상기 코드를 상기 인공지능스피커로 송신하는 전자펜을 포함하고, 상기 전자펜은, 복수의 조작버튼으로 구성되는 조작부를 포함하고, 상기 조작버튼에 대응되는 명령코드를 생성하여 상기 인공지능스피커로 송신하며, 상기 인공지능서버는, 상기 음성명령 중 상기 전자펜을 호출하는 전자펜호출명령에 대응되는 제1명령데이터를 상기 인공지능스피커로 송신하고, 상기 인공지능스피커는, 상기 제1명령데이터를 수신하면 무선연결신호를 탐색하여 상기 전자펜과 무선연결하고 전자펜서비스상태로 진입하며, 상기 전자펜서비스상태에서 상기 명령코드에 대응되는 기능을 수행하여 음성의 출력이나 영상의 출력을 변경하는 전자펜 시스템을 제공한다.
이상에서 설명한 바와 같이 본 실시예에 의하면, 인공지능스피커와 전자펜이 연동됨으로써, 종래에 비해 획기적으로 개선된 사용자 편의성을 가지는 입력장치를 제공할 수 있다.
도 1은 일 실시예에 따른 전자펜 시스템의 구성을 나타내는 도면이다.
도 2는 일 실시예에 따른 인공지능스피커의 구성도이다.
도 3은 일 실시예에 따른 전자펜(120)의 구성도이다.
도 4는 일 실시예에 따른 전자펜 시스템에서 컨텐츠를 출력하는 방법의 흐름도이다.
도 5는 일 실시예에 따른 전자펜 시스템에서 각 구성 사이의 신호 흐름을 나타내는 도면이다.
도 6은 일 실시예에 따른 전자펜의 조작부를 나타내는 도면이다.
도 7은 일 실시예에 따른 전자펜 시스템에서 프로그램을 실행시키는 것을 나타내는 도면이다.
도 8은 일 실시예에 따른 전자펜 시스템에서 회화평가가 이루어지는 과정을 나타내는 도면이다.
도 9는 다른 실시예에 따른 전자펜 시스템의 구성을 나타내는 도면이다.
도 10은 다른 실시예에 따른 전자펜 시스템에 적용될 수 있는 인쇄물을 나타내는 도면이다.
이하, 본 발명의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
또한, 본 발명의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 어떤 구성 요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 그 구성 요소는 그 다른 구성요소에 직접적으로 연결되거나 또는 접속될 수 있지만, 각 구성 요소 사이에 또 다른 구성 요소가 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다.
도 1은 일 실시예에 따른 전자펜 시스템의 구성을 나타내는 도면이다.
도 1을 참조하면, 전자펜 시스템(100)은 인공지능스피커(110), 전자펜(120), 인공지능서버(130), 컨텐츠서버(140) 등을 포함할 수 있다.
인공지능스피커(110)는 사용자(10)의 음성을 음성데이터로 변환하여 인공지능서버(130)로 송신할 수 있다. 그리고, 인공지능서버(130)는 음성데이터에 포함된 음성내용을 인식하고, 음성내용에 대응되는 기능을 수행할 수 있다.
예를 들어, 인공지능서버(130)는 음성데이터에 포함된 음성명령을 인식하고, 음성명령에 대응되는 기능을 수행할 수 있다. 사용자(10)가 "라디오를 연결해 줘"라는 음성을 인공지능스피커(110)로 발화하면, 인공지능스피커(110)는 "라디오를 연결해 줘"라는 음성을 음성데이터-음성데이터는 아날로그신호은 음성을 디지털신호로 변환한 것임-로 변환하고, 변환된 음성데이터를 인공지능서버(130)로 송신할 수 있다. 인공지능서버(130)는 음성데이터에서 음성명령을 추출 혹은 분석하는 기능을 포함할 수 있다. 인공지능서버(130)는 학습된 신경지능망-예를 들어, 뉴럴네트워크 등-을 포함하고 있으면서, 신경지능망에 음성데이터를 입력하고 그 출력으로서 음성명령을 획득할 수 있다. 혹은 인공지능서버(130)는 음성데이터를 텍스트로 변환하는 기능을 포함하고 있고, 텍스트를 룰(rule)기반의 분류 프로그램에 대입시켜 텍스트가 지시하는 음성명령을 확인할 수 있다. 그리고, 인공지능서버(130)는 확인된 음성명령에 대응되는 기능-예를 들어, 라디오 서버에서 출력되는 음성데이터를 스트리밍형태로 인공지능스피커(110)로 송신하는 기능-을 수행할 수 있다.
사용자(10)의 음성에 대응되는 음성데이터에서 사용자(10)가 발화한 음성의 음성내용-예를 들어, 음성명령-을 인식하기 위해서는 고용량의 저장장치 및 고성능의 계산장치를 포함할 필요가 있다. 이에 따라, 소형 크기를 가지는 인공지능스피커(110)가 사용자(10)의 음성에서 바로 음성내용을 인식하는 기능을 내장하기는 어렵다. 이러한 난제에 따라, 일반적으로, 인공지능스피커(110)는 사용자(10)의 음성을 음성데이터로 변환하는 기능을 수행하고, 음성데이터로부터 음성내용을 인식하는 기능은 인공지능서버(130)에 의해 수행될 수 있다.
한편, 인공지능스피커(110)는 사용자(10)가 발화한 음성을 상시적으로 음성데이터로 변환하여 인공지능서버(130)로 송신하지는 않고 특정 상태에서만 사용자(10)의 음성에 대응되는 음성데이터를 인공지능서버(130)로 송신할 수 있다. 그렇지 않은 경우, 인공지능서버(130)가 사용자(10)의 일반적인 대화 내용에 반응하는 문제가 발생할 수 있다.
인공지능스피커(110)는 호출대기상태를 유지하고 있다가 호출음성이 인식되면 명령대기상태로 진입할 수 있다. 호출대기상태에서 사용자(10)의 음성에 대응되는 음성데이터를 인공지능서버(130)로 송신하지 않기 때문에 인공지능스피커(110)는 사용자(10)의 음성에 대응되는 음성데이터가 호출음성에 대응되는지 자체적으로 판단할 수 있다. 후술하는 내용과 같이 인공지능스피커(110)는 내부에 트리거링모듈(triggering module)을 포함하고 있으면서 트리거링모듈을 통해 사용자(10)의 호출음성을 인식하고, 호출음성이 인식될 때, 명령대기상태로 진입할 수 있다.
인공지능스피커(110)는 명령대기상태에서 인식되는 음성을 음성데이터로 변환하여 인공지능서버(130)로 송신할 수 있다. 명령대기상태에서 인식되는 음성을 이하에서는 제1음성데이터로 명명한다.
인공지능서버(130)는 제1음성데이터를 분석하여 제1음성데이터에 포함된 음성명령을 인식할 수 있다. 인공지능서버(130)는 STT(speach to text)엔진을 포함하고 있으면서, 제1음성데이터를 텍스트로 변환하고 텍스트를 신경지능망 등의 분석모듈에 입력하여 그 출력으로서 음성명령을 인식할 수 있다. 그리고, 인공지능서버(130)는 음성명령에 대응되는 명령데이터를 명령수행장치로 송신할 수 있다. 예를 들어, 인공지능서버(130)는 "전등 꺼 줘"라는 음성명령을 인식하고 전등을 턴오프하는 명령데이터를 전등제어장치로 송신할 수 있다.
인공지능서버(130)는 제1음성데이터에 포함된 음성명령 중 전자펜(120)을 호출하는 전자펜호출명령을 인식하면 전자펜호출명령에 대응되는 제1명령데이터를 인공지능스피커(110)로 송신할 수 있다. 예를 들어, 사용자(10)가 "세이펜 연결해 줘"라는 음성명령을 발화하면, 인공지능스피커(110)는 이에 대응되는 제1음성데이터를 인공지능서버(130)로 송신하고, 인공지능서버(130)는 제1음성데이터에서 전자펜호출명령을 인식하고 전자펜호출명령에 대응되는 제1명령데이터를 인공지능스피커(110)로 송신할 수 있다.
인공지능스피커(110)는 제1명령데이터를 수신하면 무선연결신호를 탐색하여 전자펜(120)과 무선연결할 수 있다. 예를 들어, 인공지능스피커(110)와 전자펜(120)는 블루투스, 와이파이 등의 무선통신모듈을 포함하고 있으면서, 이러한 무선통신모듈을 통해 무선연결될 수 있다.
인공지능스피커(110)는 제1명령데이터를 통해 전자펜(120)과 무선연결되면 전자펜서비스상태로 진입할 수 있다.
인공지능스피커(110)에서 전자펜서비스상태는 전자펜(120)으로부터 수신되는 각종 코드를 처리할 수 있는 상태로서, 인공지능스피커(110)의 음성을 통한 사용자 입력기능에 더해 전자펜(120)을 통한 사용자 입력기능이 부가된 상태로 이해될 수 있다.
전자펜(120)은 OID(object identifier)모듈을 포함하고 있으면서, OID모듈을 통해 패턴이미지를 촬영할 수 있다. 패턴이미지는 인쇄물(20)에 시각적으로 인식되지 않는 크기로 인쇄된 이미지로서 OID모듈이 인식할 수 있는 패턴으로 구성된다. 인쇄물(20)에는 시각적으로 인식될 수 있는 크기의 시각이미지가 인쇄될 수 있다. 시각이미지로서 예를 들어, 글자, 도형, 사진 등이 인쇄물(20)에 인쇄될 수 있다. 이에 반해, 패턴이미지는 시각적으로 인식되지 않는 크기로 시각이미지와 중첩되도록 인쇄될 수 있다. 따라서, 사용자(10)는 인쇄물(20)에 인쇄된 시각이미지는 인식할 수 있으나 패턴이미지는 인식할 수 없게 된다. 반대로, 전자펜(120)은 촬영영역이 미세하기 때문에, 패턴이미지를 촬영하여 그에 대응되는 코드를 인식할 수 있으나, 넓은 영역에 인쇄되어 있는 시각이미지는 인식하지 못할 수 있다.
전자펜(120)는 OID모듈을 통해 패턴이미지를 촬영하고, 패턴이미지에 대응되는 코드를 생성할 수 있다. 서로 다른 패턴을 가지는 복수의 패턴이미지들이 미리 정의될 수 있고, 전자펜(120)은 각각의 패턴이미지에 대응되는 코드들을 저장하고 있을 수 있다. 그리고, 전자펜(120)은 특정 패턴이미지가 촬영되면 해당 패턴이미지에 대응되는 코드를 생성할 수 있다.
전자펜(120)는 생성되는 코드들을 인공지능스피커(110)로 송신할 수 있다. 그리고, 인공지능스피커(110)는 수신되는 코드 중 컨텐츠코드를 컨텐츠서버(140)로 송신할 수 있다.
인공지능스피커(110)와 전자펜(120)은 무선통신을 통해 연결되고, 인공지능스피커(110)와 인공지능서버(130) 및 컨텐츠서버(140)는 네트워크(30)를 통해 연결될 수 있다. 인공지능스피커(110), 인공지능서버(130) 및 컨텐츠서버(140)는 IP(internet protocol)주소와 같은 네트워크식별아이디를 가지고 있으면서 네트워크식별아이디를 통해 네트워크(30)에 접속되어 있을 수 있다. 인공지능스피커(110), 인공지능서버(130) 및 컨텐츠서버(140)는 네트워크(30)를 통해 복수의 장치들과 연결되어 있을 수 있다. 예를 들어, 인공지능스피커(110)는 네트워크(30)를 통해 인공지능서버(130)와 정보를 주고 받을 수 있고, 컨텐츠서버(140)와 정보를 주고 받을 수 있다. 이에 반해, 전자펜(120)은 근접지에 위치하는 하나의 장치와 무선연결될 수 있다. 예를 들어, 전자펜(120)은 블루투스를 통해 인공지능스피커(110)와 연결될 수 있다. 전자펜(120)은 인공지능서버(130)와 컨텐츠서버(140)와 정보를 주고 받기 위해 인공지능스피커(110)를 이용할 수 있다. 예를 들어, 전자펜(120)은 인공지능스피커(110)를 통해 컨텐츠코드를 컨텐츠서버(140)로 송신할 수 있고, 인공지능스피커(110)를 통해 컨텐츠서버(140)로부터 정보를 수신할 수 있다.
전자펜(120)는 코드 중 컨텐츠코드를 인공지능스피커(110)를 경유하여 컨텐츠서버(140)로 송신할 수 있다. 그리고, 컨텐츠서버(140)는 컨텐츠코드를 수신하고, 컨텐츠코드에 대응되는 컨텐츠데이터를 컨텐츠출력장치로 송신할 수 있다. 예를 들어, 전자페(120)이 특정 책의 1페이지에 해당되는 컨텐츠코드를 컨텐츠서버(140)로 송신하면, 컨텐츠서버(140)는 해당 페이지의 내용을 음성으로 녹음한 음성컨텐츠데이터 및 해당 페이지의 내용을 영상으로 각색한 영상컨텐츠데이터를 인공지능스피커(110)로 송신할 수 있다.
인공지능스피커(110)는 컨텐츠서버(140)로부터 수신되는 컨텐츠데이터 중 음성컨텐츠데이터를 내장스피커를 통해 출력할 수 있다. 그리고, 인공지능스피커(110)는 컨텐츠서버(140)로부터 수신되는 컨텐츠데이터 중 영상컨텐츠데이터를 별도의 영상출력장치를 통해 표시할 수 있다.
별도의 영상출력장치는 일 예로서, TV(television)장치(40)일 수 있다. 인공지능스피커(110)는 TV서비스상태에서 TV데이터를 수신하고 TV데이터를 TV장치(40)를 통해 출력할 수 있다. TV데이터를 출력하기 위해, 인공지능스피커(110) 내에 셋톱박스가 내장될 수 있다. 실시예에 따라서는 TV장치(40)에 셋톱박스가 부착되거나 셋톱박스가 내장될 수 있다.
인공지능스피커(110)는 전자펜서비스상태에서 컨텐츠데이터 중 영상컨텐츠데이터를 TV장치(40)를 통해 출력할 수 있다.
전자펜(120)은 독자적인 기능 수행을 위해 스피커(펜스피커)를 내장할 수 있다. 그리고, 실시예에 따라서는, 음성컨텐츠데이터가 인공지능스피커(110)에서 출력될 수 있고, 전자펜(120)에서 출력될 수 있다. 인공지능스피커(110)에서 음성컨텐츠데이터가 출력되는 경우, 인공지능스피커(110)와 전자펜(120)이 무선연결되는 경우, 펜스피커의 기능은 턴오프될 수 있다.
한편, 전자펜 시스템(100)에는 복수의 전자펜(120)이 포함될 수 있고, 인공지능스피커(110)는 무선연결신호를 통해 복수의 전자펜(120)에 대한 제품식별데이터를 수신하고, 각 제품식별데이터에 대응되는 전자펜(120)의 외관이미지를 별도의 영상출력장치-예를 들어, TV장치(40)-를 통해 표시할 수 있다. 그리고, 복수의 외관이미지 중 하나가 사용자(10)에 의해 선택되면 인공지능스피커(110)는 선택된 전자펜(120)과 무선연결되고 해당 전자펜(120)으로부터 수신된 제품식별데이터에 대응되는 전자펜(120)의 외관이미지를 영상출력장치를 통해 표시할 수 있다. 복수의 외관이미지 중 하나를 선택하는 것은 사용자(10)의 음성명령에 의해 이루어질 수 있다.
도 2는 일 실시예에 따른 인공지능스피커의 구성도이다.
도 2를 참조하면, 인공지능스피커(110)는 음성입력부(210), 음성데이터변환부(220), 트리거링부(230), 제어부(240), 서버통신부(250), 전자펜통신부(260), 음성출력부(270) 등을 포함할 수 있다.
음성입력부(210)는 마이크로폰을 포함하고 있으면서, 사용자가 발화한 음성을 아날로그전기신호로 변환할 수 있다. 음성입력부(210)는 필요에 따라 필터를 더 포함하고 있으면서 사용자 주변의 노이즈를 제거하거나 기타 다른 소스에 의해 발생되는 노이즈를 제거할 수 있다.
음성입력부(210)에서 변환된 아날로그전기신호는 음성데이터변환부(220)로 전달되고, 음성데이터변환부(220)는 아날로그전기신호를 디지털신호인 음성데이터로 변환할 수 있다.
트리거링부(230)는 트리거링모듈을 포함하고 있으면서 음성데이터를 미리 설정된 호출음성데이터와 비교하고, 음성데이터가 호출음성데이터와 유사한 경우, 사용자가 호출음성을 발화한 것으로 판단할 수 있다. 트리거링부(230)가 호출음성을 인식하면, 플래그 등을 통해 호출음성이 인식되었음을 제어부(240)로 알릴 수 있다.
제어부(240)는 호출대기상태에 있다가 트리거링부(230)로부터 호출음성이 인식되었다는 신호를 전달받으면 명령대기상태로 진입할 수 있다. 제어부(240)는 명령대기상태에 진입했음을 사용자에게 알리기 위해 명령대기상태음성을 음성출력부(270)를 통해 출력할 수 있다.
사용자 행위의 관점에서 설명하면, 사용자가 호출음성-예를 들어, "헤이, 스피커"-을 발화하면, 트리거링부(230)가 호출음성을 인식하고, 이에 대응하여, 제어부(240)가 명령대기상태음성-예를 들어, "네, 말씀하세요"-을 음성출력부(270)를 통해 출력할 수 있다.
음성출력부(270)는 스피커 및 DAC(digital-to-analog converter)를 포함하고 있으면서, 디지털신호인 음성데이터를 아날로그전기신호를 변환하고 아날로그전기신호를 음파로 변환하여 출력할 수 있다.
명령대기상태에서 음성입력부(210)를 통해 입력되는 음성은 음성데이터변환부(220)를 통해 제1음성데이터로 변환된 후 서버통신부(250)를 통해 인공지능서버로 송신될 수 있다. 서버통신부(250)는 도 1을 참조하여 설명한 네트워크와 연결될 수 있으며, 네트워크르 통해 인공지능서버 혹은 컨텐츠서버와 정보를 주고 받을 수 있다. 그리고, 서버통신부(250)는 네트워크를 통해 다른 서버와도 정보를 송수신할 수 있는데, 예를 들어, 서버통신부(250)는 TV데이터서버를 통해 TV데이터를 수신할 수 있고, 스마트홈서버와 연결되면서 가정 내 전기기기를 제어하는 신호/데이터를 송수신할 수 있다.
인공지능서버는 서버통신부(250)를 통해 수신되는 제1음성데이터를 통해 전자펜호출명령을 인식할 수 있다. 그리고, 인공지능서버는 전자펜호출명령에 대응되는 제1명령데이터를 인공지능스피커-예를 들어, 서버통신부(250)-로 송신할 수 있다.
인공지능스피커-예를 들어, 제어부(240)-는 제1명령데이터를 수신한 후 전자페통신부(260)를 통해 무선연결신호를 탐색하여 전자펜과 무선연결할 수 있다. 이때, 전자펜통신부(260)와 전자펜이 무선연결될 수 있다.
전자펜통신부(260)와 전자펜이 무선연결되면 제어부(240)는 전자펜서비스상태로 진입할 수 있다. 그리고, 전자펜서비스상태에서, 전자펜통신부(260)는 전자펜으로부터 각종 코드르 수신할 수 있는데, 이러한 코드 중 컨텐츠코드는 서버통신부(250)를 통해 컨텐츠서버로 송신될 수 있다. 그리고, 컨텐츠서버로부터 수신되는 컨텐츠데이터 중 음성컨텐츠데이터는 음성출력부(270)를 통해 출력될 수 있다.
도 3은 일 실시예에 따른 전자펜(120)의 구성도이다.
도 3을 참조하면, 전자펜(120)은 이미지센서(310), 프로세서(320), 통신부(330), 펜스피커(340), 마이크로폰(350) 및 조작부(360)를 포함할 수 있다.
이미지센서(310)는 광을 전기신호로 변환하는 광전소자를 포함하고 있으면서 광전소자를 이용하여 인쇄물에 시각적으로 인식되지 않는 크기로 인쇄된 패턴이미지를 촬영할 수 있다. 이미지센서(310)는 일종의 카메라로서, 국소영역을 정밀하게 촬영할 수 있는 고해상도/고정밀 카메라로 볼 수 있으며, OID(object identifier)모듈이라고 호칭되기도 한다.
프로세서(320)는 코드변환부(322) 및 펜제어부(324)를 포함할 수 있다.
코드변환부(322)는 이미지센서(310)에서 촬영된 패턴이미지의 패턴을 분석하고 해당 패턴에 대응되는 코드를 생성할 수 있다. 패턴은 예를 들어, 가상의 격자에서 점들이 배치되는 위치에 대한 것으로서, 코드변환부(322)는 촬영된 패턴이미지에서 인식되는 점들의 위치를 이용하여 코드를 생성할 수 있다.
펜제어부(324)는 전자펜(120)의 제반 기능을 제어할 수 있는데, 특히, 코드변환부(322)로부터 수신되는 코드를 확인하고 각각의 코드에 대응되는 기능을 제어할 수 있다.
코드는 여러 가지로 세분될 수 있는데, 예를 들어, 코드는 컨텐츠코드, 명령코드 등으로 세분될 수 있다. 컨텐츠코드는 컨텐츠와 매칭되어 있는 코드로서, 펜제어부(324)는 컨텐츠코드가 확인되면 해당 컨텐츠코드에 대응되는 컨텐츠가 사용자에게 표시될 수 있도록 전자펜(120) 혹은 그 주변 기기를 제어할 수 있다. 명령코드는 특정 기능과 매칭되어 있는 코드로서, 펜제어부(324)는 명령코드가 확인되면 해당 명령코드에 대응되는 기능이 수행되도록 전자펜(120) 혹은 그 주변 기기를 제어할 수 있다. 명령코드는 예를 들어, 볼륨업, 볼륨다운, 음소거, 녹음, 이전트랙재생, 이후트랙재생, 일시멈춤, 재생 등의 기능과 매칭될 수 있다.
통신부(330)는 주변 기기와 무선통신을 수행하는 모듈로서, 인공지능스피커 혹은 일반 스피커와 블루투스 등의 무선통신을 통해 연결될 수 있다.
펜스피커(340)는 음성을 출력하는 장치로서, 컨텐츠코드에 대응되는 컨텐츠데이터 중 음성컨텐츠데이터가 출력될 수 있고, 펜제어부(324)의 제어에 따라 미리 설정된 음성이 출력될 수 있다.
마이크로폰(350)은 ADC(analog-to-digital converter)를 포함하고 있으면서, 입력되는 음성을 디지털신호인 음성데이터로 변환하는 모듈이다. 마이크로폰(350)으로 입력되는 음성은 음성데이터로 변환된 후 펜스피커(340)를 통해 출력될 수 있다. 실시예에 따라서는, 프로세서(320)에 오디오믹서가 포함되어 있을 수 있고, 마이크로폰(350)에서 생성되는 음성데이터는 오디오믹서에서 음성컨텐츠데이터와 믹싱된 후 펜스피커(340)를 통해 출력될 수 있다.
통신부(330)가 블루투스 등의 무선통신을 통해 외부 스피커 혹은 인공지능스피커와 무선연결되어 있는 경우, 펜스피커의 기능은 턴오프될 수 있다. 이때, 펜스피커(340)로 전달되는 음성데이터는 무선연결된 외부 스피커 혹은 인공지능스피커로 전달되어 출력될 수 있다. 오디오믹서에 의해 믹싱된 음성데이터도 마찬가지로 외부 스피커 혹은 인공지능스피커로 전달되어 출력될 수 있다.
조작부(360)는 사용자의 수조작을 인식할 수 있는 모듈이다. 조작부(360)는 복수의 조작버튼을 포함하고 있으면서, 각각의 조작버튼이 눌려졌을 때, 서로 다른 명령코드를 생성하여 펜제어부(324)로 전달할 수 있다. 예를 들어, 조작부(360)는 볼률업버튼, 볼륨다운버튼, 음소거버튼, 녹음버튼, 이적트랙재생버튼, 이후트랙재생버튼, 일시멈춤버튼, 재생버튼 등을 포함하고 있으면서, 각 버튼의 눌림에 따라 서로 다른 명령코드를 생성할 수 있다.
도 4는 일 실시예에 따른 전자펜 시스템에서 컨텐츠를 출력하는 방법의 흐름도이다.
도 4를 참조하면, 인공지능스피커가 먼저 트리거링될 수 있다(S400). 인공지능스피커는 트리거링모듈을 이용하여 호출음성을 인식하면서 트리거링될 수 있다. 인공지능스피커는 트리거링된 후에 명령대기상태로 진입하여 사용자의 음성명령이 이루어질 때까지 대기할 수 있다.
명령대기상태로 진입한 후에 인공지능스피커는 전자펜을 호출하는 전자펜호출명령을 수신하고, 전자펜호출명령을 제1음성데이터로 변환하여 인공지능서버로 전송할 수 있다. 그리고, 인공지능서버는 수신되는 제1음성데이터에 대한 분석을 통해 전자펜호출명령을 인식할 수 있다(S402).
전자펜호출명령이 인식되면, 인공지능서버는 전자펜호출명령에 대응되는 제1명령데이터를 인공지능스피커로 송신할 수 있다. 그리고, 인공지능스피커는 제1명령데이터를 수신한 후에, 무선연결신호를 탐색하여 전자펜과의 통신연결을 시도할 수 있다(S404). 그리고, 인공지능스피커는 무선연결가능상태에 있는 하나의 전자펜과 무선연결될 수 있다(S406).
그리고, 인공지능스피커는 전자펜서비스상태로 진입하고, 전자펜서비스상태에서 전자펜으로부터 코드를 수신할 수 있다(S408).
인공지능스피커는 코드 중에서 컨텐츠코드가 수신되면, 컨텐츠코드를 컨텐츠서버로 송신하고, 컨텐츠서버로부터 컨텐츠데이터를 수신할 수 있다(S410).
컨텐츠데이터에는 영상컨텐츠데이터와 음성컨텐츠데이터가 포함될 수 있는데, 인공지능스피커는 영상컨텐츠데이터를 TV장치 등 별도의 영상출력장치를 이용하여 출력하고, 음성컨텐츠데이터를 내장스피커 등을 이용하여 출력할 수 있다(S412).
도 5는 일 실시예에 따른 전자펜 시스템에서 각 구성 사이의 신호 흐름을 나타내는 도면이다.
도 5를 참조하면, 인공지능스피커(110)는 내장된 트리거링모듈을 이용하여 자체적으로 호출음성을 인식하고 트리거링될 수 있다(S400).
그리고, 인공지능스피커(110)는 사용자의 발화에 따른 음성명령을 입력받고(S502), 음성명령을 음성데이터로 변환한 후 인공지능서버(130)로 송신할 수 있다(S504).
인공지능서버(130)는 음성데이터를 분석하여 음성명령을 인식하고 음성명령에 대응되는 명령데이터를 명령수행장치로 송신할 수 있는데, 음성명령이 전자펜호출명령임을 인식하게 되면, 전자펜호출명령에 대응되는 제1명령데이터를 인공지능스피커(110)로 송신할 수 있다(S506).
전자펜호출명령에 대응되는 제1명령데이터를 수신하면, 인공지능스피커(110)가 명령수행장치로서 기능하게 되는데, 인공지능스피커(110)는 명령수행장치로서 무선연결신호를 탐색하여 전자펜(120)과의 무선연결을 시도할 수 있다(S404).
무선연결신호를 통해 인공지능스피커(110)와 하나의 전자펜(120)이 무선연결될 수 있다(S406). 그리고, 전자펜(120)은 패턴이미지를 촬영하고(S508), 패턴이미지에 대한 코드를 생성하여 인공지능스피커(110)로 송신할 수 있다(S408).
그리고, 인공지능스피커(110)는 코드 중 컨텐츠코드를 컨텐츠서버(140)로 송신하고(S510), 컨텐츠서버(140)로부터 컨텐츠데이터를 수신할 수 있다(S512).
그리고, 인공지능스피커(110)는 컨텐츠데이터 중 음성컨텐츠데이터를 내장스피커 등을 이용하여 출력하고(S514), 영상컨텐츠데이터를 TV장치(40) 등 별도의 영상출력장치를 이용하여 출력할 수 있다(S516).
도 6은 일 실시예에 따른 전자펜의 조작부를 나타내는 도면이다.
도 6을 참조하면, 전자펜(120)은 복수의 조작버튼(621 ~ 625)으로 구성되는 조작부(620)를 포함할 수 있다. 그리고, 전자펜(120)은 조작버튼에 대응되는 명령코드를 생성하여 인공지능스피커로 송신할 수 있다. 그리고, 인공지능스피커는 명령코드에 대응되는 기능을 수행하여 음성의 출력이나 영상의 출력을 변경할 수 있다. 예를 들어, 일 예로, 전자펜(120)은 제2조작버튼(622)이 눌려질 때, 제2명령코드를 생성하여 인공지능스피커로 송신할 수 있고, 인공지능스피커는 제2명령코드에 대응하여 음성 혹은 영상의 출력을 일시멈춤할 수 있다. 다른 예로, 제1조작버튼(621)이 눌려질 때, 인공지능스피커는 음성 혹은 영상의 출력을 다시 시작할 수 있고, 제3조작버튼(623)이 눌려질 때, 인공지능스피커는 음성 혹은 영상의 출력을 중단할 수 있다. 또 다른 예로, 제4조작버튼(624)이 눌려질 때, 인공지능스피커는 이전트랙-혹은 이전에 재생된 컨텐츠-을 재생할 수 있고, 제5조작버튼(625)이 눌려질 때, 인공지능스피커는 이후트랙-혹은 다음에 재생될 컨텐츠-을 재생할 수 있다.
한편, 인공지능스피커에서는 프로그램이 실행될 수 있는데, 이러한 프로그램이 인공지능스피커에서 실행될 때, 조작부에 의해 생성되는 명령코드는 프로그램의 기능을 조작하는 것에 사용될 수 있다.
도 7은 일 실시예에 따른 전자펜 시스템에서 프로그램을 실행시키는 것을 나타내는 도면이다.
도 7을 참조하면, 인공지능스피커(110)는 전자펜(120)으로부터 인터랙티브(interactive)코드를 수신할 수 있다. 그리고, 인공지능스피커(110)는 인터랙티브코드를 컨텐츠서버(140)로 송신할 수 있는데, 컨텐츠서버(140)는 인터랙티브코드에 대응되는 프로그램을 실행시킬 수 있다. 프로그램은 인공지능스피커(110)에 다운로드된 후 인공지능스피커(110)에서 실행될 수도 있고, 컨텐츠서버(140)에서 실행되면서 실행의 결과로서의 영상출력데이터 및 음성출력데이터만 인공지능스피커(110)로 송신될 수 있다. 그리고, 인공지능스피커(110)는 영상출력데이터를 TV장치(40) 등의 별도의 영상출력장치를 통해 출력할 수 있고, 음성출력데이터를 내장스피커 등을 통해 출력할 수 있다.
한편, 프로그램에 대한 조작은 전자펜(120)에서 생성되는 명령코드에 의해 이루어질 수 있다. 전자펜(120)은 조작부에 배치되는 조작버튼의 눌림을 인식하고, 각 조작버튼에 대응되는 명령코드를 생성하여 인공지능스피커(110)로 송신할 수 있다. 인공지능스피커(110)에서 프로그램이 실행되는 경우, 인공지능스피커(110)는 조작버튼에 대응되는 명령코드를 인식하여 프로그램의 기능을 조작할 수 있다. 그리고, 컨텐츠서버(140)에서 프로그램이 실행되는 경우, 인공지능스피커(110)는 조작버튼에 대응되는 명령코드를 컨텐츠서버(140)로 송신하고, 컨텐츠서버(140)는 명령코드를 인식하여 프로그램의 기능을 조작할 수 있다.
도 8은 일 실시예에 따른 전자펜 시스템에서 회화평가가 이루어지는 과정을 나타내는 도면이다.
도 8을 참조하면, 전자펜(120)은 마이크로폰을 통해 생성되는 제2음성데이터를 인공지능스피커(110)를 경유하여 인공지능서버(130)로 송신할 수 있다. 그리고, 인공지능서버(130)는 제2음성데이터를 텍스트데이터로 변환(STT: speech-to-text)하여 컨텐츠서버(140)로 송신할 수 있다. 그리고, 컨텐츠서버(140)는 텍스트데이터의 적합도를 판단하고, 판단결과를 인공지능스피커(110)를 통해 출력할 수 있다.
전자펜(120)은 제2음성데이터를 송신하기 전에 컨텐츠서버(140)로 제1회화문에 대응되는 일 컨텐츠코드를 컨텐츠서버(140)로 송신하고, 컨텐츠서버(140)는 제1회화문의 대답으로서 미리 설정된 제2회화문과 STT를 통해 변환된 텍스트데이터의 유사도를 판단하여 전술한 판단결과를 생성할 수 있다.
인쇄물(20)에는 제1회화문이 시각적으로 인식될 수 있는 크기로 인쇄되어 있고, 제1회화문에 대응되는 패턴이미지가 시각적으로 인식되지 않는 크기로 인쇄되어 있을 수 있다. 그리고, 인쇄물(20)에는 제1회화문에 대응되는 대답부분이 빈칸으로 형성되어 있을 수 있다.
사용자는 제1회화문을 확인하고 전자펜(120)으로 제1회화문을 지시할 수 있는데, 이때, 제1회화문에 대응되는 음성컨텐츠 및/혹은 영상컨텐츠가 인공지능스피커를 통해 출력될 수 있다. 그리고, 사용자는 제1회화문에 대한 대답으로서 특정 음성을 발화할 수 있는데, 이러한 음성은 인공지능스피커(110)에서 제2음성데이터로 변환된 후에 인공지능서버(130)로 송신될 수 있다.
인공지능서버(130)는 제2음성데이터를 STT엔진을 이용하여 텍스트데이터로 변환하고, 텍스트데이터를 컨텐츠서버(140)로 송신할 수 있다. 이때, 인공지능서버(130)는 텍스트데이터를 인공지능스피커(110)를 경유하여 송신할 수 있는데, 인공지능서버(110)는 텍스트데이터를 인공지능스피커(110)로 송신하고, 인공지능스피커(110)는 텍스트데이터를 컨텐츠서버(140)로 송신할 수 있다.
그리고, 컨텐츠서버(140)는 사용자의 대답이 적절한지를 판단하기 위해 수신되는 텍스트데이터와 미리 설정된 제2회화문의 유사도를 판단하고 판단결과를 인공지능스피커(110)로 송신할 수 있다. 이때, 제2회화문은 복수 개로 설정될 수 있고, 컨텐츠서버(140)는 복수의 제2회화문 각각과 텍스테이터의 유사도를 판단하고 유사도가 가장 높게 나온 것으로 판단결과를 생성할 수 있다.
도 9는 다른 실시예에 따른 전자펜 시스템의 구성을 나타내는 도면이다.
도 9를 참조하면, 전자펜 시스템(900)은 인공지능스피커(110), 전자펜(120), 인공지능서버(130) 및 텍스트서버(940) 등을 포함할 수 있다.
인쇄물(920)에는 사용자가 시각적으로 인식할 수 없는 크기로 인쇄된 패턴이미지가 포함될 수 있는데, 전자펜(120)은 이러한 패턴이미지를 촬영하고 패턴이미지에 대응되는 코드를 생성할 수 있다.
다른 실시예에서 인쇄물(920)에 인쇄된 패턴이미지는 좌표코드에 대응되는 패턴이미지일 수 있다. 전자펜(120)은 이러한 패턴이미지를 촬영하고 좌표코드를 생성하여 인공지능스피커(110)로 송신할 수 있다. 그리고, 인공지능스피커(110)는 좌표코드를 텍스트서버(940)로 송신할 수 있다.
도 1을 참조하여 설명한 것과 같이, 호출음성이 인식되면, 인공지능스피커(110)는 명령대기상태로 진입하고, 명령대기상태에서 인식되는 음성을 제1음성데이터로 변환하여 인공지능서버(130)로 송신할 수 있다.
그리고, 인공지능서버(130)는 음성명령에 대응되는 명령데이터를 명령수행장치로 송신하는데, 음성명령 중에서 전자펜을 호출하는 전자펜호출명령을 인식하면 이에 대응되는 제1명령데이터를 인공지능스피커(110)로 송신할 수 있다.
인공지능스피커(110)는 제1명령데이터를 수신하면 무선연결신호를 탐색하여 전자펜(120)과 무선연결하고 전자펜서비스상태로 진입할 수 있다.
그리고, 인공지능스피커(110)는 전자펜서비스상태에서 전자펜(120)으로부터 좌표코드를 수신하고 좌표코드를 텍스트서버(940)로 송신할 수 있다.
전자펜(120)는 다수의 좌표코드를 연속하여 인공지능스피커(110)로 송신할 수 있고, 인공지능스피커(110)는 다수의 좌표코드를 텍스트서버(940)로 송신할 수 있다.
텍스트서버(940)는 복수의 좌표코드를 수신하고, 복수의 좌표코드를 조합하여 텍스트를 생성할 수 있다. 그리고, 텍스트서버(940)는 텍스트를 변환한 음성데이터 및/또는 텍스트에 대응되는 영상데이터를 인공지능스피커(110)로 송신하고, 인공지능스피커(110)는 내장스피커를 이용하여 음성데이터를 출력할 수 있고, 텍스트를 미리 선택된 다른 서버로 송신할 수 있다.
여기서, 다른 서버는 날짜 혹은 시간별로 메모를 기록하고, 전자펜(120) 혹은 인공지능스피커(110)의 고유번호에 대응되는 저장공간에 텍스트를 날짜 혹은 시간별로 저장할 수 있다.
도 10은 다른 실시예에 따른 전자펜 시스템에 적용될 수 있는 인쇄물을 나타내는 도면이다.
도 10을 참조하면, 인쇄물에는 시각적으로 인식될 수 있는 크기의 격자들이 인쇄되고, 시각적으로 인식될 수 없는 크기의 패턴이미지가 위치별로 서로 다른 패턴으로 인쇄될 수 있다.
전자펜(120)에는 잉크와 같은 쓰기 수단이 포함되어 있고, 사용자가 전자펜(120)을 인쇄물(920)에 접촉할 때, 인쇄물(920)에 잉크와 같은 쓰기 수단이 뭍어 나올 수 있다.
사용자는 이러한 전자펜(120)의 쓰기 수단을 이용하여 인쇄물(920)에 글씨 혹은 그림을 그릴 수 있다. 전자펜(120)은 인쇄물(920)에 잉크와 같은 쓰기 수단을 뭍이면서 동시에 같은 위치를 OID모듈을 이용하여 촬영할 수 있다. 그리고, 전자펜(120)은 그 촬영된 패턴이미지에 대응되는 좌표코드를 인공지능스피커를 경유하여 텍스트서버로 송신할 수 있다. 그러면, 텍스트서버는 인쇄물(920)에 그려진 글씨 혹은 그림에 대응되는 좌표코드들을 수신할 수 있고, 사용자가 의도한 글씨를 텍스트로 변환할 수 있다.
인쇄물(920)에는 별도의 고유번호가 있는데, 전술한 다른 서버는 이러한 고유번호에 대응되는 저장공간에 인식된 글씨 혹은 그림을 저장할 수 있다.
이상에서 설명한 바와 같이 본 실시예에 의하면, 인공지능스피커와 전자펜이 연동됨으로써, 종래에 비해 획기적으로 개선된 사용자 편의성을 가지는 입력장치를 제공할 수 있다.
이상에서 기재된 "포함하다", "구성하다" 또는 "가지다" 등의 용어는, 특별히 반대되는 기재가 없는 한, 해당 구성 요소가 내재될 수 있음을 의미하는 것이므로, 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것으로 해석되어야 한다. 기술적이거나 과학적인 용어를 포함한 모든 용어들은, 다르게 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 사전에 정의된 용어와 같이 일반적으로 사용되는 용어들은 관련 기술의 문맥 상의 의미와 일치하는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (4)

  1. 제1음성데이터를 분석하여 상기 제1음성데이터에 포함된 음성명령을 인식하고, 상기 음성명령에 대응되는 명령데이터를 명령수행장치로 송신하는 인공지능서버;
    호출음성이 인식되면 명령대기상태로 진입하고, 상기 명령대기상태에서 인식되는 음성을 상기 제1음성데이터로 변환하여 상기 인공지능서버로 송신하는 인공지능스피커; 및
    인쇄물에 시각적으로 인식되지 않는 크기로 인쇄된 패턴이미지를 촬영하고, 상기 패턴이미지에 대응되는 코드를 생성하며, 상기 코드를 상기 인공지능스피커로 송신하는 전자펜을 포함하고,
    상기 전자펜은,
    복수의 조작버튼으로 구성되는 조작부를 포함하고, 상기 조작버튼에 대응되는 명령코드를 생성하여 상기 인공지능스피커로 송신하며,
    상기 인공지능서버는,
    상기 음성명령 중 상기 전자펜을 호출하는 전자펜호출명령에 대응되는 제1명령데이터를 상기 인공지능스피커로 송신하고,
    상기 인공지능스피커는,
    상기 제1명령데이터를 수신하면 무선연결신호를 탐색하여 상기 전자펜과 무선연결하고 전자펜서비스상태로 진입하며, 상기 전자펜서비스상태에서 상기 명령코드에 대응되는 기능을 수행하여 음성의 출력이나 영상의 출력을 변경하는 전자펜 시스템.
  2. 제1항에 있어서,
    상기 인공지능스피커는,
    TV(television)서비스상태에서 TV데이터를 수신하고 상기 TV데이터를 TV장치를 통해 출력하는 전자펜 시스템.
  3. 제1항에 있어서,
    상기 인공지능스피커는,
    무선연결된 상기 전자펜으로부터 제품식별데이터를 수신하고 상기 제품식별데이터에 대응되는 상기 전자펜의 외관이미지를 별도의 영상출력장치를 통해 표시하는 전자펜 시스템.
  4. 제1항에 있어서,
    상기 전자펜은,
    펜스피커를 내장하고, 상기 인공지능스피커와 무선연결되면 상기 펜스피커의 기능을 턴오프하는 전자펜 시스템.
KR1020200055763A 2020-05-11 2020-05-11 인공지능스피커의 기능을 조작하는 전자펜 시스템 KR102164774B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200055763A KR102164774B1 (ko) 2020-05-11 2020-05-11 인공지능스피커의 기능을 조작하는 전자펜 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200055763A KR102164774B1 (ko) 2020-05-11 2020-05-11 인공지능스피커의 기능을 조작하는 전자펜 시스템

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020180108804A Division KR102156054B1 (ko) 2018-09-12 2018-09-12 인공지능스피커와 연동되는 전자펜 시스템

Publications (2)

Publication Number Publication Date
KR20200054154A true KR20200054154A (ko) 2020-05-19
KR102164774B1 KR102164774B1 (ko) 2020-10-13

Family

ID=70913310

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200055763A KR102164774B1 (ko) 2020-05-11 2020-05-11 인공지능스피커의 기능을 조작하는 전자펜 시스템

Country Status (1)

Country Link
KR (1) KR102164774B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220149832A (ko) 2021-04-30 2022-11-09 주식회사 다비다 IoT 스타네트워크를 기반으로 스마트펜과 인공지능 스피커를 이용한 영어 학습 플랫폼 시스템 및 서비스 제공 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030026694A (ko) * 2001-09-26 2003-04-03 삼성전자주식회사 무선 헤드셋 전자펜을 이용한 통신 단말기의 동작 제어방법 및 그를 위한 무선 헤드셋 전자펜
US9619200B2 (en) * 2012-05-29 2017-04-11 Samsung Electronics Co., Ltd. Method and apparatus for executing voice command in electronic device
KR20170129045A (ko) * 2017-03-31 2017-11-24 김철회 콘텐츠 스트리밍 서비스용 전자펜과 그 전자펜을 이용한 콘텐츠 스트리밍 서비스 제공 시스템 및 방법
KR20180008107A (ko) * 2016-07-15 2018-01-24 김철회 전자 데이터 스트리밍 서비스용 전자펜, 그 전자펜을 이용한 전자 데이터 스트리밍 출력 시스템 및 방법
KR20180017548A (ko) * 2016-08-10 2018-02-21 김철회 전자펜 및 전자펜의 사용자 인증 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030026694A (ko) * 2001-09-26 2003-04-03 삼성전자주식회사 무선 헤드셋 전자펜을 이용한 통신 단말기의 동작 제어방법 및 그를 위한 무선 헤드셋 전자펜
US9619200B2 (en) * 2012-05-29 2017-04-11 Samsung Electronics Co., Ltd. Method and apparatus for executing voice command in electronic device
KR20180008107A (ko) * 2016-07-15 2018-01-24 김철회 전자 데이터 스트리밍 서비스용 전자펜, 그 전자펜을 이용한 전자 데이터 스트리밍 출력 시스템 및 방법
KR20180017548A (ko) * 2016-08-10 2018-02-21 김철회 전자펜 및 전자펜의 사용자 인증 방법
KR20170129045A (ko) * 2017-03-31 2017-11-24 김철회 콘텐츠 스트리밍 서비스용 전자펜과 그 전자펜을 이용한 콘텐츠 스트리밍 서비스 제공 시스템 및 방법

Also Published As

Publication number Publication date
KR102164774B1 (ko) 2020-10-13

Similar Documents

Publication Publication Date Title
US8873722B2 (en) Cradle for mobile telephone, videophone system, karaoke system, car navigation system, and emergency information notification system
TW442772B (en) Voice control input for portable capture devices
US20100268929A1 (en) Electronic device and setting method thereof
WO2021008538A1 (zh) 语音交互方法及相关装置
JP7279494B2 (ja) 会議支援装置、および会議支援システム
JP4268667B2 (ja) 音声情報記録装置
CN107945806A (zh) 基于声音特征的用户识别方法及装置
KR102164773B1 (ko) 마이크로폰으로 인공지능스피커와 연동되는 전자펜 시스템
KR102156055B1 (ko) 인공지능스피커와 연동하여 인터랙티브 프로그램을 제어하는 전자펜 시스템
KR102164774B1 (ko) 인공지능스피커의 기능을 조작하는 전자펜 시스템
CN107277368A (zh) 一种用于智能设备的拍摄方法及拍摄装置
KR102156054B1 (ko) 인공지능스피커와 연동되는 전자펜 시스템
KR20200056962A (ko) 인공지능스피커와 연동하여 tv를 제어하는 전자펜 시스템
CN105913841A (zh) 语音识别方法、装置及终端
US11978252B2 (en) Communication system, display apparatus, and display control method
KR20200056754A (ko) 개인화 립 리딩 모델 생성 방법 및 장치
KR102112931B1 (ko) Tv 제어 시스템
CN114373464A (zh) 文本展示方法、装置、电子设备及存储介质
KR20090052794A (ko) 인터랙티브 프리젠테이션 시스템 및 프리젠테이션 프로세스를 제어하는 음성 명령의 인증 방법
US20230280961A1 (en) Device management system, information processing system, information processing device, device management method, and non-transitory recording medium
CN106601044A (zh) 一种点读器利用无线技术传输信号至电子设备的点读方法
JP4248589B2 (ja) 音声認識システム
JP2017016484A (ja) コミュニケーションシステム、記録装置、端末装置、プログラムおよび情報処理方法
JP2023131635A (ja) 表示システム、表示方法、撮像装置、プログラム
JP2023137823A (ja) 機器システム、情報処理方法、情報処理システム、プログラム、撮像装置

Legal Events

Date Code Title Description
A107 Divisional application of patent
E701 Decision to grant or registration of patent right
GRNT Written decision to grant