WO2020235538A1 - システム及びストロークデータの処理方法 - Google Patents

システム及びストロークデータの処理方法 Download PDF

Info

Publication number
WO2020235538A1
WO2020235538A1 PCT/JP2020/019686 JP2020019686W WO2020235538A1 WO 2020235538 A1 WO2020235538 A1 WO 2020235538A1 JP 2020019686 W JP2020019686 W JP 2020019686W WO 2020235538 A1 WO2020235538 A1 WO 2020235538A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
semantic
processor
stroke data
pen
Prior art date
Application number
PCT/JP2020/019686
Other languages
English (en)
French (fr)
Inventor
マーカス ウェーバー
フィリップ ダニエル ションゲン
ジョス ダニエル ギファード-バーレイ
アフィナフ カナル
Original Assignee
株式会社ワコム
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ワコム filed Critical 株式会社ワコム
Priority to JP2021520787A priority Critical patent/JP7536003B2/ja
Priority to CN202080037781.5A priority patent/CN113892252A/zh
Priority to EP20810357.2A priority patent/EP3975532A4/en
Publication of WO2020235538A1 publication Critical patent/WO2020235538A1/ja
Priority to US17/529,955 priority patent/US12001803B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/171Editing, e.g. inserting or deleting by use of digital ink
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/1613Constructional details or arrangements for portable computers
    • G06F1/1626Constructional details or arrangements for portable computers with a single-body enclosure integrating a flat display, e.g. Personal Digital Assistants [PDAs]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/1613Constructional details or arrangements for portable computers
    • G06F1/1633Constructional details or arrangements of portable computers not specific to the type of enclosures covered by groups G06F1/1615 - G06F1/1626
    • G06F1/1637Details related to the display arrangement, including those related to the mounting of the display in the housing
    • G06F1/1643Details related to the display arrangement, including those related to the mounting of the display in the housing the display being associated to a digitizer, e.g. laptops that can be used as penpads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/0354Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of 2D relative movements between the device, or an operating part thereof, and a plane or surface, e.g. 2D mice, trackballs, pens or pucks
    • G06F3/03545Pens or stylus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/142Image acquisition using hand-held instruments; Constructional details of the instruments
    • G06V30/1423Image acquisition using hand-held instruments; Constructional details of the instruments the instrument generating sequences of position coordinates corresponding to handwriting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/274Devices whereby a plurality of signals may be stored simultaneously with provision for storing more than one subscriber number at a time, e.g. using toothed disc
    • H04M1/2745Devices whereby a plurality of signals may be stored simultaneously with provision for storing more than one subscriber number at a time, e.g. using toothed disc using static electronic memories, e.g. chips
    • H04M1/27453Directories allowing storage of additional subscriber data, e.g. metadata
    • H04M1/27457Management thereof, e.g. manual editing of data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/22Details of telephonic subscriber devices including a touch pad, a touch sensor or a touch detector
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means

Definitions

  • the present invention relates to a system for processing stroke data and a method for processing stroke data.
  • An ink file containing stroke data generated by handwriting input is known. If an ink file is used, it is possible to reproduce the state of handwriting by reproducing the stroke data contained in the ink file.
  • Patent Document 1 discloses an example of an ink file.
  • the ink file according to this example is configured to contain metadata for identifying the input device used for handwriting input. This metadata is used to realize decoding or reproduction processing of stroke data according to each input device.
  • AI Artificial Intelligence
  • the AI assistant executes tasks and services based on voice commands, and is realized in various smart devices such as smartphones, tablet terminals, and smart speakers, which have become popular in recent years.
  • Patent Document 2 discloses an example of the AI assistant.
  • one of the objects of the present invention is to provide a system and a method that can easily search the information indicated by the stroke data.
  • the system according to the present invention is a system having a processor, and the processor acquires stroke data generated in response to handwritten input and performs semantic analysis on the stroke data to obtain the meaning of the stroke data. It is a system that generates semantic metadata including the indicated semantic data and the target data determined based on the semantic data.
  • stroke data is generated in response to handwritten input, and the generated stroke data is subjected to semantic analysis to determine the meaning data indicating the meaning of the stroke data and the meaning data. It is a method of processing stroke data that generates semantic metadata including target data to be performed.
  • the information indicated by the stroke data can be easily searched.
  • FIG. (A) shows the structure of the system 1 by the 1st Embodiment of this invention.
  • FIG. (A) to (c) are diagrams showing tables stored in advance in the memory 12 of the AI assistant terminal 10 shown in FIG. 2, respectively.
  • FIG. 2 shows the user table stored in the memory 22 of the tablet terminal 20 shown in FIG.
  • FIG. 2 shows the process flow diagram which shows the process executed by the processor 11 of the AI assistant terminal 10 shown in FIG.
  • FIG. (A) is a diagram showing an example of the command generated in step S7 shown in FIG.
  • FIG. 6 is a diagram showing an example of the command shown in FIG. 6 with respect to the example shown in FIG.
  • FIG. It is a figure which shows the modification of the command generated in step S7.
  • It is a processing flow diagram which shows the processing executed by the processor 21 of the tablet terminal 20 shown in FIG.
  • FIG. 7A shows the screen 100 which is an example of GUI (Graphical User Interface) displayed on the display surface of the display 24 by the e-mail application activated by the processing flow of FIG.
  • GUI Graphic User Interface
  • FIG. 1 It is a processing flow diagram which shows the processing executed by the processor 21 of the tablet terminal 20 shown in FIG. It is a figure which shows an example of a series of stroke data generated in step S21 shown in FIG. It is a processing flow diagram which shows the processing executed by the processor 51 of the semantic ink server 50 shown in FIG.
  • A) is a diagram showing the result of grouping the ink files according to the example shown in FIG. 18 in step S31 shown in FIG. 19, and (b) is a diagram showing the results of grouping from each group shown in (a).
  • FIG. 19 It is a figure which shows the semantic metadata which is generated.
  • (A) is a diagram showing the result of grouping the ink files according to another example in step S31 shown in FIG. 19, and (b) is generated from each group shown in (a).
  • FIG. 5 is a diagram showing an example in which an alternative list constructed based on semantic metadata is displayed on the display 14 with respect to the example shown in FIG. It is a figure which shows the system 2 by the modification of the 2nd Embodiment of this invention.
  • FIG. 1 is a diagram showing a configuration of a system 1 according to the first embodiment of the present invention.
  • the system 1 is, for example, a system installed in a home, and includes an AI assistant terminal 10, a tablet terminal 20, and an electronic pen P.
  • the AI assistant terminal 10 is a computer that supports voice input and executes tasks and services in response to commands based on the input voice (hereinafter referred to as "voice commands"). Specifically, it is preferable to use a smart speaker, which has been attracting attention in recent years, as the AI assistant terminal 10.
  • the tablet terminal 20 is a computer configured to support touch input by the electronic pen P or a finger and to execute various applications such as a messaging application.
  • the AI assistant terminal 10 and the tablet terminal 20 are connected to each other by wire or wirelessly to form the system 1 according to the present embodiment.
  • FIG. 2 is a schematic block diagram showing the hardware configurations of the AI assistant terminal 10 and the tablet terminal 20.
  • the configurations of the AI assistant terminal 10 and the tablet terminal 20 will be described in detail with reference to FIG.
  • the processor 11, the memory 12, the communication unit 13, the display 14, the microphone 15, and the speaker 16 are included in the internal bus. It has a configuration that is interconnected via.
  • the processor 11 is a central processing unit that controls each part of the AI assistant terminal 10, and has a function of reading and executing a program stored in the memory 12.
  • the program executed by the processor 11 includes an AI engine that executes processing related to voice input such as voice recognition processing described later.
  • the processor 11 plays a role of generating a command for starting an application in the handwriting input mode by recognizing the voice input through the microphone 15 by the AI engine.
  • the memory 12 is a storage device configured to be able to store various programs and data.
  • the memory 12 includes a main storage device such as LPDDRS SDRAM (Low Power Double Data Rate Synchronous Dynamic Random Access Memory) and an auxiliary storage device such as flash memory or SSD (Solid State Drive). ..
  • data for associating a voice feature with a character string and data for associating a voice feature with a speaker's name data are stored in advance by machine learning, for example. ..
  • the AI engine performs a voice recognition process for converting the input voice into a character string and a speaker recognition process for identifying the speaker (user name) of the input voice.
  • FIG. (A) shows an operation content table for associating voice information with the content of the operation to be activated and the application to be activated.
  • the voice information is various kinds of information corresponding to the result of the recognition process performed by the AI engine, such as a character string indicating voice and a speaker of voice.
  • the processor 11 determines the content of the operation to be started and the application to be started based on the information obtained as a result of performing the input voice recognition process by the AI engine and the voice information stored in the operation content table. Is configured. For example, if the character string obtained as a result of the voice recognition process includes "Write Email", the processor 11 determines to start the e-mail application. Also, the character string obtained as a result of the voice recognition process should include "What is on my *? (What is on my *?)" (* Indicates an arbitrary character string). For example, the processor 11 determines the presentation of the ink file. In the present embodiment, the case of starting the former e-mail application will be described in detail. The latter case of presenting the ink file will be described in detail in the second embodiment.
  • FIG. 3B shows a startup mode table that associates voice information with a startup mode when starting an e-mail application. Although the figure shows only the startup mode table for the e-mail application, it is preferable to prepare a similar startup mode table for each application.
  • the processor 11 determines to start the e-mail application according to the table of FIG. 3 (a)
  • the processor 11 is configured to determine the start mode by referring to FIG. 3 (b) in order from the top.
  • FIG. 3B there are at least three startup modes in the startup mode of the e-mail application.
  • the first is an unlimited handwriting input mode, in which input with an arbitrary electronic pen P or a finger is possible.
  • the second is a handwriting input mode by the speaker, and in this mode, the input voice can be input by the speaker's electronic pen P. Input by another electronic pen P or finger is not allowed.
  • the third is a keyboard input mode, in which input can be performed using a virtual keyboard displayed on the display surface of the tablet terminal 20 or a physical keyboard externally attached to the tablet terminal 20.
  • the processor 11 first adds the character string "With pen” and the character "Pen is unlimited” to the character string obtained as a result of the voice recognition process. Determines if a column is included and, if so, determines to launch the e-mail application in unlimited handwriting input mode. On the other hand, if it is determined that it is not included, the processor 11 next determines whether or not the character string "With pen” is included in the character string obtained as a result of the voice recognition process, and is included. If it is determined to be present, it is determined to start the e-mail application in the handwriting input mode by the speaker. By repeating the determination in the same manner, the processor 11 determines the activation mode of the e-mail application. Finally, if the character string obtained as a result of the speech recognition process does not contain any of "With pen", "Pen is unlimited", and "With keyboard”, the processor 11 is the speaker. Will decide to launch the email application in handwriting input mode.
  • FIG. 3C shows a setting data table that associates voice information with setting data when starting an e-mail application.
  • the figure shows only the setting data table for the e-mail application, it is preferable to prepare a similar setting data table for each application.
  • the processor 11 is configured to determine the setting data by referring to FIG. 3C when starting the e-mail application according to the table of FIG. 3A. For example, if the character string obtained as a result of the voice recognition process contains the character string "To * (*)", the processor 11 applies the character string in the "*" part to the e-mail application. Determine as the destination. In addition, the user name of the speaker obtained as a result of the speaker recognition process is determined as the sender in the e-mail application.
  • the communication unit 13 is a functional unit for communicating with another computer via a network such as the Internet or peer-to-peer. Specifically, communication is possible by one or more of various communication standards such as wireless LAN, Bluetooth (registered trademark), and Ethernet (registered trademark).
  • the display 14 is a display device configured to be able to display various images according to the instructions of the processor 11, and is typically composed of a liquid crystal display or an organic EL display.
  • the microphone 15 is a voice input device that converts sound coming from the outside into a digital signal and supplies it to the processor 11.
  • the speaker 16 is an audio output device that converts an electric signal supplied from the processor 11 into audio and outputs it.
  • the processor 21, the memory 22, the communication unit 23, the display 24, and the sensor 25 are connected to each other via an internal bus. Has a configured configuration.
  • the processor 21 is a central processing unit that controls each part of the tablet terminal 20, and has a function of reading and executing a program stored in the memory 22.
  • the program executed by the processor 21 includes a messaging application configured to be able to send and receive handwritten data input by the electronic pen P.
  • the processor 21 plays a role of invoking the application in the handwriting input mode based on the command generated by the AI assistant terminal 10.
  • a messaging application is typically an email application configured to send and receive email, but others, such as an instant messenger configured to send and receive short messages in real time between connected users. It may be a type of messaging application. In the present embodiment, the description will be given by taking the case of using an e-mail application as an example.
  • the memory 22, the communication unit 23, and the display 24 are the same devices as the memory 12, the communication unit 13, and the display 14 of the AI assistant terminal 10, respectively, as hardware.
  • FIG. 4 is a diagram showing a user table stored in the memory 22.
  • this user table is a table that associates a user name with a pen ID.
  • the pen ID is data of a predetermined number of bits stored in advance in the electronic pen P, and has a role of identifying each electronic pen P.
  • the sensor 25 is a position detecting device configured to be able to detect the positions of the electronic pen P and the finger on the touch surface.
  • the touch surface is composed of the display surface of the display 24.
  • the sensor 25 is configured to periodically detect the positions of the electronic pen P and the finger existing on the touch surface, and supply the coordinates indicating the detected positions to the processor 21 each time the detection is performed.
  • the sensor 25 can detect both the electronic pen P and the finger, and can send and receive signals to and from the electronic pen P5 in both directions.
  • the signal transmitted by the electronic pen P in the bidirectional signal transmission / reception is referred to as an “downlink signal”, and the signal transmitted by the sensor 25 is referred to as an “uplink signal”.
  • the uplink signal is a signal that synchronizes the electronic pen P with the sensor 25 and plays a role of transmitting a command to the electronic pen P.
  • the sensor 25 is configured to periodically transmit an uplink signal.
  • the downlink signal includes a burst signal which is an unmodulated signal for causing the sensor 25 to detect the position of the electronic pen P, and a data signal for transmitting various data acquired in the electronic pen P to the sensor 25. Consists of.
  • the various data transmitted by the data signal includes data (pen pressure value) indicating the pressure applied to the pen tip, data indicating on / off information of the switch provided in the housing, the pen ID described above, and the like.
  • the electronic pen P continuously or intermittently receives the uplink signal when the sensor 25 has not been detected yet. Then, when the uplink signal transmitted by the sensor 25 is received, the transmission / reception schedule synchronized with the sensor 25 is determined. After that, the electronic pen P receives the uplink signal and the downlink signal according to the determined transmission / reception schedule. Further, when the command is included in the uplink signal, the electronic pen P acquires the data requested by the command, includes it in the data signal, and transmits it to the sensor 25. However, the pen pressure value is appropriately included in the data signal and transmitted to the sensor 25 so that the pen pressure value is periodically transmitted at a predetermined cycle regardless of the command.
  • the sensor 25 When the sensor 25 detects the downlink signal transmitted by the undetected electronic pen P in response to the uplink signal, the sensor 25 first transmits an uplink signal including a command requesting a pen ID to the electronic pen P. Have the pen ID sent. Then, the pen ID is acquired from the received data signal and supplied to the processor 21. In addition, the coordinates indicating the position of the electronic pen P are periodically acquired from the reception strength of the burst signal transmitted by the electronic pen P, and the pen pressure value is acquired from the data signal transmitted by the electronic pen P, and these are sequentially obtained. Data is supplied to the processor 21.
  • the processor 21 is configured to control the position of the cursor displayed on the display screen of the display 24 according to the coordinates supplied from the sensor 25. Further, when the handwriting input by the electronic pen P is accepted, the processor 21 monitors the pen pressure value supplied from the sensor 25, and when the pen pressure value becomes a value larger than 0 (that is, pen down occurs). In the case), the generation of stroke data indicating the locus of the electronic pen P is started. After that, while the pen pressure value is maintained at a value greater than 0, the coordinates and pen pressure values supplied one after another are sequentially added to the stroke data, and when the pen pressure value returns to 0 (that is, the pen-up is performed). When it occurs), the stroke data generation is finished. After that, the processor 21 generates a file (hereinafter, referred to as “ink file”) including one or more stroke data generated so far at a predetermined timing, and stores the file in the memory 22.
  • ink file a file
  • FIG. 5 is a processing flow diagram showing the processing executed by the processor 11 of the AI assistant terminal 10. As shown in the figure, the processor 11 first acquires the voice input to the microphone 15 (step S1), and performs the recognition processing of the acquired voice to convert the voice into a character string and talk about the voice. Identify the person (step S2).
  • FIG. 6 is a diagram showing a specific example for explaining the processing of the AI assistant terminal 10 shown in FIG.
  • the user emits the voice "Write E-mail to mom.”
  • the processor 11 performs a predetermined recognition process using the AI engine described above to convert the voice recorded by the microphone 15 into a character string "Write E-mail to mom.” And also to speak the voice "Write E-mail to mom.” Identify "Tom" (step S2).
  • the processor 11 determines to start the application based on the information obtained in step S2 (step S3), and further identifies the application to be started (step S4). These decisions are made by the processor 11 referring to the operation content table shown in FIG. 3 (a). In the example of FIG. 6, since the character string obtained in step S2 includes the character string “Write E-mail”, the processor 11 is set to 1 in the operation content table shown in FIG. 3 (a). Refer to the line. Then, according to the description on the first line, the application is decided to be started, and the application to be started is specified as an e-mail application.
  • the processor 11 further determines to start the application specified in step S4 in the handwriting input mode based on the information obtained in step S2 (step S5).
  • step S5 the information obtained in step S2
  • the processor 11 is shown in FIG. 3 (b). Refer to the 5th row of the startup mode table. Then, according to the description content on the fifth line, it is decided to start the application in the handwriting input mode by the speaker.
  • the processor 11 specifies the data to be set in the application specified in step S5 based on the information obtained in step S2 (step S6).
  • the processor 11 since the character string obtained in step S2 includes the character string “To Mom”, the processor 11 refers to the first row of the startup mode table shown in FIG. 3 (c). To do. Then, according to the description on the first line, "Mom" is specified as the destination. Further, when the speaker of the input voice is specified in step S2, the processor 11 refers to the second row of the activation mode table shown in FIG. 3C. Then, according to the description content on the second line, the user name of the specified speaker is specified as the sender.
  • the processor 11 starts the application specified in step S4 in the handwriting input mode determined in step S5, and generates a command for setting the data specified in step S6 (step S7).
  • FIG. 7A is a diagram showing an example of a command generated in step S7 with respect to the example shown in FIG.
  • the commands in this example include information that identifies the application to be launched (start), information that identifies the mode of the application to be launched (mode setting), information that identifies the source of the email, and the destination of the email. It is composed of information that identifies.
  • FIG. 7B is a diagram showing a modified example of the command generated in step S7 with respect to the example shown in FIG.
  • the memory 12 shown in FIG. 2 data indicating a connection between users and an e-mail address for each user are stored in advance.
  • the processor 11 reads Tom's mail address "Tom@xxx.com” from the memory 12.
  • Tom's mother is specified as the transmission destination
  • the processor 11 first identifies "Anna” as Tom's mother by referring to the information in the memory 12. Then, Anna's e-mail address "Anna@xxx.com” is read from the memory 12. After that, the processor 11 sets the two read e-mail addresses as the sender and the destination, respectively, instead of the character strings representing "Tom” and "Tom's mother".
  • the processor 11 that generated the command in step S8 then transmits the generated command to the tablet terminal 20 (step S9).
  • step S9 a series of processing performed by the processor 11 based on the input voice is completed.
  • FIG. 8 is a processing flow diagram showing the processing executed by the processor 21 of the tablet terminal 20.
  • the processor 21 first receives the command transmitted by the AI assistant terminal 10 (step S10) and interprets it (step S11). Then, the application instructed by the command is started (step S12), and the started application is set to the handwriting input mode according to the instruction of the command (step S13). Further, after setting the data instructed by the command in the application (step S14), the acceptance of handwriting input is started (step S15).
  • the application is started up in the handwriting input mode based on the voice recognition result, so that the user does not have to set the application to the handwriting input mode one by one by touch operation or the like. Allows you to start handwriting input immediately.
  • FIG. 9 is a diagram for more specifically describing the processing flow diagram of FIG. 8 with respect to the case where the command transmitted by the AI assistant terminal 10 has the contents shown in FIG. 7 (a). Steps S12a to 14a shown in the figure correspond to steps S12 to 14 in FIG. 8, respectively, and steps S15a to 15e indicate the processes performed in step S15 in FIG.
  • the application started in step S12 is an e-mail application (step S12a), and the mode set in step S13 is the handwriting input mode by Tom (the input means is limited to Tom's electronic pen P). (Step S13a), and the data set in step S14 becomes the source (Tom) and the destination (Tom's mother) instructed by the command (Step S14a).
  • FIG. 10 is a diagram showing a screen 100 which is an example of a GUI (Graphical User Interface) displayed on the display surface of the display 24 (see FIG. 2) by the e-mail application activated by the processing flow of FIG.
  • the screen 100 includes a mode display field 101, a source selection field 102, a destination input field 103, a carbon copy input field 104, a title input field 105, and a text input field 106. Consists of having.
  • the mode of the e-mail application set in step S13a is displayed by the processor 21. Further, in the source selection field 102 and the destination input field 103, the source and the destination set in step S13a are set by the processor 21, respectively.
  • the tablet terminal 20 has a built-in telephone directory application that stores a user name and an e-mail address in association with each other, and "Tom" and “Tom's mother” set for each of the source and destination are electronic.
  • the mail application automatically converts each of them into an e-mail address stored in the phonebook application.
  • the mode display field 101, the source selection field 102, and the destination input field 103 are all configured so that the setting contents can be changed by the user.
  • the mode display field 101 and the source selection field 102 are configured so that the user selects from preset options using the electronic pen P or a finger.
  • the destination input field 103 is configured so that the user inputs using the virtual keyboard displayed by the processor 21. It is preferable that the processor 21 displays the virtual keyboard in response to the user touching the destination input field 103 with the electronic pen P or a finger.
  • the carbon copy input field 104 and the title input field 105 are fields for inputting the carbon copy destination of the e-mail and the title of the e-mail, respectively, and both are configured to be inputable by the user. This input is executed by the user using the virtual keyboard as in the destination input field 103.
  • the text input field 106 is a field for inputting the text of the e-mail, and is configured to be inputable by the user.
  • the processor 21 sets the e-mail application to the "handwriting input mode”
  • the text input field 106 is in a state where input by the electronic pen P is possible.
  • the processor 21 sets the e-mail application to the "keyboard input mode”
  • the text input field 106 is in a state where keyboard input is possible.
  • the processor 21 whose source and destination are set in step S14a acquires the pen ID of Tom, who is the speaker of the input voice, by referring to the user table shown in FIG. 4 (step S15a). Subsequently, the processor 21 acquires the pen ID from the sensor 25 (step S15b). The pen ID acquired in step S15b is received by the sensor 25 from the electronic pen P approaching the touch surface as described above.
  • the processor 21 that acquired the pen ID in step S15b determines whether or not the pen IDs acquired in each of steps S15a and 15b match (step S15c). Then, if it is determined that they match, acceptance of handwritten input is started (step S15d). After that, the processor 21 generates stroke data according to a series of coordinates sequentially supplied from the sensor 25, and sequentially displays the stroke data in the text input field 106. On the other hand, if it is determined in step S15c that they do not match, the sensor 25 waits until a new pen ID is supplied. As a result, it is realized that only the input by Tom's electronic pen P, which is the speaker of the input voice, is allowed, and the input by another electronic pen P or a finger is not accepted.
  • the application since the application is started in the handwriting input mode by the voice recognition result, it is possible to start the handwriting input by the voice command.
  • the voice recognition result launches the e-mail application in handwriting input mode, which allows voice commands to start handwriting input of e-mail.
  • the AI assistant terminal 10 issues a command for starting the application in the handwriting input mode based on the voice recognition result.
  • the tablet terminal 20 may start the application in the handwriting input mode in which handwriting input is possible even if the electronic pen is different from the electronic pen associated with the speaker.
  • FIG. 11 is a diagram showing a system 1 according to a first modification of the present embodiment.
  • the system 1 according to this modification further includes an AI server 30.
  • the AI assistant terminal 10, the tablet terminal 20, and the AI server 30 are connected to each other via the network 40.
  • the network 40 is, for example, the Internet.
  • This modification is different from the present embodiment in that a part of the processing performed by the AI assistant terminal 10 in the present embodiment is executed by the AI server 30 having a higher processing capacity.
  • differences from the present embodiment will be mainly described.
  • the AI server 30 is a server installed in, for example, a data center of a company that provides a voice recognition service. As shown in FIG. 11, the processor 31, the memory 32, and the communication unit 33 are connected via an internal bus. It has a interconnected configuration.
  • the processor 31 is a central processing unit that controls each part of the AI server 30, and has a function of reading and executing a program stored in the memory 32.
  • the program executed by the processor 31 includes an AI engine that executes processing related to voice input such as voice recognition.
  • the memory 32 is a storage device configured to be able to store various programs and data.
  • the memory 32 includes a main storage device such as DDR4 SDRAM (Double Data Rate 4 Synchronous Dynamic Random Access Memory) and an auxiliary storage device such as a hard disk.
  • main storage device such as DDR4 SDRAM (Double Data Rate 4 Synchronous Dynamic Random Access Memory)
  • auxiliary storage device such as a hard disk.
  • the communication unit 33 is a functional unit for communicating with other computers via a network such as the Internet or peer-to-peer. Typically, it is configured to be communicable by the Ethernet® standard.
  • the processor 11 of the AI assistant terminal 10 When the processor 11 of the AI assistant terminal 10 according to this modification is supplied with a digital signal indicating voice from the microphone 15, the digital signal is transmitted to the AI server 30 in real time.
  • the processor 31 of the AI server 30 executes the processes of steps S2 to S7 shown in FIG. 5 using the digital signal thus transmitted in real time. Then, the command generated in step S7 is transmitted to the tablet terminal 20.
  • the process executed by the tablet terminal 20 that has received this command is the same as that of the present embodiment.
  • the AI server 30 having a high processing capacity can execute a process having a relatively large load such as voice recognition, the application can be launched in the handwriting input mode at a higher speed.
  • FIG. 12 is a diagram showing a system 1 according to a second modification of the present embodiment.
  • the system 1 according to this modification is composed of one AI assistant terminal 10.
  • the AI assistant terminal 10 has a configuration in which a sensor 17 is added to the AI assistant terminal 10 according to the present embodiment, as will be understood as compared with FIG.
  • the sensor 17 is a position detection device similar to the sensor 25 shown in FIG. 2, and is configured to be capable of detecting the positions of the electronic pen P and the finger on the touch surface.
  • the touch surface is composed of the display surface of the display 14.
  • the processor 11 according to the present embodiment generates a command by performing the processes of steps S1 to S7 shown in FIG. 5, and then executes the processes of steps S11 to S15 shown in FIG. 8 with respect to the command.
  • the process executed in collaboration with the AI assistant terminal 10 and the tablet terminal 20 in the present embodiment will be executed by one AI assistant terminal 10 in this modification.
  • the system 1 is configured by one AI assistant terminal 10
  • FIG. 13 is a diagram showing a configuration of a system 2 according to a second embodiment of the present invention.
  • the system 2 includes, for example, an AI assistant terminal 10, a tablet terminal 20, and an electronic pen P installed in a home, and a semantic ink server 50 installed outside, for example. Will be done.
  • the configurations of the AI assistant terminal 10 and the tablet terminal 20 are as described in the first embodiment.
  • the semantic ink server 50 is a server that executes the semantic (meaning) analysis of the ink file described above.
  • the AI assistant terminal 10, the tablet terminal 20, and the semantic ink server 50 are connected to each other via the network 40.
  • the network 40 is, for example, the Internet.
  • FIG. 14 is a schematic block diagram showing the hardware configurations of the AI assistant terminal 10, the tablet terminal 20, and the semantic ink server 50, respectively.
  • the hardware configurations of the AI assistant terminal 10 and the tablet terminal 20 are the same as those described with reference to FIG.
  • FIG. 15 is a diagram showing an ink file database stored in the memory 12 of the AI assistant terminal 10.
  • the ink file database is configured to store the ink file, the semantic metadata, and the pen ID in association with each other.
  • Semantic metadata is data obtained as a result of semantic analysis of an ink file and includes target data indicating the purpose of the ink file. The generation of semantic metadata will be described in detail later with reference to FIGS. 19 to 21.
  • FIG. 16 (a) and 16 (b) are diagrams showing tables stored in the memory 12 of the AI assistant terminal 10, respectively.
  • FIG. 3A is a reprint of FIG. 3A.
  • FIG. 16B shows a presentation content table that associates the voice information with the type of ink file to be presented.
  • the type of the ink file to be presented is determined by referring to FIG. 16B, and the determined type is determined. It is configured to present the ink file of. For example, if the character string obtained as a result of the voice recognition process includes the character string "Shopping List", the processor 11 uses the ink file whose target data is the "shopping list”. Determine the presentation.
  • the user table shown in FIG. 4 is also stored in the memory 12 of the AI assistant terminal 10.
  • the processor 11 of the AI assistant terminal 10 refers to this user table in step S22 of FIG. 23, which will be described later. Details will be described later.
  • the semantic ink server 50 has a configuration in which the processor 51, the memory 52, and the communication unit 53 are connected to each other via an internal bus.
  • the processor 51 is a central processing unit that controls each part of the semantic ink server 50, and has a function of reading and executing a program stored in the memory 32.
  • the program executed by the processor 51 executes a character recognition process for recognizing a character from a figure composed of a plurality of stroke data in an ink file, and a semantic analysis for analyzing the meaning represented by the recognized character. Includes ink engine.
  • the memory 52 is a storage device configured to be able to store various programs and data.
  • the memory 52 includes a main storage device such as DDR4 SDRAM described above and an auxiliary storage device such as a hard disk.
  • the communication unit 53 is a functional unit for communicating with other computers via a network such as the Internet or peer-to-peer. Typically, it is configured to be communicable by the Ethernet® standard.
  • FIG. 17 is a processing flow diagram showing the processing executed by the processor 21 of the tablet terminal 20 according to the present embodiment.
  • the processor 21 first acquires the pen ID from the sensor 25 (step S20). This process is the same as step S15b in FIG. Subsequently, the processor 21 accepts the handwriting input (step S21). Specifically, as described above, one or more stroke data including a series of coordinates and pen pressure values sequentially supplied from the sensor 25 are generated.
  • the processor 21 generates an ink file containing one or more stroke data generated in step S20 (step S22).
  • the ink file generated here typically contains one or more stroke data input by the handwriting input started in step S15 shown in FIG. 8, but by the handwriting input started by another procedure. It may include one or more input stroke data.
  • the processor 21 associates the generated ink file with the pen ID acquired in step S20 and transmits the generated ink file to the semantic ink server 50 (step S23).
  • FIG. 18 is a diagram showing an example of a series of stroke data generated in step S21.
  • each character string of "-milk”, “-bread”, “-eggs”, and “-apples” is handwritten on the display surface of the tablet terminal 20 using the electronic pen P.
  • the processor 21 stores a plurality of stroke data constituting these character strings in one ink file, associates them with the pen ID of the electronic pen P, and transmits the stroke data to the semantic ink server 50.
  • FIG. 19 is a processing flow diagram showing the processing executed by the processor 51 of the semantic ink server 50.
  • the processor 51 first acquires the ink file and the pen ID transmitted by the tablet terminal 20 (step S30). Then, by performing character recognition, a plurality of stroke data in the ink file are grouped (step S31).
  • FIG. 20A is a diagram showing the result of grouping the ink files according to the example shown in FIG. 18 in step S31.
  • FIG. 21A is a diagram showing the result of grouping the ink files according to another example in step S31.
  • the processor 51 first generates a group g0 representing the entire ink file, and then extracts a region with characters to generate a child group g1 in the group g0.
  • the processor 51 recognizes the symbol "-" and classifies each line starting with "-" into one grandchild group.
  • four grandchild groups g2 to g5 are generated in the child group g1.
  • the symbol "-" is referred to here, it is of course possible to generate a grandchild group based on another symbol. Whatever symbol is used, the user needs to know in advance the symbols referenced for grouping. By doing so, the user can intentionally create a group.
  • the grouped processor 51 then performs semantic analysis on each grouped stroke data to generate semantic metadata including target data indicating the purpose of the ink file (step S32). ..
  • FIG. 20 (b) is a diagram showing semantic metadata generated from each group shown in FIG. 20 (a)
  • FIG. 21 (b) is a diagram generated from each group shown in FIG. 21 (a). It is a figure which shows the semantic metadata which is done.
  • the processor 51 first sets the parent-child relationship of the groups g0 to g5. Then, since there are four groups g2 to g5 classified by recognizing the symbol "-" in the group g1, the meaning of "list” is associated with the group g1 and each of the groups g2 to g5. Correspond the meaning of "list item”. Further, by performing character recognition processing and semantic analysis on one or more stroke data belonging to each of the groups g2 to g5, in the example of FIG.
  • each of the groups g2 to g5 and each of the groups g2 to g5 are obtained.
  • Each word of “milk”, “bread”, “eggs”, and “apples”, which are semantic data indicating the meaning of one or more stroke data belonging to, is associated with each other in FIG. 21 (b).
  • “Provide an approval document (preparation of approval document)” "Tel Company A (call to company A)”
  • "Interview B interview with Mr. B)”
  • “Purchase summer gift” for each of the groups g2 to g5. (Purchase of middle yuan) ” is associated with each phrase. Note that, due to space limitations, some descriptions are omitted in FIG. 21B.
  • the processor 51 further determines the target data indicating the purpose of the list by performing an analysis based on the contents of the words and phrases associated with each of the groups g2 to g5, and associates them with the group g1.
  • a "shopping list” is determined as target data from the contents of the terms “milk”, “bread”, “eggs”, and “apples”, and is associated with the group g1.
  • the "ToDo list (to-do list)" is determined as the target data from the contents of the phrases “Provide an approval document", "Tel Company A", “Interview B", and "Purchase summer gift”. , Associated with group g1.
  • the processor 51 that generated the semantic metadata as described above generates data including the ink file and pen ID acquired in step S30 and the semantic metadata generated in step S32 (step S33), and AI assistant. It is transmitted to the terminal 10 (step S34).
  • FIG. 22 is a processing flow diagram showing the processing executed by the processor 11 of the AI assistant terminal 10 according to the present embodiment.
  • the AI assistant terminal 10 receives the data transmitted by the semantic ink server 50 in step S34 of FIG. 19 (step S40)
  • the AI assistant terminal 10 stores the received data in the ink file database shown in FIG. 15 (step S41). This makes it possible to have the AI assistant terminal 10 present the ink file by a voice command as described below.
  • FIG. 23 is a processing flow diagram showing other processing executed by the processor 11 of the AI assistant terminal 10 according to the present embodiment.
  • FIG. 21 shows a process for presenting an ink file stored in the ink file database shown in FIG. 21 in response to a voice command. Hereinafter, this process will be described in detail.
  • the processor 11 executes steps S1 and S2 described with reference to FIG.
  • FIG. 24 is a diagram showing a specific example for explaining the processing of the AI assistant terminal 10 shown in FIG. 23.
  • the user makes a voice "What is on my shopping list?” (What is on my shopping list?).
  • the processor 11 converts the above-mentioned voice recorded by the microphone 15 into a character string "What is on my shopping list?" By performing a predetermined recognition process using the above-mentioned AI engine, and also converts the voice speaker "What is on my shopping list?" Identify "Tom" (step S2).
  • the processor 11 determines the presentation of the ink file based on the information obtained in step S2 (step S50).
  • the processor 11 uses the operation content table shown in FIG. 16 (a). Refer to the second line of. Then, the presentation of the ink file is determined according to the description on the second line.
  • the processor 11 specifies the type of ink file to be presented based on the information obtained in step S2 (step S51).
  • the processor 11 since the character string obtained in step S2 includes the character string “shopping list”, the processor 11 refers to the first row of the presentation content table shown in FIG. 16 (b). To do. Then, according to the description on the first line, it is decided to present the ink file which is a shopping list.
  • the processor 11 selects one or more data from the ink file database shown in FIG. 15 based on the pen ID selected in step S52 (step S53). That is, among the plurality of data stored in the ink file database, the data stored in association with the pen ID selected in step S52 is selected. For example, in the example of FIG. 15, if the pen ID selected in step S52 is "0001", the data related to the ink file 01 and the data related to the ink file 03 are selected.
  • the processor 11 further selects the type of data specified in step S51 by referring to the semantic metadata of each data selected in step S53 (step S54). That is, among the data selected in step S53, the data stored in the ink file database is selected in association with the target data corresponding to the type specified in step S51.
  • the processor 11 described above since the type of the ink file specified in step S51 is the shopping list as described above, the processor 11 described above in the semantic metadata from the data selected in step S53. Select the data whose target data is "shopping list".
  • the processor 11 presents the data selected in step S54 to the user together with the target data (step S55).
  • the information presented here may be the ink file itself, that is, one or more stroke data, or semantic metadata, that is, the target data or semantic data of the stroke data. Further, as a presentation method, it may be displayed on the display 14 shown in FIG. 14, or the semantic metadata may be output as voice from the speaker 16 shown in FIG. 14 by using voice reading software. ..
  • FIG. 25 is a diagram showing an example in which an ink file is displayed on the display 14 with respect to the example shown in FIG. 20.
  • FIG. 26 is a diagram showing an example in which an alternative list constructed based on semantic metadata is displayed on the display 14 with respect to the example shown in FIG.
  • the ink file can be presented in a state that is easy for the user to read.
  • the phrase "shopping list" shown at the top of each figure indicates the target data presented together with the data selected in step S54.
  • the ink generated by handwriting input using the purpose of the ink file automatically assigned by the semantic analysis (“shopping list”, “ToDo list”, etc.) as a search key since the file can be searched, the ink file can be easily searched.
  • the ink file can be searched by uttering the purpose of the ink file ("shopping list", "ToDo list”, etc.).
  • FIG. 27 is a diagram showing a system 2 according to a modified example of the present embodiment.
  • the system 1 according to this modification is configured to further include a cloud server 60.
  • This modification differs from the present embodiment in that the ink file database shown in FIG. 15 is constructed not in the AI assistant terminal 10 but in the cloud server 60.
  • differences from the present embodiment will be mainly described.
  • the semantic ink server 50 executes a process of transmitting the data generated in step S33 to the cloud server 60 instead of step S34 in FIG. 19 (step S100).
  • the cloud server 60 that receives the data transmitted in this way internally executes the same processing as that of the AI assistant terminal 10 shown in FIG. As a result, the ink file database shown in FIG. 15 is constructed in the cloud server 60.
  • the AI assistant terminal 10 is a command (for example, SQL command) including the pen ID selected in step S52 and the ink file type specified in step S51 instead of steps S53 and S54 shown in FIG. 23. Is transmitted to the cloud server 60 (step S101). Upon receiving this command, the cloud server 60 selects one or more data from the ink file database based on the received pen ID, and by referring to the semantic metadata of each selected data, further receives the data. Select the type of data you have selected. Then, the finally selected data is returned to the AI assistant terminal 10 (step S102). The AI assistant terminal 10 that has received the data returned in this way executes the process of step S55 shown in FIG. 24.
  • a command for example, SQL command
  • the ink file database is constructed in the cloud server 60, for example, the ink files generated by each of the plurality of tablet terminals 20 owned by a certain company are stored in one ink file database. A plurality of ink files stored in this ink file database can be searched from a plurality of AI assistant terminals 10 owned by the same company.
  • the processor 11 of the AI assistant terminal 10 uses the character string obtained by the voice recognition process and the “voice” of FIGS. 3 (a) to (c) or 16 (a) and 16 (b).
  • the content of the operation to be activated was determined by comparing with the character string described in the "information" column, but in the voice recognition process, the input voice and FIGS. 3 (a) to 3 (c)
  • the content of the operation to be activated is determined by comparing the voice obtained by uttering the character string described in the "voice information" column of FIGS. 16A and 16B on a voice basis. May be.
  • the present invention can also be configured as follows. According to this, it becomes possible to provide a system that enables handwriting input using the AI assistant.
  • [Claim 1] By recognizing the voice input through the microphone, it generates a command to start the application in handwriting input mode, Launch the application in the handwriting input mode based on the generated command. system.
  • [Claim 2] By recognizing the voice, the speaker of the voice is identified, In the handwriting input mode, it is possible to input with an electronic pen associated with the specified speaker.
  • the application is a messaging application configured to transmit handwritten data input by the electronic pen.
  • [Claim 4] By recognizing the voice, the speaker of the voice is identified, Set the speaker as the source of the handwritten data, The system according to claim 3.
  • [Claim 5] By recognizing the voice, the destination of the handwritten data is specified, Set the destination as the destination of the handwritten data, The system according to claim 3.
  • [Claim 6] It has a first table that associates the voice information corresponding to the result of the voice recognition process with the application to be started. The application to be started is determined based on the information obtained by recognizing the voice and the voice information stored in the first table. The system according to claim 1.
  • [Claim 7] It has a second table that associates the voice information corresponding to the result of the voice recognition process with the start mode of the application to be started.
  • the startup mode of the application to be started is determined.
  • the application to be activated is used. Specify the data to be set,
  • AI Server 40 Network 50 Semantic ink server 60 Cloud server 100 Screen 101 Mode display field 102 Source selection field 103 Destination input field 104 Carbon copy input field 105 Title input field 106 Body input field g0 to g5 groups

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Acoustics & Sound (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Library & Information Science (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

【課題】ストロークデータが示す情報を容易に検索できるシステム及び方法を提供する。 【解決手段】本発明によるシステム1は、プロセッサ51を有するシステムである。プロセッサ51は、手書き入力により生成されたストロークデータを取得し、このストロークデータに対してセマンティック分析を行うことによって、ストロークデータの意味を示す意味データ及び意味データに基づいて決定される目的データを含むセマンティック・メタデータを生成する。

Description

システム及びストロークデータの処理方法
 本発明は、ストロークデータを処理するシステム及びストロークデータの処理方法に関する。
 手書き入力により生成されたストロークデータを含むインクファイルが知られている。インクファイルを用いれば、その中に含まれるストロークデータを再生することにより、手書きの様子を再現することが可能になる。
 特許文献1には、インクファイルの一例が開示されている。この例によるインクファイルは、手書き入力に用いられた入力デバイスを識別するためのメタデータを含んで構成される。このメタデータは、入力デバイスの別に応じたストロークデータの復号あるいは再生処理を実現するために利用される。
 また、近年、AI(Artificial Intelligence)アシスタントが注目されている。AIアシスタントは、音声コマンドに基づいてタスクやサービスを実行するものであり、スマートフォン、タブレット端末、スマートスピーカーなど、近年普及の著しい各種スマートデバイスで実現されている。特許文献2には、AIアシスタントの一例が開示されている。
国際公開第2016/157400号明細書 米国特許第9384732号明細書
 ところで、インクファイルに含まれるストロークデータが示す情報を検索するのは骨の折れる作業である。そこで、ストロークデータが示す情報を簡単に検索できるようにする技術が必要とされていた。
 したがって、本発明の目的の一つは、ストロークデータが示す情報を容易に検索できるシステム及び方法を提供することにある。
 本発明によるシステムは、プロセッサを有するシステムであり、前記プロセッサは、手書き入力に応じて生成されたストロークデータを取得し、前記ストロークデータに対してセマンティック分析を行うことによって、前記ストロークデータの意味を示す意味データ及び前記意味データに基づいて決定される目的データを含むセマンティック・メタデータを生成する、システムである。
 本発明による方法は、手書き入力に応じてストロークデータを生成し、前記生成されたストロークデータに対してセマンティック分析を行うことによって、前記ストロークデータの意味を示す意味データ及び前記意味データに基づいて決定される目的データを含むセマンティック・メタデータを生成する、ストロークデータの処理方法である。
 本発明によれば、ストロークデータが示す情報を容易に検索することが可能になる。
本発明の第1の実施の形態によるシステム1の構成を示す図である。 図1に示したAIアシスタント端末10及びタブレット端末20それぞれのハードウェア構成を示す略ブロック図である。 (a)~(c)はそれぞれ、図2に示したAIアシスタント端末10のメモリ12に予め格納されるテーブルを示す図である。 図2に示したタブレット端末20のメモリ22に記憶されるユーザテーブルを示す図である。 図2に示したAIアシスタント端末10のプロセッサ11によって実行される処理を示す処理フロー図である。 図5に示したAIアシスタント端末10の処理を説明するための具体例を示す図である。 (a)は、図6に示した例に関して、図5に示したステップS7で生成されるコマンドの例を示す図であり、(b)は、図6に示した例に関して、図5に示したステップS7で生成されるコマンドの変形例を示す図である。 図2に示したタブレット端末20のプロセッサ21によって実行される処理を示す処理フロー図である。 AIアシスタント端末10によって送信されたコマンドが図7(a)に示した内容を有する場合に関して、図8の処理フロー図をより具体的に記述してなる図である。 図9の処理フローにより起動される電子メールアプリケーションによってディスプレイ24の表示面に表示されるGUI(Graphical User Interface)の一例である画面100を示す図である。 本発明の第1の実施の形態の第1の変形例によるシステム1を示す図である。 本発明の第1の実施の形態の第2の変形例によるシステム1を示す図である。 本発明の第2の実施の形態によるシステム2の構成を示す図である。 図13に示したAIアシスタント端末10、タブレット端末20、及びセマンティック・インクサーバ50それぞれのハードウェア構成を示す略ブロック図である。 図14に示したAIアシスタント端末10のメモリ12内に記憶されるインクファイルデータベースを示す図である。 (a)(b)はそれぞれ、図14に示したAIアシスタント端末10のメモリ12に予め格納されるテーブルを示す図である。 図14に示したタブレット端末20のプロセッサ21によって実行される処理を示す処理フロー図である。 図17に示したステップS21で生成される一連のストロークデータの一例を示す図である。 図14に示したセマンティック・インクサーバ50のプロセッサ51によって実行される処理を示す処理フロー図である。 (a)は、図18に示した例によるインクファイルについて、図19に示したステップS31のグループ化を行った結果を示す図であり、(b)は、(a)に示した各グループから生成されるセマンティック・メタデータを示す図である。 (a)は、他の例によるインクファイルについて、図19に示したステップS31のグループ化を行った結果を示す図であり、(b)は、(a)に示した各グループから生成されるセマンティック・メタデータを示す図である。 図14に示したAIアシスタント端末10のプロセッサ11によって実行される処理を示す処理フロー図である。 図14に示したAIアシスタント端末10のプロセッサ11によって実行される他の処理を示す処理フロー図である。 図23に示したAIアシスタント端末10の処理を説明するための具体例を示す図である。 図20に示した例に関して、インクファイルをディスプレイ14に表示した例を示す図である。 図20に示した例に関して、セマンティック・メタデータに基づいて構成した代替リストをディスプレイ14に表示した例を示す図である。 本発明の第2の実施の形態の変形例によるシステム2を示す図である。
 以下、添付図面を参照しながら、本発明の実施の形態について詳細に説明する。
 図1は、本発明の第1の実施の形態によるシステム1の構成を示す図である。同図に示すように、システム1は例えば家庭内に設置されるシステムであり、AIアシスタント端末10と、タブレット端末20と、電子ペンPとを有して構成される。
 AIアシスタント端末10は、音声入力に対応し、入力された音声に基づくコマンド(以下、「音声コマンド」と称する)に応じてタスクやサービスを実行するコンピュータである。AIアシスタント端末10として具体的には、近年注目されているスマートスピーカーを用いることが好適である。タブレット端末20は、電子ペンP又は指によるタッチ入力に対応し、メッセージングアプリケーションなどの各種アプリケーションを実行可能に構成されたコンピュータである。AIアシスタント端末10及びタブレット端末20は、有線又は無線により互いに接続された状態で、本実施の形態によるシステム1を構成する。
 図2は、AIアシスタント端末10及びタブレット端末20それぞれのハードウェア構成を示す略ブロック図である。以下、この図2を参照しながら、AIアシスタント端末10及びタブレット端末20それぞれの構成について詳しく説明する。
 初めにAIアシスタント端末10に着目すると、AIアシスタント端末10は、図2に示すように、プロセッサ11と、メモリ12と、通信部13と、ディスプレイ14と、マイク15と、スピーカー16とが内部バスを介して相互に接続された構成を有している。
 プロセッサ11は、AIアシスタント端末10の各部を制御する中央処理装置であり、メモリ12内に格納されるプログラムを読み出して実行する機能を有する。プロセッサ11により実行されるプログラムには、後述する音声認識処理などの音声入力にかかる処理を実行するAIエンジンが含まれる。プロセッサ11は、マイク15を通じて入力された音声をこのAIエンジンによって認識することにより、手書き入力モードでアプリケーションを起動するためのコマンドを生成する役割を果たす。
 メモリ12は、各種のプログラム及びデータを格納可能に構成された記憶装置である。典型的な例では、メモリ12には、LPDDR SDRAM(Low Power Double Data Rate Synchronous Dynamic Random Access Memory)などの主記憶装置と、フラッシュメモリ又はSSD(Solid State Drive)などの補助記憶装置とが含まれる。
 メモリ12には、音声の特徴と文字列とを関連付けるデータ、及び、音声の特徴と話者の名前データ(以下、「ユーザ名」という)とを関連付けるデータが、例えば機械学習によって予め格納される。AIエンジンは、これらのデータを参照することにより、入力音声を文字列に変換する音声認識処理、及び、入力音声の話者(ユーザ名)を特定する話者認識処理を行う。
 図3(a)~(c)はそれぞれ、メモリ12に予め格納されるテーブルを示す図である。同図(a)には、音声情報と、起動すべき動作の内容と、起動対象のアプリケーションとを対応付ける動作内容テーブルを示している。なお、音声情報は、音声を示す文字列や音声の話者など、AIエンジンが行う認識処理の結果に対応する各種の情報である。
 プロセッサ11は、AIエンジンによって入力音声の認識処理を行った結果として得られた情報と、動作内容テーブルに格納される音声情報とに基づき、起動すべき動作の内容及び起動対象のアプリケーションを決定するよう構成される。例えば、音声認識処理の結果として得られた文字列に「Write Email(電子メールを書く)」が含まれていれば、プロセッサ11は、電子メールアプリケーションの起動を決定する。また、音声認識処理の結果として得られた文字列に「What is on my *?(私の*には何が載っている?)」(*は任意の文字列を表す)が含まれていれば、プロセッサ11は、インクファイルの提示を決定する。本実施の形態では、前者の電子メールアプリケーションを起動する場合について、詳しく説明する。後者のインクファイルの提示を行う場合については、第2の実施の形態で詳しく説明する。
 図3(b)には、音声情報と、電子メールアプリケーションを起動する場合の起動モードとを対応付ける起動モードテーブルを示している。なお、同図には電子メールアプリケーション用の起動モードテーブルのみを示しているが、アプリケーションごとに同様の起動モードテーブルを用意することが好ましい。
 プロセッサ11は、図3(a)のテーブルに従って電子メールアプリケーションの起動を決定した場合、図3(b)を上から順に参照することによって、その起動モードを決定するよう構成される。ここで、図3(b)に示すように、電子メールアプリケーションの起動モードには、少なくとも3つの起動モードがある。1つ目は無制限手書き入力モードであり、このモードでは、任意の電子ペンP又は指による入力が可能になる。2つ目は話者による手書き入力モードであり、このモードでは、入力音声の話者の電子ペンPによる入力が可能になる。他の電子ペンP又は指による入力は許容されない。3つ目はキーボード入力モードであり、このモードでは、タブレット端末20の表示面に表示される仮想キーボード、又は、タブレット端末20に外付けされる物理キーボードによる入力が可能になる。
 図3(b)の例では、プロセッサ11はまず、音声認識処理の結果として得られた文字列に「With pen(ペンで)」という文字列及び「Pen is unlimited(ペンは無制限)」という文字列が含まれているか否かを判定し、含まれていると判定した場合に、無制限手書き入力モードで電子メールアプリケーションを起動することを決定する。一方、含まれていないと判定した場合、プロセッサ11は次に、音声認識処理の結果として得られた文字列に「With pen」という文字列が含まれているか否かを判定し、含まれていると判定した場合に、話者による手書き入力モードで電子メールアプリケーションを起動することを決定する。以下同様に判定を繰り返すことにより、プロセッサ11による電子メールアプリケーションの起動モードの決定が実行される。最終的に、音声認識処理の結果として得られた文字列に「With pen」「Pen is unlimited」「With keyboard(キーボードで)」のいずれもが含まれていなかった場合、プロセッサ11は、話者による手書き入力モードで電子メールアプリケーションを起動することを決定することになる。
 なお、本実施の形態では「無制限手書き入力モード」と「話者による手書き入力モード」とを区別する例を説明するが、これらを特に区別せず単に「手書き入力モード」として扱ってもよい。また、図3(b)に示した起動モードテーブルを用いず、音声認識処理の結果として得られた文字列に「Write Email(電子メールを書く)」が含まれていれば、「手書き入力モード」で電子メールアプリケーションを起動することとしてもよい。
 図3(c)には、音声情報と、電子メールアプリケーションを起動する場合の設定データとを対応付ける設定データテーブルを示している。なお、同図には電子メールアプリケーション用の設定データテーブルのみを示しているが、アプリケーションごとに同様の設定データテーブルを用意することが好ましい。
 プロセッサ11は、図3(a)のテーブルに従って電子メールアプリケーションを起動する場合、図3(c)を参照することによって設定データを決定するよう構成される。例えば、音声認識処理の結果として得られた文字列に「To *(*に)」という文字列が含まれていた場合、プロセッサ11は、「*」の部分に入る文字列を、電子メールアプリケーションに送信先として決定する。また、話者認識処理の結果として得られた話者のユーザ名を、電子メールアプリケーションに送信元として決定する。
 図2に戻る。通信部13は、インターネットなどのネットワークを介して、又は、ピアツーピアで他のコンピュータと通信するための機能部である。具体的には、無線LAN、ブルートゥース(登録商標)、イーサネット(登録商標)など各種の通信規格のうちの1つ以上により通信可能に構成される。
 ディスプレイ14は、プロセッサ11の指示に従って各種の画像を表示可能に構成された表示装置であり、典型的には、液晶ディスプレイ又は有機ELディスプレイにより構成される。マイク15は、外部から到来した音声をデジタル信号に変換してプロセッサ11に供給する音声入力装置である。スピーカー16は、プロセッサ11から供給された電気信号を音声に変換して出力する音声出力装置である。
 次にタブレット端末20に着目すると、タブレット端末20は、図2に示すように、プロセッサ21と、メモリ22と、通信部23と、ディスプレイ24と、センサ25とが内部バスを介して相互に接続された構成を有している。
 プロセッサ21は、タブレット端末20の各部を制御する中央処理装置であり、メモリ22内に格納されるプログラムを読み出して実行する機能を有する。プロセッサ21により実行されるプログラムには、電子ペンPで入力された手書きデータを送受信できるように構成されたメッセージングアプリケーションが含まれる。プロセッサ21は、AIアシスタント端末10により生成されたコマンドに基づいて、手書き入力モードでアプリケーションを起動する役割を果たす。
 ここで、メッセージングアプリケーションは、典型的には電子メールを送受信できるように構成された電子メールアプリケーションであるが、接続中のユーザー間でリアルタイムに短いメッセージを送受信可能に構成されたインスタントメッセンジャーなど、他の種類のメッセージングアプリケーションであってもよい。本実施の形態では、電子メールアプリケーションを使用する場合を例に取って説明を進める。
 メモリ22、通信部23、ディスプレイ24はそれぞれ、ハードウェアとしては、AIアシスタント端末10のメモリ12、通信部13、ディスプレイ14と同様の装置である。
 図4は、メモリ22に記憶されるユーザテーブルを示す図である。同図に示すように、このユーザテーブルは、ユーザ名とペンIDとを対応付けるテーブルである。ユーザテーブル内のユーザ名としては、AIエンジンが行う話者認識処理によって特定され得る一連のユーザ名が用いられる。ペンIDは、電子ペンPに予め格納される所定数ビットのデータであり、個々の電子ペンPを識別する役割を有している。
 図2に戻り、センサ25は、タッチ面上における電子ペンP及び指の位置を検出可能に構成された位置検出装置である。典型的な例では、タッチ面はディスプレイ24の表示面により構成される。センサ25は、タッチ面上に存在する電子ペンP及び指の位置を周期的に検出し、検出の都度、検出した位置を示す座標をプロセッサ21に供給するよう構成される。
 センサ25による位置検出の具体的な方式としては、抵抗膜方式、電磁誘導方式、静電容量方式(アクティブ静電方式)など各種の方式を利用可能であるが、以下では、静電容量方式(アクティブ静電方式)を用いる場合を例に取って説明する。この方式によれば、センサ25は、電子ペンP及び指の両方を検出でき、かつ、電子ペンP5との間で双方向に信号を送受信できる。以下では、この双方向の信号送受信において電子ペンPが送信する信号を「ダウンリンク信号」と称し、センサ25が送信する信号を「アップリンク信号」と称する。
 アップリンク信号は、電子ペンPをセンサ25に同期させるとともに、電子ペンPに対してコマンドを送信する役割を担う信号である。センサ25は、周期的にアップリンク信号を送信するように構成される。
 ダウンリンク信号は、電子ペンPの位置をセンサ25に検出させるための無変調信号であるバースト信号と、電子ペンP内で取得される各種データをセンサ25に送信するためのデータ信号とを含んで構成される。データ信号により送信される各種データには、ペン先に加わる圧力を示すデータ(筆圧値)、筐体に設けられるスイッチのオンオフ情報を示すデータ、上述したペンIDなどが含まれる。
 電子ペンPは、センサ25を未だ検出していない状態では、連続的又は断続的にアップリンク信号の受信動作を行う。そして、センサ25が送信したアップリンク信号を受信した場合に、センサ25に同期した送受信スケジュールを決定する。それ以降、電子ペンPは、決定した送受信スケジュールに従ってアップリンク信号の受信及びダウンリンク信号の受信を行う。また、電子ペンPは、アップリンク信号内にコマンドが含まれていた場合、そのコマンドにより要求されたデータを取得し、データ信号に含めてセンサ25に送信する。ただし、筆圧値については、コマンドによらず所定の周期で周期的に送信されることとなるよう、適宜データ信号に含めてセンサ25に送信する。
 センサ25は、未検出の電子ペンPがアップリンク信号に応じて送信したダウンリンク信号を検出した場合、まずペンIDを要求するコマンドを含むアップリンク信号を送信することにより、その電子ペンPにペンIDを送信させる。そして、受信したデータ信号からペンIDを取得し、プロセッサ21に供給する。また、電子ペンPが送信するバースト信号の受信強度から電子ペンPの位置を示す座標を周期的に取得するとともに、電子ペンPが送信するデータ信号から筆圧値を取得し、逐次、これらのデータをプロセッサ21に供給する。
 プロセッサ21は、センサ25から供給される座標に従い、ディスプレイ24の表示画面に表示するカーソルの位置を制御するよう構成される。また、電子ペンPによる手書き入力を受け付けている場合、プロセッサ21は、センサ25から供給される筆圧値を監視し、筆圧値が0より大きい値となった場合(すなわち、ペンダウンが発生した場合)に、電子ペンPの軌跡を示すストロークデータの生成を開始する。その後、筆圧値が0より大きい値を維持している間、次々に供給される座標及び筆圧値を順次ストロークデータに追加し、筆圧値が0に戻った場合(すなわち、ペンアップが発生した場合)に、ストロークデータの生成を終了する。その後、プロセッサ21は、所定のタイミングで、それまでに生成した1以上のストロークデータを含むファイル(以下、「インクファイル」という)を生成し、メモリ22に保存する。
 以上、AIアシスタント端末10及びタブレット端末20それぞれの構成について、詳しく説明した。次に、本実施の形態によるAIアシスタント端末10及びタブレット端末20が行う処理について、図2とともにそれぞれの処理フローを参照しながら、より詳しく説明する。
 図5は、AIアシスタント端末10のプロセッサ11によって実行される処理を示す処理フロー図である。同図に示すように、プロセッサ11はまず、マイク15に入力された音声を取得し(ステップS1)、取得した音声の認識処理を行うことによって、音声を文字列に変換するともに、音声の話者を特定する(ステップS2)。
 図6は、図5に示したAIアシスタント端末10の処理を説明するための具体例を示す図である。同図に示すように、この例では、ユーザにより「Write E-mail to mom.(ママに電子メールを書く。)」という音声が発される。プロセッサ11は、上述したAIエンジンを用いて所定の認識処理を行うことによって、マイク15により収録された上記音声を文字列「Write E-mail to mom.」に変換するとともに、音声の話者「トム」を特定する(ステップS2)。
 図5に戻る。プロセッサ11は次に、ステップS2で得られた情報に基づいてアプリケーションの起動を決定し(ステップS3)、さらに、起動すべきアプリケーションを特定する(ステップS4)。これらの決定は、プロセッサ11が図3(a)に示した動作内容テーブルを参照することによって実行される。図6の例であれば、ステップS2で得た文字列に「Write E-mail」という文字列が含まれていることにより、プロセッサ11は、図3(a)に示した動作内容テーブルの1行目を参照する。そして1行目の記述内容に従い、アプリケーションの起動を決定し、さらに、起動すべきアプリケーションを電子メールアプリケーションと特定する。
 プロセッサ11はさらに、ステップS2で得られた情報に基づき、ステップS4で特定したアプリケーションを手書き入力モードで起動することを決定する(ステップS5)。図6の例では、ステップS2で得た文字列に「With pen」「Pen is unlimited」「With keyboard」のいずれもが含まれていないことから、プロセッサ11は、図3(b)に示した起動モードテーブルの5行目を参照する。そして5行目の記述内容に従い、アプリケーションを話者による手書き入力モードで起動することを決定する。
 プロセッサ11は次に、ステップS2で得られた情報に基づき、ステップS5で特定したアプリケーションに設定するデータを特定する(ステップS6)。図6の例では、ステップS2で得た文字列に「To Mom」という文字列が含まれていることにより、プロセッサ11は、図3(c)に示した起動モードテーブルの1行目を参照する。そして1行目の記述内容に従い、「Mom」を送信先として特定する。また、ステップS2で入力音声の話者が特定されている場合には、プロセッサ11は、図3(c)に示した起動モードテーブルの2行目を参照する。そして2行目の記述内容に従い、特定された話者のユーザ名を送信元として特定する。
 その後、プロセッサ11は、ステップS4で特定したアプリケーションをステップS5で決定した手書き入力モードで起動するとともに、ステップS6で特定したデータを設定するためのコマンドを生成する(ステップS7)。
 図7(a)は、図6に示した例に関して、ステップS7で生成されるコマンドの例を示す図である。この例によるコマンドは、起動対象のアプリケーションを特定する情報(スタート)と、起動するアプリケーションのモードを特定する情報(モード設定)と、電子メールの送信元を特定する情報と、電子メールの送信先を特定する情報とを含んで構成される。図6の例におけるこれらの情報の具体的な内容はそれぞれ、電子メールアプリケーション、話者(=トム)による手書き入力モード、トム、トムの母親となる。
 図7(b)は、図6に示した例に関して、ステップS7で生成されるコマンドの変形例を示す図である。この例においては、図2に示したメモリ12内に、ユーザ間のつながりを示すデータと、ユーザごとのメールアドレスとが予め格納される。プロセッサ11は、送信元としてトムを特定した場合、メモリ12からトムのメールアドレス「Tom@xxx.com」を読み出す。また、送信先としてトムの母親を特定した場合、プロセッサ11は、メモリ12内の情報を参照することにより、まずトムの母親として「アンナ」を特定する。そして、メモリ12からアンナのメールアドレス「Anna@xxx.com」を読み出す。その後、プロセッサ11は、「トム」「トムの母親」を表す文字列に代え、読み出した2つのメールアドレスをそれぞれ送信元及び送信先に設定する。
 図5に戻る。ステップS8でコマンドを生成したプロセッサ11は、次に、タブレット端末20に対し、生成したコマンドを送信する(ステップS9)。ここまでの処理により、入力された音声に基づいてプロセッサ11が行う一連の処理が終了する。
 図8は、タブレット端末20のプロセッサ21によって実行される処理を示す処理フロー図である。同図に示すように、プロセッサ21はまず、AIアシスタント端末10が送信したコマンドを受信し(ステップS10)、解釈する(ステップS11)。そして、コマンドにより指示されたアプリケーションを起動するとともに(ステップS12)、コマンドの指示に従い、起動したアプリケーションを手書き入力モードに設定する(ステップS13)。さらに、コマンドにより指示されたデータをアプリケーションに設定したうえで(ステップS14)、手書き入力の受け付けを開始する(ステップS15)。
 このように、本実施の形態によるシステム1によれば、音声の認識結果によりアプリケーションが手書き入力モードで立ち上がるので、ユーザは、タッチ操作などによってアプリケーションをいちいち手書き入力モードにセットすることなく、音声コマンドによって直ちに手書き入力を始めることが可能になる。
 図9は、AIアシスタント端末10によって送信されたコマンドが図7(a)に示した内容を有する場合に関して、図8の処理フロー図をより具体的に記述してなる図である。同図に示したステップS12a~14aはそれぞれ図8のステップS12~14に対応し、ステップS15a~15eは図8のステップS15の中で行われる処理を示している。
 図9に示すように、この場合、ステップS12で起動されるアプリケーションは電子メールアプリケーションとなり(ステップS12a)、ステップS13で設定するモードはトムによる手書き入力モード(入力手段をトムの電子ペンPに限定した手書き入力モード)となり(ステップS13a)、ステップS14で設定されるデータは、コマンドにより指示された送信元(トム)及び送信先(トムの母親)となる(ステップS14a)。
 図10は、図9の処理フローにより起動される電子メールアプリケーションによってディスプレイ24(図2を参照)の表示面に表示されるGUI(Graphical User Interface)の一例である画面100を示す図である。同図に示すように、画面100は、モード表示欄101と、送信元選択欄102と、送信先入力欄103と、カーボンコピー入力欄104と、タイトル入力欄105と、本文入力欄106とを有して構成される。
 モード表示欄101には、プロセッサ21により、ステップS13aで設定された電子メールアプリケーションのモードが表示される。また、送信元選択欄102及び送信先入力欄103には、プロセッサ21により、それぞれステップS13aで設定された送信元及び送信先が設定される。なお、タブレット端末20は、ユーザ名と電子メールアドレスを対応付けて記憶する電話帳アプリケーションを内蔵しており、送信元及び送信先のそれぞれに設定された「トム」「トムの母親」は、電子メールアプリケーションにより自動的に、それぞれに対応付けて電話帳アプリケーション内に記憶される電子メールアドレスに変換される。
 モード表示欄101、送信元選択欄102、及び送信先入力欄103はいずれも、ユーザにより設定内容を変更可能に構成される。この場合において、モード表示欄101及び送信元選択欄102は、予め設定されている選択肢の中からユーザが電子ペンP又は指を用いて選択するように構成される。モード表示欄101の設定内容を変更することで、ユーザは、電子メールアプリケーションのモードを例えば上述したキーボード入力モードに変更することができる。一方、送信先入力欄103は、プロセッサ21により表示される仮想キーボードを用いてユーザが入力するように構成される。なお、プロセッサ21は、ユーザが電子ペンP又は指を用いて送信先入力欄103をタッチしたことに応じて仮想キーボードを表示することが好適である。
 カーボンコピー入力欄104及びタイトル入力欄105はそれぞれ、電子メールのカーボンコピーの送信先及び電子メールのタイトルを入力する欄であり、いずれもユーザにより入力可能に構成される。この入力は、送信先入力欄103と同様、ユーザにより仮想キーボードを用いて実行される。
 本文入力欄106は、電子メールの本文を入力する欄であり、ユーザにより入力可能に構成される。プロセッサ21が電子メールアプリケーションを「手書き入力モード」に設定すると、本文入力欄106は電子ペンPによる入力が可能な状態になる。プロセッサ21が電子メールアプリケーションを「キーボード入力モード」に設定した場合には、本文入力欄106はキーボードによる入力が可能な状態になる。
 図9に戻る。ステップS14aで送信元及び送信先を設定したプロセッサ21は、図4に示したユーザテーブルを参照することにより、入力音声の話者であるトムのペンIDを取得する(ステップS15a)。続いてプロセッサ21は、センサ25からペンIDを取得する(ステップS15b)。ステップS15bで取得されるペンIDは、タッチ面に接近している電子ペンPからセンサ25が上述したようにして受信したものである。
 ステップS15bでペンIDを取得したプロセッサ21は、ステップS15a,15bのそれぞれで取得したペンIDが一致するか否かを判定する(ステップS15c)。そして一致すると判定した場合には、手書き入力の受け付けを開始する(ステップS15d)。この後、プロセッサ21は、センサ25から順次供給される一連の座標に従ってストロークデータを生成し、逐次、本文入力欄106内に表示する。一方、ステップS15cで一致しないと判定した場合には、センサ25から新たなペンIDが供給されるまで待機する。これにより、入力音声の話者であるトムの電子ペンPによる入力のみを許容し、他の電子ペンP又は指での入力を受け付けないことが実現される。
 以上説明したように、本実施の形態によるシステム1によれば、音声の認識結果によりアプリケーションが手書き入力モードで立ち上がるので、音声コマンドによって手書き入力を始めることが可能になる。例えば、音声の認識結果により電子メールアプリケーションが手書き入力モードで立ち上がるので、音声コマンドによって電子メールの手書き入力を始めることが可能になる。
 また、入力音声の話者に対応付けられている電子ペンPによる入力のみを許容し、他の電子ペンP又は指での入力を受け付けないことが可能になる。
 また、音声の認識結果に基づき、起動するアプリケーションに、電子メールの送信元/送信先などのデータを自動設定することが可能になる。
 なお、本実施の形態では、話者による手書き入力モードでアプリケーションを起動する例を取り上げたが、AIアシスタント端末10は、音声認識結果に基づいて、手書き入力モードでアプリケーションを起動するためのコマンドを生成し、タブレット端末20は、そのコマンドに基づいて、話者に対応付けられた電子ペンとは異なる電子ペンであっても手書き入力が可能な手書き入力モードでアプリケーションを起動することとしてもよい。
 図11は、本実施の形態の第1の変形例によるシステム1を示す図である。同図に示すように、本変形例によるシステム1は、AIサーバ30をさらに有して構成される。また、AIアシスタント端末10、タブレット端末20、及びAIサーバ30は、ネットワーク40を介して互いに接続される。ネットワーク40は、例えばインターネットである。本変形例は、本実施の形態においてAIアシスタント端末10が行っていた処理の一部を、より処理能力の高いAIサーバ30において実行するという点で、本実施の形態と相違する。以下、本実施の形態との相違点を中心に説明する。
 AIサーバ30は、例えば音声認識サービスを提供する会社のデータセンターなどに設置されるサーバであり、図11に示すように、プロセッサ31と、メモリ32と、通信部33とが内部バスを介して相互に接続された構成を有している。
 プロセッサ31は、AIサーバ30の各部を制御する中央処理装置であり、メモリ32内に格納されるプログラムを読み出して実行する機能を有する。プロセッサ31により実行されるプログラムには、音声認識などの音声入力にかかる処理を実行するAIエンジンが含まれる。
 メモリ32は、各種のプログラム及びデータを格納可能に構成された記憶装置である。典型的な例では、メモリ32には、DDR4 SDRAM(Double Data Rate 4 Synchronous Dynamic Random Access Memory)などの主記憶装置と、ハードディスクなどの補助記憶装置とが含まれる。
 通信部33は、インターネットなどのネットワークを介して、又は、ピアツーピアで他のコンピュータと通信するための機能部である。典型的には、イーサネット(登録商標)規格により通信可能に構成される。
 本変形例によるAIアシスタント端末10のプロセッサ11は、マイク15から音声を示すデジタル信号が供給されると、そのデジタル信号をAIサーバ30に対しリアルタイム送信する。AIサーバ30のプロセッサ31は、こうしてリアルタイム送信されたデジタル信号を用いて、図5に示したステップS2~S7の処理を実行する。そして、ステップS7で生成したコマンドを、タブレット端末20に対して送信する。このコマンドを受信したタブレット端末20が実行する処理は、本実施の形態と同様である。
 本変形例によれば、音声認識等の比較的負荷の大きい処理を処理能力の高いAIサーバ30に実行させることができるので、アプリケーションをより高速に手書き入力モードで立ち上げることが可能になる。
 図12は、本実施の形態の第2の変形例によるシステム1を示す図である。本変形例によるシステム1は、1台のAIアシスタント端末10によって構成される。このAIアシスタント端末10は、図2と比較すると理解されるように、本実施の形態によるAIアシスタント端末10にセンサ17を加えた構成を有している。
 センサ17は、図2に示したセンサ25と同様の位置検出装置であり、タッチ面上における電子ペンP及び指の位置を検出可能に構成される。典型的な例では、タッチ面はディスプレイ14の表示面により構成される。
 本実施の形態によるプロセッサ11は、図5に示したステップS1~S7の処理を行うことによってコマンドを生成した後、そのコマンドに関して、図8に示したステップS11~S15の処理を実行する。これにより、本実施の形態ではAIアシスタント端末10とタブレット端末20との協働により実行されていた処理が、本変形例では1台のAIアシスタント端末10により実行されることになる。
 本変形例によれば、電子ペンPによるタッチ入力に対応しているAIアシスタント端末10のマイク15に音声コマンドを入力し、そのAIアシスタント端末10のディスプレイ14で手書き入力を始めることが可能になる。
 なお、本変形例では1台のAIアシスタント端末10によってシステム1を構成する例を説明したが、1台のタブレット端末20によってシステム1を構成することも可能である。すなわち、タブレット端末20にAIアシスタント端末10の機能を実装することにより、タブレット端末20のマイクに音声コマンドを入力し、そのタブレット端末20のディスプレイ24で手書き入力を始めることが可能になる。
 図13は、本発明の第2の実施の形態によるシステム2の構成を示す図である。同図に示すように、システム2は、例えば家庭内に設置されるAIアシスタント端末10、タブレット端末20、及び電子ペンPと、例えば外部に設置されるセマンティック・インクサーバ50とを有して構成される。
 AIアシスタント端末10及びタブレット端末20の構成は、第1の実施の形態で説明した通りである。セマンティック・インクサーバ50は、上述したインクファイルのセマンティック(意味)分析を実行するサーバである。AIアシスタント端末10、タブレット端末20、及びセマンティック・インクサーバ50は、ネットワーク40を介して互いに接続される。ネットワーク40は、例えばインターネットである。
 図14は、AIアシスタント端末10、タブレット端末20、及びセマンティック・インクサーバ50それぞれのハードウェア構成を示す略ブロック図である。このうちAIアシスタント端末10及びタブレット端末20のハードウェア構成については、図2を参照して説明したものと同様である。
 図15は、AIアシスタント端末10のメモリ12内に記憶されるインクファイルデータベースを示す図である。同図に示すように、インクファイルデータベースは、インクファイルと、セマンティック・メタデータと、ペンIDとを対応付けて記憶するように構成される。セマンティック・メタデータは、インクファイルのセマンティック分析の結果として得られるデータであり、インクファイルの目的を示す目的データを含む。セマンティック・メタデータの生成については、後ほど図19~図21を参照して詳しく説明する。
 図16(a)(b)はそれぞれ、AIアシスタント端末10のメモリ12に格納されるテーブルを示す図である。同図(a)は、図3(a)の再掲である。図16(b)には、音声情報と、提示すべきインクファイルの種類とを対応付ける提示内容テーブルを示している。
 AIアシスタント端末10のプロセッサ11は、図16(a)のテーブルに従ってインクファイルの提示を実行する場合、図16(b)を参照することによって提示すべきインクファイルの種類を決定し、決定した種類のインクファイルを提示するよう構成される。例えば、音声認識処理の結果として得られた文字列に「Shopping List(ショッピングリスト)」という文字列が含まれていた場合、プロセッサ11は、目的データが「ショッピングリスト」となっているインクファイルの提示を決定する。
 その他、本実施の形態においては、図4に示したユーザテーブルがAIアシスタント端末10のメモリ12にも記憶される。AIアシスタント端末10のプロセッサ11は、後述する図23のステップS22において、このユーザテーブルを参照する。詳しくは後述する。
 図14に戻る。セマンティック・インクサーバ50は、図14に示すように、プロセッサ51と、メモリ52と、通信部53とが内部バスを介して相互に接続された構成を有している。
 プロセッサ51は、セマンティック・インクサーバ50の各部を制御する中央処理装置であり、メモリ32内に格納されるプログラムを読み出して実行する機能を有する。プロセッサ51により実行されるプログラムには、インクファイル内の複数のストロークデータによって構成される図形から文字を認識する文字認識処理、及び、認識した文字によって表される意味を分析するセマンティック分析を実行するインクエンジンが含まれる。
 メモリ52は、各種のプログラム及びデータを格納可能に構成された記憶装置である。典型的な例では、メモリ52には、上述したDDR4 SDRAMなどの主記憶装置と、ハードディスクなどの補助記憶装置とが含まれる。
 通信部53は、インターネットなどのネットワークを介して、又は、ピアツーピアで他のコンピュータと通信するための機能部である。典型的には、イーサネット(登録商標)規格により通信可能に構成される。
 図17は、本実施の形態によるタブレット端末20のプロセッサ21によって実行される処理を示す処理フロー図である。同図に示すように、プロセッサ21はまず、センサ25からペンIDを取得する(ステップS20)。この処理は、図9のステップS15bと同様の処理である。続いてプロセッサ21は、手書き入力を受け付ける(ステップS21)。具体的には、上述したようにして、それぞれセンサ25から順次供給される一連の座標及び筆圧値を含む1以上のストロークデータの生成を行う。
 次にプロセッサ21は、ステップS20で生成した1以上のストロークデータを含むインクファイルを生成する(ステップS22)。ここで生成されるインクファイルは、典型的には、図8に示したステップS15において開始された手書き入力により入力された1以上のストロークデータを含むが、他の手順で開始された手書き入力により入力された1以上のストロークデータを含むこととしてもよい。その後プロセッサ21は、生成したインクファイルと、ステップS20で取得していたペンIDとを関連付けて、セマンティック・インクサーバ50に送信する(ステップS23)。
 図18は、ステップS21で生成される一連のストロークデータの一例を示す図である。この例では、タブレット端末20の表示面内に、電子ペンPを用いて、「-milk」「-bread」「-eggs」「-apples」の各文字列が手書きされている。プロセッサ21は、これらの文字列を構成する複数のストロークデータを1つのインクファイル内に格納し、電子ペンPのペンIDとを関連付けてセマンティック・インクサーバ50に送信する。
 図19は、セマンティック・インクサーバ50のプロセッサ51によって実行される処理を示す処理フロー図である。同図に示すように、プロセッサ51はまず、タブレット端末20が送信したインクファイル及びペンIDを取得する(ステップS30)。そして、文字認識を行うことにより、インクファイル内の複数のストロークデータをグループ化する(ステップS31)。
 図20(a)は、図18に示した例によるインクファイルについて、ステップS31のグループ化を行った結果を示す図である。また、図21(a)は、他の例によるインクファイルについて、ステップS31のグループ化を行った結果を示す図である。これらの図に示すように、プロセッサ51はまず、インクファイルの全体を表すグループg0を生成し、次いで、文字のある領域を抽出することにより、グループg0の中に子グループg1を生成する。次にプロセッサ51は記号「-」を認識し、「-」で始まる各行を1つの孫グループに分類する。図20(a)及び図21(a)の例では、この分類の結果として、子グループg1の中に4つの孫グループg2~g5が生成されている。なお、ここでは記号「-」を参照することとしたが、他の記号に基づいて孫グループを生成することとしてもよいのは勿論である。どのような記号を用いる場合であっても、ユーザは、グループ化のために参照される記号を予め知っている必要がある。そうすることでユーザは、意図的にグループを生成することが可能になる。
 図19に戻る。グループ化を行ったプロセッサ51は、次に、各グループ化されたストロークデータに対してセマンティック分析を行うことにより、インクファイルの目的を示す目的データを含むセマンティック・メタデータを生成する(ステップS32)。
 図20(b)は、図20(a)に示した各グループから生成されるセマンティック・メタデータを示す図であり、図21(b)は、図21(a)に示した各グループから生成されるセマンティック・メタデータを示す図である。これらの図に示すように、プロセッサ51はまず、グループg0~g5の親子関係を設定する。そして、グループg1の中に記号「-」を認識することで分類された4つのグループg2~g5が存在することから、グループg1に「リスト」という意味を対応付けるとともに、グループg2~g5のそれぞれに「リスト項目」という意味を対応付ける。さらに、グループg2~g5のそれぞれに属する1以上のストロークデータについて文字認識処理及びセマンティック分析を実行することによって、図20(b)の例ではグループg2~g5のそれぞれに、グループg2~g5のそれぞれに属する1以上のストロークデータの意味を示す意味データである「milk(ミルク)」「bread(パン)」「eggs(卵)」「apples(リンゴ)」の各語句を対応付け、図21(b)の例ではグループg2~g5のそれぞれに「Provide an approval document(稟議書の準備)」「Tel Company A(A社への電話)」「Interview B(B氏との面談)」「Purchase summer gift(お中元の購入)」の各語句を対応付ける。なお、紙面スペースの都合上、図21(b)では一部の記載を省略している。
 プロセッサ51はさらに、こうしてグループg2~g5のそれぞれに対応付けた語句の内容に基づく分析を行うことによってリストの目的を示す目的データを決定し、グループg1に対応付ける。図20(b)の例では、「milk」「bread」「eggs」「apples」という語句の内容から、目的データとして「ショッピングリスト」が決定され、グループg1に対応付けられる。図21(b)の例では、「Provide an approval document」「Tel Company A」「Interview B」「Purchase summer gift」という語句の内容から、目的データとして「ToDoリスト(やることリスト)」が決定され、グループg1に対応付けられる。
 図19に戻る。以上のようなセマンティック・メタデータを生成したプロセッサ51は、ステップS30で取得したインクファイル及びペンID、並びに、ステップS32で生成したセマンティック・メタデータを含むデータを生成し(ステップS33)、AIアシスタント端末10に送信する(ステップS34)。
 図22は、本実施の形態によるAIアシスタント端末10のプロセッサ11によって実行される処理を示す処理フロー図である。AIアシスタント端末10は、図19のステップS34でセマンティック・インクサーバ50が送信したデータを受信すると(ステップS40)、受信したデータを、図15に示したインクファイルデータベースに格納する(ステップS41)。これにより、以下で説明するように、音声コマンドによって、AIアシスタント端末10にインクファイルを提示させることが可能になる。
 図23は、本実施の形態によるAIアシスタント端末10のプロセッサ11によって実行される他の処理を示す処理フロー図である。同図には、図21に示したインクファイルデータベースに格納されるインクファイルを音声コマンドに応じて提示するための処理を示している。以下、この処理について詳しく説明する。
 プロセッサ11はまず、図5を参照して説明したステップS1,S2を実行する。
 図24は、図23に示したAIアシスタント端末10の処理を説明するための具体例を示す図である。同図に示すように、この例では、ユーザにより「What is on my shopping list? (私のショッピングリストには何が載っている?)」という音声が発される。プロセッサ11は、上述したAIエンジンを用いて所定の認識処理を行うことによって、マイク15により収録された上記音声を文字列「What is on my shopping list?」に変換するとともに、音声の話者「トム」を特定する(ステップS2)。
 図23に戻る。プロセッサ11は次に、ステップS2で得られた情報に基づき、インクファイルの提示を決定する(ステップS50)。図24の例であれば、ステップS2で得た文字列に「What is on my *?」という文字列が含まれていることにより、プロセッサ11は、図16(a)に示した動作内容テーブルの2行目を参照する。そして2行目の記述内容に従い、インクファイルの提示を決定する。
 続いてプロセッサ11は、ステップS2で得られた情報に基づき、提示すべきインクファイルの種類を特定する(ステップS51)。図24の例では、ステップS2で得た文字列に「shopping list」という文字列が含まれていることにより、プロセッサ11は、図16(b)に示した提示内容テーブルの1行目を参照する。そして1行目の記述内容に従い、ショッピングリストであるインクファイルの提示を決定する。
 プロセッサ11は次に、ステップS2で得られた情報に基づき、ペンIDを選択する(ステップS52)。この選択は、図4に示したユーザテーブルを参照することによって実行される。図24の例であれば、ステップS2で特定された話者であるトムのペンID=0001が選択される。
 続いてプロセッサ11は、ステップS52で選択したペンIDに基づき、図15に示したインクファイルデータベースから1以上のデータを選択する(ステップS53)。すなわち、インクファイルデータベースに格納されている複数のデータのうち、ステップS52で選択したペンIDと関連付けて格納されているデータを選択する。例えば図15の例であれば、ステップS52で選択したペンIDが「0001」であったとすると、インクファイル01にかかるデータとインクファイル03にかかるデータとが選択されることになる。
 プロセッサ11はさらに、ステップS53で選択した各データのセマンティック・メタデータを参照することにより、ステップS51で特定した種類のデータを選択する(ステップS54)。すなわち、ステップS53で選択した各データのうち、ステップS51で特定した種類に対応する目的データと関連付けてインクファイルデータベース内に格納されているデータを選択する。図24の例では、上述したようにステップS51で特定されるインクファイルの種類がショッピングリストとなることから、プロセッサ11は、ステップS53で選択したデータの中から、セマンティック・メタデータ内において上述した目的データが「ショッピングリスト」となっているデータを選択する。
 最後にプロセッサ11は、ステップS54で選択したデータを目的データとともにユーザに提示する(ステップS55)。ここで提示される情報は、インクファイルそのもの、すなわち1以上のストロークデータであってもよいし、セマンティック・メタデータ、すなわちストロークデータの目的データ又は意味データであってもよい。また、提示方法としては、図14に示したディスプレイ14に表示することとしてもよいし、音声読み上げソフトウェアを用いて、セマンティック・メタデータを図14に示したスピーカー16から音声出力することとしてもよい。
 図25は、図20に示した例に関して、インクファイルをディスプレイ14に表示した例を示す図である。図26は、図20に示した例に関して、セマンティック・メタデータに基づいて構成した代替リストをディスプレイ14に表示した例を示す図である。図25の例によれば、ユーザが手書きした内容そのものが表示されるので、ユーザの記入内容を確実にユーザに提示することができる。一方、図26の例によれば、活字によりリストが表示されるので、ユーザにとって読みやすい状態でインクファイルを提示することができる。なお、各図の上部に示した「ショッピングリスト」という語句は、ステップS54で選択したデータとともに提示された目的データを示している。
 以上説明したように、本実施の形態によるシステム2によれば、セマンティック分析によって自動付与されるインクファイルの目的(「ショッピングリスト」「ToDoリスト」など)を検索キーとして、手書き入力により生成したインクファイルを検索できるので、インクファイルを容易に検索することが可能になる。
 また、本実施の形態によるシステム2によれば、インクファイルの目的(「ショッピングリスト」「ToDoリスト」など)を発声することにより、インクファイルを検索することが可能になる。
 図27は、本実施の形態の変形例によるシステム2を示す図である。同図に示すように、本変形例によるシステム1は、クラウドサーバ60をさらに有して構成される。本変形例は、図15に示したインクファイルデータベースを、AIアシスタント端末10内ではなくクラウドサーバ60内に構築する点で本実施の形態と異なる。以下、本実施の形態との相違点を中心に説明する。
 本変形例によるセマンティック・インクサーバ50は、図19のステップS34に代え、ステップS33で生成したデータをクラウドサーバ60に対して送信する処理を実行する(ステップS100)。こうして送信されたデータを受信するクラウドサーバ60は、図22に示したAIアシスタント端末10の処理と同様の処理を内部で実行する。これにより、図15に示したインクファイルデータベースがクラウドサーバ60内に構築される。
 本変形例によるAIアシスタント端末10は、図23に示したステップS53,S54に代え、ステップS52で選択したペンIDと、ステップS51で特定したインクファイルの種類とを含むコマンド(例えば、SQLコマンド)をクラウドサーバ60に対して送信する(ステップS101)。このコマンドを受信したクラウドサーバ60は、受信したペンIDに基づいてインクファイルデータベースから1以上のデータを選択し、選択した各データのセマンティック・メタデータを参照することにより、その中からさらに、受信した種類のデータを選択する。そして、最終的に選択したデータをAIアシスタント端末10に返送する(ステップS102)。こうして返送されたデータを受信したAIアシスタント端末10は、図24に示したステップS55の処理を実行する。
 本変形例によれば、インクファイルデータベースがクラウドサーバ60内に構築されるので、例えばある会社が所有する複数のタブレット端末20のそれぞれで生成されるインクファイルを1つのインクファイルデータベースに蓄積し、このインクファイルデータベースに格納されている複数のインクファイルを、同じ会社が所有する複数のAIアシスタント端末10から検索することが可能になる。
 以上、本発明の好ましい実施の形態について説明したが、本発明はこうした実施の形態に何等限定されるものではなく、本発明が、その要旨を逸脱しない範囲において、種々なる態様で実施され得ることは勿論である。
 例えば、上記各実施の形態で使用した文字列(「Write E-mail」など)は例示に過ぎず、他の文字列を用いてもよいことは勿論である。
 また、上記各実施の形態では、AIアシスタント端末10のプロセッサ11は、音声認識処理によって得られた文字列と、図3(a)~(c)又は図16(a)(b)の「音声情報」欄に記載される文字列とを比較することにより、起動すべき動作の内容等を決定していたが、音声認識処理の中で、入力音声と、図3(a)~(c)又は図16(a)(b)の「音声情報」欄に記載される文字列を発声することによって得られる音声とを音声ベースで比較することにより、起動すべき動作の内容等を決定することとしてもよい。
 本発明は、以下のように構成することも可能である。これによれば、AIアシスタントを用いて手書き入力を可能とするシステムを提供することが可能になる。
[請求項1]
 マイクを通じて入力された音声を認識することにより、手書き入力モードでアプリケーションを起動するためのコマンドを生成し、
 生成した前記コマンドに基づいて、前記手書き入力モードで前記アプリケーションを起動する、
 システム。
[請求項2]
 前記音声を認識することにより該音声の話者を特定し、
 前記手書き入力モードでは、特定した前記話者に対応付けられている電子ペンでの入力を可能とする、
 請求項1に記載のシステム。
[請求項3]
 前記アプリケーションは、前記電子ペンで入力された手書きデータを送信できるように構成されたメッセージングアプリケーションである、
 請求項1に記載のシステム。
[請求項4]
 前記音声を認識することにより該音声の話者を特定し、
 前記手書きデータの送信元に話者を設定する、
 請求項3に記載のシステム。
[請求項5]
 前記音声を認識することにより前記手書きデータの送信先を特定し、
 前記手書きデータの宛先に前記送信先を設定する、
 請求項3に記載のシステム。
[請求項6]
 音声の認識処理の結果に対応する音声情報と、起動対象のアプリケーションとを対応付ける第1のテーブルを有し、
 前記音声を認識することにより得られた情報と、前記第1のテーブルに記憶される音声情報とに基づき、起動対象のアプリケーションを決定する、
 請求項1に記載のシステム。
[請求項7]
 音声の認識処理の結果に対応する音声情報と、前記起動対象のアプリケーションの起動モードとを対応付ける第2のテーブルを有し、
 前記音声を認識することにより得られた情報と、前記第2のテーブルに記憶される音声情報とに基づき、前記起動対象のアプリケーションの起動モードを決定する、
 請求項6に記載のシステム。
[請求項8]
 音声の認識処理の結果に対応する音声情報と、前記起動対象のアプリケーションを起動する場合の設定データとを対応付ける第3のテーブルを有し、
 前記音声を認識することにより得られた情報又は前記音声を認識することにより得られた該音声の話者と、前記第3のテーブルに記憶される音声情報とに基づき、前記起動対象のアプリケーションに設定するデータを特定する、
 請求項7に記載のシステム。
[請求項9]
 ユーザ名とペンIDとを対応付ける第4のテーブルを有し、
 前記手書き入力モードでは、特定した前記話者に対応付けて前記第4のテーブルに記憶されるペンIDを有する電子ペンでの入力を可能とする、
 請求項2に記載のシステム。
[請求項10]
 電子ペンの位置を検出するとともに該電子ペンからペンIDを受信するセンサを有し、
 前記手書き入力モードでは、特定した前記話者に対応付けて前記第4のテーブルのペンIDと、前記センサにより受信されたペンIDとが一致する電子ペンでの入力を可能とする、
 請求項9に記載のシステム。
1,2   システム
10    AIアシスタント端末
11,21,31,51 プロセッサ
12,22,32,52 メモリ
13,23,33,53 通信部
14,24 ディスプレイ
15    マイク
16    スピーカー
17,25 センサ
20    タブレット端末
30    AIサーバ
40    ネットワーク
50    セマンティック・インクサーバ
60    クラウドサーバ
100   画面
101   モード表示欄
102   送信元選択欄
103   送信先入力欄
104   カーボンコピー入力欄
105   タイトル入力欄
106   本文入力欄
g0~g5 グループ

Claims (14)

  1.  プロセッサを有するシステムであり、
     前記プロセッサは、
      手書き入力に応じて生成されたストロークデータを取得し、
      前記ストロークデータに対してセマンティック分析を行うことによって、前記ストロークデータの意味を示す意味データ及び前記意味データに基づいて決定される目的データを含むセマンティック・メタデータを生成する、
     システム。
  2.  前記プロセッサは、マイクを通じて入力された音声を認識することにより、認識された音声に対応する前記目的データに関連付けられている前記ストロークデータ又は前記意味データを選択し、
     選択した前記ストロークデータ又は前記意味データを表示するディスプレイをさらに有する、
     請求項1に記載のシステム。
  3.  前記ストロークデータ及び前記セマンティック・メタデータを関連付けたデータベースが構築されるメモリをさらに有する、
     請求項1に記載のシステム。
  4.  前記プロセッサは、マイクを通じて入力された音声を認識することにより、認識された音声に対応する前記目的データに関連付けられている前記ストロークデータ又は前記意味データを選択し、
     選択した前記ストロークデータ又は前記意味データを音声で出力するスピーカーをさらに有する、
     請求項1に記載のシステム。
  5.  前記プロセッサは、
      マイクを通じて入力された音声を認識することにより、該音声の話者の電子ペンに割り当てられたペンIDを取得し、
      前記取得した前記ペンIDと関連付けられている前記ストロークデータ又は前記意味データを選択し、
     選択した前記ストロークデータ又は前記意味データを表示するディスプレイをさらに有する、
     請求項1に記載のシステム。
  6.  前記プロセッサは、ユーザ名とペンIDとを対応付けて記憶するユーザテーブルに前記話者のユーザIDと対応付けて記憶されるペンIDを取得することにより、前記話者の電子ペンに割り当てられたペンIDを取得する、
     請求項5に記載のシステム。
  7.  前記ストロークデータ、前記セマンティック・メタデータ、及び、前記ストロークデータの生成に用いられた電子ペンを示すペンIDを互いに関連付けたデータベースが構築されるメモリをさらに有する、
     請求項1に記載のシステム。
  8.  前記プロセッサは、
      前記ストロークデータをグループ化し、
      前記グループ化されたストロークデータに対してセマンティック分析を行う、
     請求項1に記載のシステム。
  9.  手書き入力に応じてストロークデータを生成し、
     前記生成されたストロークデータに対してセマンティック分析を行うことによって、前記ストロークデータの意味を示す意味データ及び前記意味データに基づいて決定される目的データを含むセマンティック・メタデータを生成する、
     ストロークデータの処理方法。
  10.  マイクを通じて入力された音声を認識し、
     認識された音声に対応する前記目的データに関連付けられている前記ストロークデータ又は前記意味データをディスプレイに表示する、
     請求項9に記載のストロークデータの処理方法。
  11.  マイクを通じて入力された音声を認識し、
     認識された音声に対応する前記目的データに関連付けられている前記ストロークデータ又は前記意味データを音声でスピーカーから出力する、
     請求項9に記載のストロークデータの処理方法。
  12.  マイクを通じて入力された音声を認識することにより、該音声の話者の電子ペンに割り当てられたペンIDを取得し、
     前記取得した前記ペンIDと関連付けられている前記ストロークデータ又は前記意味データをディスプレイに表示する、
     請求項9に記載のストロークデータの処理方法。
  13.  ユーザ名とペンIDとを対応付けて記憶するユーザテーブルに前記話者のユーザIDと対応付けて記憶されるペンIDを取得することにより、前記話者の電子ペンに割り当てられたペンIDを取得する、
     請求項12に記載のストロークデータの処理方法。
  14.   グループ化されたストロークデータに対して前記セマンティック分析を行う、
      請求項9に記載のストロークデータの処理方法。
PCT/JP2020/019686 2019-05-20 2020-05-18 システム及びストロークデータの処理方法 WO2020235538A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2021520787A JP7536003B2 (ja) 2019-05-20 2020-05-18 システム及びストロークデータの処理方法
CN202080037781.5A CN113892252A (zh) 2019-05-20 2020-05-18 系统及笔划数据的处理方法
EP20810357.2A EP3975532A4 (en) 2019-05-20 2020-05-18 TRAIT DATA PROCESSING SYSTEM AND METHOD
US17/529,955 US12001803B2 (en) 2019-05-20 2021-11-18 System and stroke data processing method

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2019-094890 2019-05-20
JP2019094890 2019-05-20
JP2019-094891 2019-05-20
JP2019094891 2019-05-20

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/529,955 Continuation US12001803B2 (en) 2019-05-20 2021-11-18 System and stroke data processing method

Publications (1)

Publication Number Publication Date
WO2020235538A1 true WO2020235538A1 (ja) 2020-11-26

Family

ID=73459416

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/019686 WO2020235538A1 (ja) 2019-05-20 2020-05-18 システム及びストロークデータの処理方法

Country Status (5)

Country Link
US (1) US12001803B2 (ja)
EP (1) EP3975532A4 (ja)
JP (1) JP7536003B2 (ja)
CN (1) CN113892252A (ja)
WO (1) WO2020235538A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016035760A (ja) * 2015-10-07 2016-03-17 ソニー株式会社 情報処理装置、情報処理方法およびコンピュータプログラム
JP2017501468A (ja) * 2013-10-24 2017-01-12 ライブスクライブ インコーポレイテッド スマートペンによって捕捉された書き込み注釈のタグ付け
WO2018191092A1 (en) * 2017-04-15 2018-10-18 Microsoft Technology Licensing, Llc Live ink presence for real-time collaboration

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7262785B2 (en) * 2003-08-21 2007-08-28 Microsoft Corporation Ink editing architecture
KR100989011B1 (ko) * 2003-08-21 2010-10-20 마이크로소프트 코포레이션 전자 잉크를 분석하기 위한 애플리케이션 프로그래밍 인터페이스를 포함하는 컴퓨터 판독가능 기록 매체, 전자 잉크 분석 방법 및 분석 콘텍스트 대상 생성 방법
US20080235564A1 (en) * 2007-03-21 2008-09-25 Ricoh Co., Ltd. Methods for converting electronic content descriptions
JP2010198076A (ja) 2009-02-23 2010-09-09 Sharp Corp 手書認証装置、手書認証パターンの表示方法および手書認証パターンの表示プログラム
JP5893825B2 (ja) 2009-09-08 2016-03-23 株式会社リコー ワークフローのための方法及びシステム
US9384732B2 (en) 2013-03-14 2016-07-05 Microsoft Technology Licensing, Llc Voice command definitions used in launching application with a command
WO2015030461A1 (en) * 2013-08-26 2015-03-05 Samsung Electronics Co., Ltd. User device and method for creating handwriting content
US11138971B2 (en) * 2013-12-05 2021-10-05 Lenovo (Singapore) Pte. Ltd. Using context to interpret natural language speech recognition commands
CN107077243B (zh) 2015-03-31 2021-05-11 株式会社和冠 墨水文件的输出方法、输出装置以及存储装置
US10210383B2 (en) * 2015-09-03 2019-02-19 Microsoft Technology Licensing, Llc Interacting with an assistant component based on captured stroke information
US20170068436A1 (en) * 2015-09-03 2017-03-09 Microsoft Technology Licensing, Llc Interpreting and Supplementing Captured Stroke Information
US10339372B2 (en) * 2017-04-18 2019-07-02 Microsoft Technology Licensing, Llc Analog strokes to digital ink strokes
US11087078B2 (en) * 2018-08-23 2021-08-10 Tata Consultancy Services Limited System and method for real time digitization of hand written input data
US11526659B2 (en) * 2021-03-16 2022-12-13 Microsoft Technology Licensing, Llc Converting text to digital ink

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017501468A (ja) * 2013-10-24 2017-01-12 ライブスクライブ インコーポレイテッド スマートペンによって捕捉された書き込み注釈のタグ付け
JP2016035760A (ja) * 2015-10-07 2016-03-17 ソニー株式会社 情報処理装置、情報処理方法およびコンピュータプログラム
WO2018191092A1 (en) * 2017-04-15 2018-10-18 Microsoft Technology Licensing, Llc Live ink presence for real-time collaboration

Also Published As

Publication number Publication date
EP3975532A1 (en) 2022-03-30
US20220075957A1 (en) 2022-03-10
JP7536003B2 (ja) 2024-08-19
JPWO2020235538A1 (ja) 2020-11-26
US12001803B2 (en) 2024-06-04
CN113892252A (zh) 2022-01-04
EP3975532A4 (en) 2022-10-12

Similar Documents

Publication Publication Date Title
US11682380B2 (en) Systems and methods for crowdsourced actions and commands
US11030445B2 (en) Sorting and displaying digital notes on a digital whiteboard
JP6744314B2 (ja) クラウドソーシングに基づいてデジタルパーソナルアシスタントのための言語理解分類子モデルを更新すること
EP3095113B1 (en) Digital personal assistant interaction with impersonations and rich multimedia in responses
CN103915095B (zh) 语音识别的方法、交互设备、服务器和系统
JP2018036621A (ja) 情報入力方法および装置
US10394577B2 (en) Method and apparatus for automatic processing of service requests on an electronic device
US10860289B2 (en) Flexible voice-based information retrieval system for virtual assistant
US11423113B2 (en) Contextual deep bookmarking
JP6434640B2 (ja) メッセージ表示方法、メッセージ表示装置、およびメッセージ表示デバイス
CN101231567A (zh) 基于手写识别的人机交互方法和系统及运行该系统的设备
JP2015530658A (ja) ユーザー端末のユーザーインターフェース装置及びそれをサポートする方法
CN112165627B (zh) 信息处理方法、装置、存储介质、终端及系统
CN111142993A (zh) 一种信息获取方法、终端及计算机存储介质
WO2020235538A1 (ja) システム及びストロークデータの処理方法
US11881214B1 (en) Sending prompt data related to content output on a voice-controlled device
JP2019133418A (ja) 検索装置、検索方法、プログラム、およびデータベース
EP3799658A1 (en) Systems and methods for crowdsourced actions and commands
CN105549833B (zh) 一种播放列表控制方法及移动终端
CN118708449A (zh) 一种基于用户画像的个性化操作方法、装置、设备及介质
JP2019074898A (ja) 情報処理装置及び情報処理プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20810357

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021520787

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020810357

Country of ref document: EP

Effective date: 20211220