WO2019082648A1 - 電子機器、制御装置、制御プログラム及び電子機器の動作方法 - Google Patents

電子機器、制御装置、制御プログラム及び電子機器の動作方法

Info

Publication number
WO2019082648A1
WO2019082648A1 PCT/JP2018/037658 JP2018037658W WO2019082648A1 WO 2019082648 A1 WO2019082648 A1 WO 2019082648A1 JP 2018037658 W JP2018037658 W JP 2018037658W WO 2019082648 A1 WO2019082648 A1 WO 2019082648A1
Authority
WO
WIPO (PCT)
Prior art keywords
electronic device
user
word
image
lip
Prior art date
Application number
PCT/JP2018/037658
Other languages
English (en)
French (fr)
Inventor
圭太 本間
Original Assignee
京セラ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 京セラ株式会社 filed Critical 京セラ株式会社
Publication of WO2019082648A1 publication Critical patent/WO2019082648A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Definitions

  • the present disclosure relates to an electronic device.
  • the electronic device includes a notification unit, a camera, and a processing unit.
  • the notification unit notifies the user of the tempo at which the first word is read.
  • the camera shoots at least the lips of the user reading the first word.
  • the processing unit extracts a basic oral shape image indicating a basic oral shape of the speech from the first captured image generated by the camera and including at least the lips of the user, which is generated by the camera based on the tempo at which the words are read.
  • control device is a control device provided in the electronic device for controlling the electronic device provided with the notification unit and the camera.
  • the control device causes the notification unit to notify the user of the tempo for reading the word.
  • the control device causes the camera to capture at least the lips of the user who is reading a word.
  • the control device extracts, based on the tempo at which the words are read out, a basic oral shape image indicating a basic oral shape of the speech from a photographed image generated by the camera and at least including the lips of the user.
  • control program is a control program for controlling the electronic device.
  • the control program performs a second process based on a first process of notifying the user of a tempo for reading a word to the electronic device, a second process for photographing at least a lip of a user who is reading a word, and a tempo for reading a word And a third process of extracting a basic oral shape image indicating a basic oral shape of the speech from at least a photographed image of the user's lips captured.
  • the operation method of the electronic device includes a first process of notifying a user of a tempo for reading a word, a second process of photographing at least a lip of a user who is reading a word, and a word And a third process of extracting a basic oral shape image indicating a basic oral shape of a speech from a captured image of at least the lips of the user generated in the second process based on the tempo.
  • FIGS. 1 and 2 are a perspective view and a rear view showing an example of the appearance of the electronic device 1.
  • the electronic device 1 includes a device case 11 having a substantially rectangular plate shape in a plan view.
  • the device case 11 constitutes an exterior of the electronic device 1.
  • a display surface 121 on which various types of information such as characters, symbols and figures are displayed is located on the front surface of the electronic device 1.
  • a touch panel 130 described later is located on the back side of the display surface 121.
  • the user can input various information to the electronic device 1 by operating the display surface 121 of the front surface of the electronic device 1 with a finger or the like.
  • the user can also input various information to the electronic device 1 by operating the display surface 121 with an operator other than a finger, for example, a touch panel pen such as a stylus pen.
  • the receiver hole 12 is located at the upper end of the front surface 11 a of the device case 11.
  • the microphone hole 14 is located on the lower side surface 11 d of the device case 11. From an upper end portion of the front surface 11 a of the device case 11, a lens 181 included in a first camera 180 described later is visible. As shown in FIG. 2, a lens 191 of a second camera 190 described later is visible from the back surface 11 b of the device case 11, in other words, the upper end of the back surface of the electronic device 1. Further, the light emitting unit 15 is positioned at the upper end portion of the back surface 11 b of the device case 11.
  • the light emitting unit 15 is, for example, a light emitting diode (LED).
  • a speaker hole 13 is located at the lower end of the back surface 11 b of the device case 11.
  • the electronic device 1 has an operation button group 140 described later, which includes a plurality of operation buttons.
  • Each operation button is, for example, a hardware button, and is located on the surface of the device case 11.
  • Each operation button is, for example, a push button.
  • the operation button group 140 includes a volume button 141, a power button 142, and operation buttons 143 to 145.
  • the volume button 141 is located on the right side 11 c of the device case 11. In the present specification, the right side means the right side when the display surface 121 is viewed. Further, the left side means the left side when the display surface 121 is viewed.
  • the power button 142 is located on the upper side surface 11 e of the device case 11.
  • the operation buttons 143 to 145 are located at the lower end of the front surface 11 a of the device case 11.
  • the operation button 143 functions as, for example, a back button.
  • the back button is an operation button for switching the display of the display surface 121 to the previous display.
  • the operation button 143 When the user presses the operation button 143, the display on the display surface 121 is switched to the previous display.
  • the operation button 144 functions as, for example, a home button.
  • the home button is an operation button for displaying the home screen on the display surface 121.
  • the operation button 144 When the user presses the operation button 144, the home screen is displayed on the display surface 121.
  • the operation button 145 functions as, for example, a history button.
  • the history button is an operation button for displaying on the display surface 121 the history of the application executed by the electronic device 1.
  • the display surface 121 displays the history of the application executed on the electronic device 1.
  • FIG. 3 is a block diagram mainly showing an example of the electrical configuration of the electronic device 1.
  • the electronic device 1 includes a control unit 100, a wireless communication unit 110, a display unit 120, a touch panel 130, and an operation button group 140.
  • the electronic device 1 further includes a receiver 150, a speaker 160, a microphone 170, a first camera 180, a second camera 190, a light emitting unit 15, and a battery 200. These components included in the electronic device 1 are housed in the device case 11.
  • the control unit 100 can centrally manage the operation of the electronic device 1 by controlling other components of the electronic device 1.
  • the control unit 100 can also be referred to as a control device or a control circuit.
  • the controller 100 includes at least one processor to provide control and processing capabilities to perform various functions, as described in further detail below.
  • At least one processor is implemented as a single integrated circuit (IC) or as a plurality of communicatively coupled integrated circuits (ICs) and / or discrete circuits. May be
  • the at least one processor can be implemented in accordance with various known techniques.
  • a processor includes one or more circuits or units configured to perform one or more data calculation procedures or processes, for example, by executing instructions stored in an associated memory.
  • the processor may be firmware (eg, discrete logic components) configured to perform one or more data calculation procedures or processes.
  • the processor may be one or more processors, controllers, microprocessors, microcontrollers, application specific integrated circuits (ASICs), digital signal processors, programmable logic devices, field programmable gate arrays, or the like. Any combination of devices or configurations, or other known combinations of devices and configurations, may be performed to perform the functions described below.
  • ASICs application specific integrated circuits
  • the control unit 100 includes a central processing unit (CPU) 101, a digital signal processor (DSP) 102, and a storage unit 103.
  • the storage unit 103 includes a non-temporary recording medium readable by the CPU 101 and the DSP 102, such as a read only memory (ROM) and a random access memory (RAM).
  • the ROM of the storage unit 103 is, for example, a flash ROM (flash memory) which is a non-volatile memory.
  • the storage unit 103 stores a plurality of control programs 103 a and the like for controlling the electronic device 1.
  • the various functions of the control unit 100 are realized by the CPU 101 and the DSP 102 executing various control programs 103 a in the storage unit 103.
  • the control unit 100 may include a plurality of CPUs 101.
  • the control unit 100 may include a main CPU with high processing capability that performs relatively complex processing, and a sub CPU with low processing capability that performs relatively simple processing.
  • the control unit 100 may not include the DSP 102, or may include a plurality of DSPs 102. Further, all the functions of the control unit 100 or a part of the functions of the control unit 100 may be realized by a hardware circuit that does not require software for the realization of the functions.
  • the storage unit 103 may include a non-transitory storage medium readable by a computer, other than the ROM and the RAM.
  • the storage unit 103 may include, for example, a small hard disk drive and an SSD (Solid State Drive).
  • the plurality of control programs 103 a in the storage unit 103 include various applications (that is, application programs).
  • the storage unit 103 stores, for example, a call application for voice and video calls, a browser for displaying a website, and a mail application for creating, browsing, and transmitting / receiving an e-mail.
  • the storage unit 103 also includes a camera application for shooting an object using the first camera 180 and the second camera 190, and a recorded image display application for displaying still images and moving images recorded in the storage unit 103.
  • a music reproduction control application for performing reproduction control of music data stored in the storage unit 103 is stored.
  • At least one application in the storage unit 103 may be stored in advance in the storage unit 103. Further, at least one application in the storage unit 103 may be one downloaded by the electronic device 1 from another device and stored in the storage unit 103.
  • the wireless communication unit 110 has an antenna 111.
  • the wireless communication unit 110 can wirelessly communicate, for example, with a plurality of communication methods using the antenna 111.
  • the wireless communication of the wireless communication unit 110 is controlled by the control unit 100.
  • the wireless communication unit 110 can wirelessly communicate with a base station of a mobile phone system.
  • the wireless communication unit 110 can communicate with a mobile phone, a web server, and the like different from the electronic device 1 through the base station and a network such as the Internet.
  • the electronic device 1 can perform data communication, voice communication, video communication and the like with other mobile phones and the like.
  • wireless communication can be performed using a wireless communication unit 110 and a wireless LAN (Local Area Network) such as WiFi.
  • the wireless communication unit 110 can perform near field communication.
  • the wireless communication unit 110 can perform wireless communication in accordance with Bluetooth (registered trademark).
  • the wireless communication unit 110 may be capable of wireless communication in accordance with at least one of ZigBee (registered trademark) and NFC (Near Field Communication).
  • the wireless communication unit 110 performs various processes such as amplification on the signal received by the antenna 111, and outputs the processed received signal to the control unit 100.
  • the control unit 100 performs various processes on the received signal to be input, and acquires information included in the received signal. Further, the control unit 100 outputs a transmission signal including information to the wireless communication unit 110.
  • the wireless communication unit 110 performs various processing such as amplification processing on the input transmission signal, and wirelessly transmits the processed transmission signal from the antenna 111.
  • the display unit 120 includes a display surface 121 located on the front surface 11 a of the electronic device 1 and a display panel 122.
  • the display unit 120 can display various types of information on the display surface 121.
  • the display panel 122 is, for example, a liquid crystal display panel.
  • the display panel 122 faces the display surface 121 in the device case 11.
  • the information displayed on the display unit 120 is displayed on the display surface 121 of the surface of the electronic device 1.
  • the control unit 100 can control the display of the display surface 121 by controlling the display panel 122.
  • the display panel 122 may be a display panel other than the liquid crystal display panel.
  • the display panel 122 may be a self-luminous display panel such as an organic EL (Electroluminescence) panel.
  • the touch panel 130 can detect an operation on the display surface 121 by an operator such as a finger.
  • the touch panel 130 can be said to be a sensor that detects an operation on the display surface 121.
  • the touch panel 130 is, for example, a projected capacitive touch panel.
  • the touch panel 130 is located, for example, on the back side of the display surface 121.
  • the control unit 100 can specify the content of the operation performed on the display surface 121 based on the output signal output from the touch panel 130. Then, the control unit 100 can perform processing according to the specified operation content.
  • an in-cell type display panel in which a touch panel is incorporated may be employed.
  • each operation button of the operation button group 140 can output an operation signal indicating that the operation is performed to the control unit 100.
  • the control unit 100 can determine, for each operation button, whether the operation button is operated.
  • the control unit 100 to which the operation signal is input controls the other components, whereby the electronic device 1 executes the function assigned to the operated operation button.
  • the microphone 170 can convert a sound input from the outside of the electronic device 1 into an electrical sound signal and output it to the control unit 100. Sound from the outside of the electronic device 1 is taken into the inside of the electronic device 1 from the microphone hole 14 and input to the microphone 170.
  • the speaker 160 is, for example, a dynamic speaker.
  • the speaker 160 can convert the electrical sound signal from the control unit 100 into sound and output it.
  • the sound output from the speaker 160 is output from the speaker hole 13 to the outside. The user can hear the sound output from the speaker hole 13 even at a place away from the electronic device 1.
  • the receiver 150 can output a reception sound.
  • the receiver 150 is, for example, a dynamic speaker.
  • the receiver 150 can convert the electrical sound signal from the control unit 100 into sound and output it.
  • the sound output from the receiver 150 is output from the receiver hole 12 to the outside.
  • the volume of the sound output from the receiver hole 12 is smaller than the volume of the sound output from the speaker hole 13.
  • the user can hear the sound output from the receiver hole 12 by bringing the receiver hole 12 close to the ear.
  • a vibration element such as a piezoelectric vibration element may be provided to vibrate the front surface portion of the device case 11. In this case, the sound is transmitted to the user by the vibration of the front portion.
  • the first camera 180 includes a lens 181, an image sensor, and the like.
  • the second camera 190 includes a lens 191, an image sensor, and the like. Each of the first camera 180 and the second camera 190 can capture an object under the control of the control unit 100, generate a still image or a moving image showing the imaged object, and output it to the control unit 100. .
  • the lens 181 of the first camera 180 is visible from the front surface 11 a of the device case 11. Therefore, the first camera 180 can capture an object present on the front side (in other words, the display surface 121 side) of the electronic device 1.
  • the first camera 180 is called an in-camera.
  • the lens 191 of the second camera 190 is visible from the back surface 11 b of the device case 11. Therefore, the second camera 190 can capture an object present on the back side of the electronic device 1.
  • the second camera 190 is called an out camera.
  • the first camera 180 and the second camera 190 do not need to be particularly distinguished, they may be simply referred to as “cameras”.
  • the light emitting unit 15 can emit light or can be turned off under the control of the control unit 100.
  • the battery 200 can output the power of the electronic device 1.
  • the battery 200 is, for example, a rechargeable battery.
  • the power output from the battery 200 is supplied to various components such as the control unit 100 and the wireless communication unit 110 included in the electronic device 1.
  • the electronic device 1 may include a sensor other than the touch panel 130.
  • the electronic device 1 may include at least one of a fingerprint sensor, an acceleration sensor, an air pressure sensor, a geomagnetic sensor, a temperature sensor, a proximity sensor, an illuminance sensor, and a gyro sensor.
  • the electronic device 1 may also include a GPS (Global Positioning System) receiver capable of determining the position of the electronic device 1.
  • GPS Global Positioning System
  • the electronic device 1 has a mechanical lip reading function.
  • the control unit 100 is, for example, a mechanical lip reading device that estimates the utterance content of the person (in other words, the content of the words spoken by the person) based on, for example, a captured image of at least the lips of the person who speaks Do the processing.
  • the speech in the present disclosure is not limited to the case where a person actually speaks a word, but is not actually speaking, but may also move the mouth in the same manner as speaking a word. included.
  • the expression of reading a word and the expression of emitting a word are included in the concept of speech.
  • the action of reading a word is not only when a person actually reads a word aloud, but not actually aloud, but it is the same as when a word is read aloud Also includes moving the mouth.
  • Words also include words and sentences.
  • the control unit 100 performs the machine lip reading process in the same manner as the machine lip reading process described in, for example, Patent Document 1.
  • a basic mouth shape which is a unit of mouth shape at the time of speech, is used.
  • a plurality of mouth forms formed for emitting each sound in the word are plural types depending on the characteristics of the sound or the mouth form to be emitted, etc. It is classified into the basic mouth form of. That is, when a person emits each sound in a word, one of the basic mouth shapes is formed in accordance with the type of the emitted sound.
  • the control unit 100 represents a change in the shape of the person's mouth during utterance with a mouth-shaped pattern based on a lip image in which the person's lips in the utterance are captured, and the memory
  • the mouth shape dictionary for each of a plurality of words, a mouth shape pattern in which a pattern of change in mouth shape when the word is issued is represented by a pattern of change in basic mouth shape is registered.
  • FIG. 4 is a diagram for explaining the basic form of Japanese.
  • the name of the basic opening is shown on the left, the opening code assigned to the basic opening is shown in the center, and a schematic view of the basic opening is shown on the right.
  • the mouth shape is a mouth shape formed when emitting a vowel a
  • the mouth shape is a mouth shape formed when emitting a vowel sound
  • the mouth shape is a mouth shape formed when emitting a vowel sound.
  • the mouth shape is a mouth shape formed when emitting a vowel e
  • the mouth shape is a mouth shape formed when emitting a vowel o
  • the lip opening shape is a mouth shape with the lips closed.
  • mouth codes of A, I, U, E, O and X are assigned to the mouth shape, mouth shape, mouth shape, mouth shape and lip mouth shape, respectively.
  • the basic mouth shape may be indicated by the mouth shape code assigned to it.
  • the storage unit 103 stores, for each basic mouth shape, a basic mouth shape image indicating the basic mouth shape.
  • the control unit 100 extracts a plurality of frames of lip images in which a person's lips in an utterance are captured from a captured moving image generated by a camera in the machine lip reading process. Then, the control unit 100 compares each frame of the extracted lip image with the basic mouth shape image, and generates a mouth shape pattern representing a change in the person's mouth shape during speech based on the comparison result. Then, the control unit 100 compares the generated mouth-shaped pattern with the mouth-shaped pattern in the mouth-shaped dictionary stored in the storage unit 103, and estimates the content of human speech based on the comparison result.
  • an in-camera 180 is used.
  • the user 10 of the electronic device 1 holds the electronic device 1 with his / her hand 10 b so that at least the lip 10 a of the in-camera 180 is captured.
  • Run lipreading process The user 10 can instruct the electronic device 1 to execute the mechanical lip-reading process by performing a predetermined operation on the display surface 121, for example.
  • the control unit 100 operates the in-camera 180 to perform the mechanical lip-reading process based on the photographed image generated by the in-camera 180.
  • the user 10 may instruct the electronic device 1 to execute the mechanical lip-reading process by operating any one of the operation buttons 143 to 145.
  • the user 10 may, for example, place the electronic device 1 on a desk and cause the electronic device 1 to execute the mechanical lip-reading process without holding the electronic device 1 in the hand 10 b.
  • An out-camera 190 may also be used in a machine lip process.
  • the user can perform input to the electronic device 1 without actually making a voice.
  • the user may instruct the electronic device 1 to transmit an e-mail and start a browser by making the same mouth movement as when making a voice without actually making a voice. Can. Therefore, an instruction can be issued to the electronic device 1 without the user's voice being heard around.
  • the privacy of the user can be protected as compared to voice input.
  • the possibility of giving discomfort to surrounding people can be reduced.
  • the user can make an input to the electronic device 1.
  • the storage unit 103 stores a registration application for registering the basic mouth image in the electronic device 1.
  • the operation mode of the electronic device 1 is set to the registration mode in which the basic image is registered in the electronic device 1.
  • the registration mode a basic mouth image is extracted from a photographed image generated by a camera and registered in the electronic device 1.
  • the in-camera 180 is used.
  • the user captures the face of the user with the camera in a state where the user intentionally made the shape of the mouth into the basic mouth shape, and It is conceivable to extract a lip image including the lip of the user from the photographed image and to register the extracted lip image in the electronic device 1 as a basic oral shape image.
  • the shape of the user's mouth at the time of shooting with a camera may be unnatural, and a basic mouth shape image showing an unnatural basic mouth shape may be registered in the electronic device 1.
  • a basic mouth shape image showing an unnatural basic mouth shape may be registered in the electronic device 1.
  • a basic oral shape image showing an oral shape a basic oral shape image showing an oral shape, a basic oral shape image showing an oral shape, a basic oral shape image showing an oral shape, a basic oral shape image showing an oral shape and a basic oral shape image showing a closed lip shape.
  • FIG. 6 is a flowchart showing an example of the operation of the electronic device 1 when the electronic device 1 operates in the registration mode.
  • the control unit 100 reads out and executes the registered application in the storage unit 103. Thereby, the operation mode of the electronic device 1 is set to the registration mode.
  • the control unit 100 executes the registration application in step s1. Further, when the registration application abnormally ends, the control unit 100 executes the registration application in step s1 and restarts.
  • the user can, for example, instruct the electronic device 1 to execute the registration application by performing a predetermined operation (for example, a tap operation) on a predetermined icon displayed on the display surface 121.
  • the touch panel 130 can detect an operation on an icon displayed on the display surface 121.
  • the user may instruct the electronic device 1 to execute the registration application by operating any one of the operation buttons 143 to 145.
  • the electronic device 1 requests the user to input identification information.
  • the display unit 120 displays a request screen for requesting the user to input identification information on the display surface 121.
  • the control unit 100 stores the input identification information in the storage unit 103 in step s4.
  • the identification information includes, for example, the name of the user. The user can input his / her identification information to the electronic device 1 by operating the display surface 121, for example.
  • step s5 the electronic device 1 requests the user to read out the extraction language for extracting the basic mouth-shaped image from the photographed image of the camera.
  • step s5 the display unit 120 displays on the display surface 121 a request screen 300 for requesting the reading out of the words for extraction.
  • the control unit 100 causes the in-camera 180 to start shooting.
  • the electronic device 1 operates in the registration mode, the user uses the electronic device 1 so that the face of the in-camera 180 appears.
  • the user 10 uses, for example, the electronic device 1 with the hand 10b as shown in FIG.
  • FIG. 7 shows an example of the request screen 300. As shown in FIG. As shown in FIG. 7, for example, extraction words 301, instruction information 302 and 303, a camera image area 304, and a start button 305 are shown on the request screen 300.
  • the extraction word 301 is a word that makes it possible to extract a plurality of basic mouth-shaped images from a lip image in which the lips of the person who emits the word appear, as will become apparent from the following description. There is.
  • the extraction term 301 may be a word that many people know so that the user can read naturally so that a basic mouth-shaped image showing a natural basic mouth-shape can be extracted.
  • the extraction term 301 is not limited to the example of FIG.
  • the instruction information 302 is information for instructing the user to read out the extraction term 301.
  • the start button 305 is a software button operated when the user reads out the extraction term 301.
  • the instruction information 303 is information for instructing the user to operate the start button 305 when reading out the extraction term 301.
  • the camera image area 304 is an area where the captured moving image 310 generated by the in-camera 180 is shown in real time.
  • a captured moving image 310 in which the face of the user is captured is shown in the camera image area 304.
  • the user can view the captured moving image 310 shown in the camera image area 304 and confirm whether or not his or her face is captured by the in-camera 180.
  • the term “photographed moving image” means a photographed moving image generated by the in-camera 180 unless otherwise specified.
  • the control unit 100 performs face recognition processing for extracting a face image in which the user's face (specifically, the entire face) appears from the captured moving image 310. Run. Furthermore, the control unit 100 executes lip recognition processing for extracting a lip image in which the lip of the user 10 (specifically, the entire lip) appears in the in-camera 180 from the captured moving image 310.
  • the control unit 100 can perform face recognition processing and lip recognition processing by performing image processing such as feature point extraction processing on the captured moving image.
  • the control unit 100 extracts, for example, a face image and a lip image from each frame of the captured moving image. Therefore, while the camera image area 304 is displayed on the display surface 121, the control unit 100 repeatedly executes the face recognition process and the lip recognition process.
  • success in face recognition means that a face image is extracted in the face recognition process
  • failure in face recognition means that a face image is not extracted in the face recognition process
  • success in lip recognition means that a lip image is extracted in lip recognition processing
  • failure in lip recognition means that a lip image is not extracted in lip recognition processing.
  • the control unit 100 When the face recognition is successful, the control unit 100 superimposes the extracted face image range 320 (hereinafter sometimes referred to as “face recognition range 320”) on the captured moving image 310, as shown in FIG. Further, when lip recognition is successful, the control unit 100 superimposes the extracted lip image range 330 (hereinafter, may be referred to as “lip recognition range 330”) on the captured moving image 310.
  • face recognition range 320 hereinafter sometimes referred to as “face recognition range 320”
  • lip recognition range 330 hereinafter, may be referred to as “lip recognition range 330”
  • step s6 When the request screen 300 as described above is displayed, when the touch panel 130 detects a predetermined operation (for example, a tap operation) on the start button 305 in step s6, the electronic device 1 performs extraction in step s7.
  • the user is notified of the tempo for reading out the words (which may hereinafter be referred to as the "reading tempo").
  • the display unit 120 executes a notification process of notifying the user of the reading tempo.
  • step s7 the control unit 100 causes the display unit 120 to display a tempo notification screen for notifying the reading tempo.
  • the control unit 100 receives a tap operation on the start button 305 when both face recognition and lip recognition are successful, and receives at least one of face recognition and lip recognition when the tap operation is failed. It does not have to be. In other words, when both the face recognition range 320 and the lip recognition range 330 are displayed on the display surface 121, the control unit 100 receives a tap operation on the start button 305, and at least the face recognition range 320 and the lip recognition range 330. When one is not displayed on the display surface 121, the tap operation may not be accepted. In this case, when both the face recognition and the lip recognition succeed in tapping the start button 305, the control unit 100 executes step s7 to display the tempo notification screen on the display unit 120. Display.
  • control unit 100 does not execute step s7 even if a tap operation is performed on the start button 305.
  • control unit 100 accepts a tap operation on start button 305 when lip recognition has succeeded, and whether face recognition has succeeded or not. When the lip recognition has failed, the tap operation may not be accepted.
  • the tap operation on the start button 305 is accepted, so that it is possible to appropriately extract the lip image including the lip of the user from the photographed image generated by the in-camera 180 It becomes.
  • the control unit 100 does not receive a tap operation on the start button 305, the display unit 120 may display an error message.
  • This error message includes, for example, a string such as "Please make sure that the face and lips are correctly reflected on the camera".
  • FIG. 8 shows an example of the tempo notification screen 400. As shown in FIG. As shown in FIG. 8, on the tempo notification screen 400, for example, extraction words 301, the above-mentioned camera image area 304, information 402, a retry button 403, and a stop button 404 are shown.
  • the information 402 is information indicating that the user is reading the extraction term 301 aloud.
  • the stop button 404 is a software button operated by the user when the reading of the extraction word 301 is finished.
  • the retry button 403 is a software button operated by the user when the extraction word 301 is read out again.
  • the display unit 120 performs tempo notification processing using the tempo notification screen 400.
  • the tempo notification process is performed by changing the display mode of the extraction terms 301 shown on the display unit 120 and the tempo notification screen 400 from the top according to the reading tempo.
  • the display color of the extraction word 301 changes from the top according to the reading tempo. For example, assuming that the initial display color of the extraction word 301 is blue, the display color of the extraction word 301 changes from blue to red according to the reading tempo from the top thereof. Thus, the reading tempo is notified to the user.
  • FIG. 9 is a view showing an example of how the display color of the extraction word 301 changes from the top according to the reading tempo. In FIGS. 8 and 9, how the display color of the extraction word 301 changes is shown in bold. The same applies to the following figures.
  • the display color of the extraction word 301 changes at the timing when the user reads it for each sound from the top.
  • the sound means the sound of one beat of Japanese. Beats are also called moras.
  • the display color of “gi” changes in the reading period t1 of “gi” at the beginning of the extraction term 301.
  • the display color of “n” changes in the reading period t2 of the second “n” from the beginning of the extraction term 301.
  • the display color of “ga” changes in the reading period t3 of the third “ga” from the beginning of the extraction term 301.
  • the display color of "te” changes in the reading period t4 of the fourth "te” from the head of the extraction term 301.
  • the display color of "tsu” changes in the reading period t5 of the fifth "tsu” from the beginning of the extraction term 301.
  • the display color of the word "don” changes in the reading period t6 of the sixth word “throw” from the beginning of the extraction term 301.
  • the display color of "U” changes in the reading period t7 of the seventh “U” from the head of the extraction term 301.
  • the display color of "no” changes in the reading period t8 of the eighth "no” from the beginning of the extraction term 301.
  • the display color of "Y” changes in the reading period t9 of the ninth "Y” from the head of the extraction term 301.
  • the display color of “R” changes in the reading period t10 of the last “R” of the extraction term 301.
  • the reading tempo of the extraction word 301 is determined by the reading period t1 to t10. It can be said that the tempo notification process performed by the display unit 120 starts at the beginning of the first reading period t1 and ends at the end of the last reading period t10.
  • a period from the beginning of the reading period t1 to the end of the reading period t10 may be referred to as a “tempo notification period”.
  • each of them is referred to as a "reading period" without a code.
  • the display color of the extraction word 301 changes sequentially from the beginning according to the reading tempo, as in the case where the display color of the karaoke subtitle changes according to the tempo of the music.
  • the display color of the extraction word 301 sequentially changes from the top according to the speed at which the extraction word 301 is read.
  • the user reads the extraction term 301 at the reading tempo notified from the electronic device 1 by reading out the extraction term 301 in accordance with the change in the display color of the extraction term 301 on the tempo notification screen 400. be able to.
  • the display color may be gradually changed along the reading direction in the one sound included in the extraction term 301.
  • the display color of "gi" of the extraction word 301 may gradually change along the direction in which the extraction word 301 is read out (the direction from the left to the right in FIG. 8).
  • the electronic device 1 may display the extraction word 301 with hollow characters. In this case, the electronic device 1 may gradually change the display color of the hollow character representing one sound included in the extraction word 301 along the reading direction.
  • the display size of the extraction word 301 may be sequentially changed from the top according to the reading tempo.
  • the display size of the extraction word 301 is increased by one sound from the top according to the reading tempo.
  • the display color and the display size of the extraction word 301 may sequentially change from the top according to the reading tempo.
  • step s7 the control unit 100 stores the lip image extracted from each frame of the captured moving image 310 generated by the in-camera 180 in the tempo notification period in the storage unit 103.
  • a lip image in which the user's lips are photographed while the user is reading out the extraction word 301 is stored in the storage unit 103.
  • the lip image is extracted from each frame of the captured moving image 310, so that it can be said that a lip moving image in which the lip of the user is captured is generated. It can be said that a lip moving image in which the lip of the user is captured is stored.
  • storing information and the like in the storage unit 103 means storing information and the like in a non-volatile memory such as a flash memory that the storage unit 103 has.
  • the lip moving image stored in the storage unit 103 may be referred to as “saved lip moving image”.
  • each of a plurality of frames constituting the stored lip moving image may be referred to as a "lip image frame”.
  • the user taps the stop button 404 when the extraction term 301 is read out to the end according to the reading tempo notified from the tempo notification screen 400.
  • the control unit 100 executes step s9.
  • the retry button 403 is displayed. Perform the tap operation. While the tempo notification screen 400 is displayed, when the touch panel 130 detects a tap operation on the retry button 403 in step s10, the display unit 120 extracts words in the displayed tempo notification screen 400 in step s7. After restoring the display mode 301, the display mode of the extraction word 301 is changed again from the beginning according to the reading tempo. That is, the display unit 120 performs the tempo notification process again. The user reads the extraction word 301 again according to the reading tempo notified from the tempo notification screen 400.
  • the control unit 100 deletes the stored lip moving image in the storage unit 103 from the storage unit 103. Then, the control unit 100 saves the lip moving image in the storage unit 103 again according to the tempo notification process performed again.
  • step s9 the control unit 100 extracts a basic mouth-shaped image from the stored lip moving image in the storage unit 103 based on the read-out tempo notified to the user.
  • FIG. 12 is a diagram for explaining an example of extraction processing in which a basic mouth-shaped image is extracted from a stored lip moving image.
  • FIG. 12 shows a tempo notification period T100 and the above-mentioned reading period t1 to t10 included therein.
  • the sound read out during that period is shown above the time axis t.
  • a syllabary code (see FIG. 4) assigned to a basic swatch corresponding to a sound read out during that period is shown below the time axis t.
  • a basic mouth shape corresponding to a sound means a basic mouth shape formed when a person emits the sound.
  • Japanese sounds include single-ported sounds and multi-ported sounds.
  • the single-ported sound is a sound that is composed only of the end of a mouth, not including the opening of the mouth, when emitting it.
  • a multi-mouthed sound is a sound in which a mouth shape when emitting it includes a first mouth shape and a last hole shape.
  • the initial mouth shape is a basic mouth shape that needs to be pre-formed to emit a sound when a person makes a sound, and is a basic mouth shape different from the basic mouth shape corresponding to the vowel of the sound.
  • the end form is a basic form that is formed when a person makes a sound and ends the sound.
  • hi is a single-ended sound.
  • the first opening shape is not formed, but the last opening shape is formed.
  • "sa" is a multi-portal sound.
  • a person emits "sa” after a first mouth shape is formed, a last mouth shape is formed.
  • the end shape of "N” is a closed lip shape. Therefore, the basic mouth shape corresponding to "N” is a closed lip shape. Therefore, in FIG. 12, in the reading period t2 of “n”, a mouth shape code “X” assigned to the closed lip shape is shown.
  • the final form of "ga” is a form of a mouth.
  • the basic mouth shape corresponding to "ga” is a mouth shape. Therefore, in FIG. 12, in the reading period t3 of “GA”, a transliteration code “A” assigned to the opening shape is shown.
  • the opening and closing shapes of "te” are respectively an opening shape and an opening shape. Therefore, the basic mouth shape corresponding to "te” is a mouth shape and a mouth shape. Therefore, in FIG. 12, the speech code "I” assigned to the mouth shape and the mouth code “E” assigned to the mouth shape are shown in the reading period t4 of "te". More specifically, in the reading period t4, a mouth shape code “I” is shown in the first half period t4a where the first mouth shape appears, and a mouth shape code "E” is shown in the second half period t4b where the last mouth shape appears.
  • the first half period t6a, t8a and t9a in which the first opening shape appears shows the mouth shape code "U”
  • the second half period t6b, t8b and t9b shows the last opening shape in the second half period t6b, t8b, t9b "O" is shown.
  • step s9 the control unit 100 extracts, for example, one lip image frame in which the lip captured by the in-camera 180 is captured during the reading period t1 of "gi" from the stored lip moving image.
  • the extracted lip image frame is taken as a lip image.
  • the control unit 100 extracts the lip image extracted from one frame of the captured moving image generated by the in-camera 180 in the reading period t1 of "gi" from the stored lip moving image, and extracts the extracted lip image It is an image.
  • the lip image frame in which the lip captured by the in-camera 180 is captured during the reading period t1 of "gi" There is a high possibility that the end form of "gi” will appear. Therefore, by using the one lip image frame as a mouth image, a mouth image can be appropriately extracted.
  • the control unit 100 sets one lip image frame in which the lip captured by the in-camera 180 is captured at the middle timing of the "gi" reading period t1 as a mouth-shaped image.
  • step s9 the control unit 100 extracts, for example, one lip image frame including a lip captured by the in-camera 180 during the reading period t2 of “n” from the stored lip moving image, and extracts the one lip image frame As a closed lip image.
  • the control unit 100 sets one lip image frame in which the lip captured by the in-camera 180 is captured at the middle timing of the reading period t2 of “N” as a closed lip image.
  • step s9 the control unit 100 extracts, for example, one lip image frame including a lip captured by the in-camera 180 during the reading period t3 of "ga" from the stored lip moving image, and extracts the extracted lip image frame As a mouth-shaped image.
  • the control unit 100 sets one lip image frame in which the lip photographed by the in-camera 180 is captured at the middle timing of the reading period t3 of “Ga” as an open image.
  • step s9 the control unit 100 extracts, for example, one lip image frame including a lip captured by the in-camera 180 in the reading period t5 of “T” from the stored lip moving image, and extracts the extracted lip image frame Let u be a mouth-shaped image.
  • the control unit 100 sets one lip image frame in which the lip captured by the in-camera 180 is captured at the middle timing of the reading period t5 of “T” as a mouth-shaped image.
  • the control unit 100 extracts, from the stored lip moving image, for example, a lip image frame including a lip captured by the in-camera 180 in the second half period t4b of the reading period t4 of "te"
  • the lip image frame of the image is taken as a mouth image.
  • the control unit 100 sets one lip image frame in which the lip photographed by the in-camera 180 is captured at the middle timing of the second half period t4b of the reading period t4 of "te” as a mouth image.
  • step s9 the control unit 100 extracts and extracts, from the stored lip moving image, one lip image frame in which the lip captured by the in-camera 180 is captured in the second half period t6b of the reading period t6 of "throat", for example
  • the lip image frame of the image is taken as an open mouth image.
  • the control unit 100 sets one lip image frame in which the lip is photographed taken by the in-camera 180 at the middle timing of the second half period t6b of the reading period t6 of "throat" as the open image.
  • control unit 100 is configured to use the captured moving image generated by the camera based on the reading tempo notified by the electronic device 1 to the user. All six basic mouth shape images can be extracted.
  • the method in which the control unit 100 extracts the basic mouth shape image from the stored lip moving image is not limited to the above example.
  • the control unit 100 extracts, from the stored lip moving image, a lip image frame in which a lip captured by the in-camera 180 is captured in the first half period t4a of the reading period t4 of "te" and extracts the extracted lip image frame May be used as a mouth image.
  • the control unit 100 extracts one lip image frame including a lip captured by the in-camera 180 during the reading period t7 of "u" from the stored lip moving image, and sets the extracted one lip image frame as a u-shaped image. It is also good.
  • control unit 100 extracts one lip image frame in which a lip captured by the in-camera 180 is captured in the second half period t8b of the reading period t8 of "no" from the stored lip moving image, and extracts the extracted one lip image frame It may be an open image.
  • the electronic device 1 since the electronic device 1 notifies the user of the tempo for reading out the extraction terms, the user can make the user read the extraction terms in a natural form by appropriately setting the tempo. It becomes possible. Then, the control unit 100 appropriately obtains a basic mouth-shaped image showing a natural-shaped basic mouth shape by extracting the basic mouth-shaped image from the photographed image generated by the camera based on the reading tempo notified to the user. It is possible to Therefore, the electronic device 1 can perform processing using a basic mouth shape image showing a natural mouth shape, and as a result, the convenience of the electronic device 1 is improved. For example, since the electronic device 1 can perform the machine lip reading process using the basic mouth shape image showing the natural mouth shape, the accuracy of the mechanical lip reading is improved.
  • the electronic device 1 After step s9, the electronic device 1 performs extraction confirmation processing to confirm whether the extracted basic mouth-shaped image is appropriate.
  • the extraction confirmation process a kind of quiz is performed in which the electronic device 1 performs a mechanical lip-reading process and applies a word uttered by the user.
  • the extraction confirmation process is composed of steps s11 to s19 shown in FIG.
  • step s11 the electronic device 1 requests the user to perform a mouth patch for confirming whether the extracted basic mouth shape image is appropriate.
  • the display unit 120 displays a request screen 500 for requesting the user to perform mouth-picking.
  • FIG. 14 shows an example of the request screen 500. As shown in FIG.
  • the request screen 500 As shown in FIG. 14, in the request screen 500, the camera image area 304, the notification information 501, the instruction information 502, 503, and a plurality of confirmation languages to be selected as the language for the user to squeeze. 504 and a start button 505 are shown.
  • the request screen 500 shows four confirmation languages 504 different from the extraction language. The contents and the number of the confirmation languages 504 shown on the request screen 500 are not limited to the example shown in FIG.
  • the notification information 501 is information for notifying the user that the extracted basic mouth image is to be confirmed from now on whether it is appropriate.
  • the instruction information 502 is information for instructing the user to select one of the four confirmation languages 504 shown on the request screen 500 and to squeeze the selected confirmation language 504.
  • the start button 505 is a software button that is operated to squeeze the confirmation language 504 selected by the user.
  • the instruction information 503 is information for instructing the user to operate the start button 505 when starting to play a mouth.
  • step s13 is executed.
  • the user taps the start button 505
  • the user reads out the confirmation language 504 selected from the plurality of confirmation languages 504 included in the request screen 500 with a quick response.
  • control unit 100 accepts a tap operation on start button 505 when both face recognition and lip recognition succeed, and at least one of face recognition and lip recognition fails. It is not necessary to receive the tap operation while the user is on. In addition, regardless of whether face recognition has succeeded, control unit 100 accepts a tap operation on start button 505 when lip recognition has succeeded, and whether face recognition has succeeded or not. When the lip recognition has failed, the tap operation may not be accepted. If the control unit 100 does not receive a tap operation on the start button 505, the display unit 120 may display an error message.
  • step s13 the control unit 100 performs a mechanical lip reading process to estimate a confirmation language in which the user performs mouth clogging, based on the basic oral shape image extracted in step s9 and the captured moving image 310 generated by the in-camera 180.
  • step s13 the display unit 120 displays a notification screen 600 for notifying that it is a period in which the user performs mouth-picking.
  • FIG. 15 is a view showing an example of the notification screen 600.
  • the notification screen 600 shows notification information 601, the above-mentioned camera image area 304, a plurality of confirmation languages 504 similar to the request screen 500, and a stop button 602.
  • the notification information 601 is information for notifying the user that it is a period during which a current mouth-paking is performed.
  • the stop button 602 is a software button that is operated when the user finishes playing a mouth. The user performs a predetermined operation (for example, a tap operation) on the stop button 602 when the confirmation language is completed.
  • the electronic device 1 When the notification screen 600 is displayed, when the touch panel 130 detects a tap operation on the stop button 602 in step s14, the electronic device 1 notifies the user of the result of the mechanical lip-reading process in step s15. In step s15, the display unit 120 displays a notification screen 700 for notifying the user of the result of the machine lip-reading process.
  • FIG. 16 shows an example of the notification screen 700. As shown in FIG.
  • the notification screen 700 shows notification information 701, instruction information 702, the above-mentioned camera image area 304, a correct answer button 703, and an incorrect answer button 704.
  • the notification information 701 is information for notifying the user of the language estimated in the machine lip-reading process (hereinafter, may be referred to as “estimated language”).
  • the notification information 701 includes an estimated language 701a.
  • the instruction information 702 is information for instructing the user to operate the correct button 701 or the incorrect button 704.
  • the user performs a predetermined operation (for example, a tap operation) on the correct answer button 703 when the spoken confirmation language matches the estimated language notified by the notification information 701.
  • a predetermined operation for example, a tap operation
  • the user performs a predetermined operation (for example, a tap operation) on the incorrect answer button 704 when the spoken language for confirmation does not match the estimated language notified by the notification information 701.
  • a predetermined operation for example, a tap operation
  • the user taps the correct answer button 703 when reading “Shot of cold again” with speech recognition. Further, in the example of FIG. 16, the user taps the incorrect answer button 704 when reading “I am a cat” is read by mouth.
  • the control unit 100 determines that the extracted basic mouth image is not appropriate in step s17. . Then, the control unit 100 discards the extracted basic mouth image without registering it in the electronic device 1.
  • step s5 shown in FIG. 6 is executed again, and the request screen 300 shown in FIG. 7 is displayed on the display surface 121 again. Thereafter, the electronic device 1 operates in the same manner.
  • the user After operating the start button 305 included in the request screen 300 displayed on the display surface 121, the user reads the extraction language 301 again.
  • the extraction language 301 shown on the request screen 300 may be a language different from the extraction language 301 shown on the request screen 300 displayed last time.
  • step s19 the control unit 100 determines the six basics extracted in step s9. It is determined that the basic oral shape image indicating the basic oral shape included in the oral shape pattern formed when the confirmation language correct for the estimation is read out among the oral shape images is appropriate.
  • step s19 it is determined that all of the six extracted basic mouth-shaped images are appropriate.
  • step s19 it is determined that among the six types of extracted basic mouth-shaped images, five types of basic mouth-shaped images respectively indicating an opening shape, an opening shape, an opening shape, an opening shape, and an opening shape are appropriate.
  • step s20 the control unit 100 determines whether or not it has been confirmed that all the extracted basic mouth-shaped images, that is, six types of basic mouth-shaped images are appropriate. If the control unit 100 determines that all the extracted basic mouth shape images are confirmed to be appropriate, then in step s21, the 6 kinds of extracted basic mouth shape images are associated with the identification information input in step s3. It is stored in the storage unit 103. As a result, six types of basic facial sketch images extracted from a photographed image in which the face of the user generated by the camera is captured are registered in the electronic device 1 together with the identification information of the user. It can be said that this is registration of the user to the electronic device 1.
  • step s22 the control unit 100 ends the execution of the registration application. Thereby, the registration mode is canceled in the electronic device 1.
  • step s11 is executed again, and the request screen 500 shown in FIG. 14 is obtained. Is displayed on the display surface 121 again.
  • a confirmation language 504 is displayed in which a mouth shape pattern formed when it is read out includes a basic mouth shape indicated by a basic mouth shape image that has not yet been confirmed as being appropriate.
  • the request screen 500 shows “Cursed by cold” as the language for confirmation 504 as in FIG. Thereafter, the electronic device 1 operates in the same manner.
  • the electronic device 1 since the extraction confirmation process for confirming whether the extracted basic mouth shape image is appropriate is performed, there is a high possibility that an appropriate basic mouth shape image is registered in the electronic device 1. Become. As a result, the convenience of the electronic device 1 is further improved. When the electronic device 1 performs the machine lip reading process using the registered basic mouth image, the precision of the machine lip reading is further improved.
  • the control unit 100 reads out from the storage unit 103 a basic mouth image corresponding to the same identification information as the input identification information. That is, the control unit 100 reads out from the storage unit 103 a basic shape image of the user indicated by the input identification information. Then, the control unit 100 executes the machine lip lip processing using the read basic mouth image.
  • the electronic device 1 uses the user
  • the processing can be performed using a basic mouth-shaped image according to. Therefore, the electronic device 1 can appropriately perform the process according to the user.
  • the electronic device 1 can perform the mechanical lip-reading process using the basic mouth-shaped image according to the user who uses it. Thus, the accuracy of machine lip reading is improved.
  • control unit 100 can extract a basic mouth-form image from the photographed image if at least the lip of the user is included in the photographed image generated by the camera. Therefore, when the user causes the electronic device 1 to execute the registration application, the user may use the electronic device 1 so that at least the lip of the user is reflected in the camera. When the user uses the electronic device 1 so that only the lip of the user is captured by the camera, the control unit 100 does not execute the face recognition process while the camera image area 304 is displayed on the display surface 121.
  • the user may read out the confirmation language that he / she actually selected and selected, instead of speaking out.
  • step s18 if all of the plurality of confirmation languages 504 shown in the request screen 500 are languages in which the mouth pattern formed when it is read include all six basic mouth shapes. Thereafter, steps s21 and s22 are performed without performing steps s19 and s20.
  • the device 1 may display on the display surface 121 an inquiry screen for inquiring of the user whether or not to end the execution of the registered application.
  • the electronic device 1 ends the execution of the registered application.
  • the end instruction operation and the continuation instruction operation are, for example, predetermined operations on the display surface 121. At least one of the end instruction operation and the continuation instruction operation may be an operation on any one of the operation buttons 143 to 145.
  • step s31 is performed after step s9, as shown in FIG. May be performed.
  • the control unit 100 determines whether or not there are unextracted basic mouth images in the six types of basic mouth images. If it is determined in step s31 that all six types of basic mouth shape images have been extracted, step s11 in FIG. 13 is executed, and the electronic device 1 operates in the same manner thereafter. On the other hand, if it is determined in step s31 that there are unextracted basic mouth images among the 6 types of basic mouth images, step s5 is executed again, and the request screen 300 is displayed.
  • an extraction language 301 is shown such that the mouth shape pattern formed when it is read out includes the basic mouth shape indicated by the basic mouth shape image that has not been extracted yet. That is, a word that includes a basic mouth shape indicated by a basic mouth shape image that has not been extracted yet is adopted as a new extraction language 301 in the mouth shape pattern formed when it is read out.
  • step s9 the mouth image is not extracted. Therefore, YES is determined in the subsequent step s31, and step s5 is executed.
  • an extraction language 301 is shown such that the mouth shape pattern formed when it is read out includes the mouth shape.
  • the word “Are you ready?” Is shown on the request screen 300 as a new extraction language 301.
  • the mouth pattern that is formed when the word "Genki?" Is read includes the mouth shape.
  • steps s21 and s22 are performed after the execution of step s9.
  • the identification information associated with the basic squeeze-shaped image may be a face image in which the user's face appears.
  • step s5 is executed without the steps s2 to s4 being executed, and the request screen 300 is displayed.
  • the face image extracted in the face recognition process executed when the request screen 300 is displayed is used as identification information. Therefore, in this case, in step s21, the face image in which the user's face is photographed and the basic mouth image for the user are stored in the storage unit 103 in association with each other.
  • the control unit 100 extracts a face image in which the user's face appears from the captured image generated by the camera as identification information. Then, the control unit 100 executes the mechanical lip-reading process using the basic mouth-shape image associated with the face image that matches the extracted face image in the storage unit 103.
  • the display unit 120 functions as a notification unit that notifies the user of the reading tempo in the above example
  • the speaker 160 may also function as a notification unit that notifies the user of the reading tempo.
  • the speaker 160 outputs the extraction word 301 included in the tempo notification screen 400 as a sound at the reading tempo notified by the tempo notification screen 400. May be That is, the electronic device 1 may read out the extraction words 301 aloud at the reading tempo. As a result, the speaker 160 outputs a voice indicating an example of reading the extraction word 301.
  • the speaker 160 respectively generates the voice of "gi”, the voice of "n”, the voice of "ga”, the voice of "te”, the voice of "tsu", The voice of "", the voice of "”, the voice of "", the voice of "Y”, and the voice of "L".
  • the user and the electronic device 1 read the extraction term together. Note that the user does not have to actually speak out the extraction terms aloud.
  • the speaker 160 may notify the user of the reading start timing immediately before the reading period t1.
  • the speaker 160 may notify the user of the reading start timing by outputting the word “sei” as a voice immediately before the reading period t1.
  • the display color of the extraction word 301 may not change according to the reading tempo. That is, the display unit 120 may not notify the reading tempo.
  • the display unit 120 may display an image for notifying the user of the reading start timing immediately before the reading period t1.
  • the display unit 120 may change an image for notifying the user of the reading start timing according to the reading tempo.
  • the display unit 120 may display the word “sei” as an image for notifying the user of the reading start timing.
  • the display 120 may change the display color of the word “seino” according to the reading tempo, for example, when displaying the word “seino”.
  • the display unit 120 may display “Set”, “Yes”, and “No” in this order according to the reading tempo.
  • the display unit 120 may display an image for notifying the user of the reading start timing just as the speaker 160 notifies the user of the reading start timing immediately before the reading period t1.
  • FIG. 18 is a flowchart showing an example of the operation of the electronic device 1 in this case.
  • steps s41 to s44 are executed instead of steps s5 and s6 in the above-described flowchart shown in FIG.
  • step s41 when the identification information is stored in the storage unit 103 in step s4, in step s41, the display unit 120 displays an explanatory screen 800 for explaining that the user is asked to do this.
  • the control unit 100 causes the in-camera 180 to start shooting.
  • FIG. 19 shows an example of the explanation screen 800.
  • the explanation screen 800 includes notification information 801, the above-described camera image area 304, and extraction words 301.
  • the notification information 801 is information for notifying the user that the user reads the same word after the electronic device 1 reads the extraction word 301.
  • step s42 the electronic device 1 reads out the extraction word aloud. That is, as described above, the speaker 160 reads out the extraction words as speech at the reading tempo.
  • a tempo notification screen 450 similar to the above-described tempo notification screen 400 may be displayed on the display surface 121.
  • FIG. 20 shows an example of the tempo notification screen 450. As shown in FIG. Similar to the tempo notification screen 400, the tempo notification screen 450 shows the extraction word 301, the camera image area 304, and the information 402. However, on the tempo notification screen 450, the retry button 403 and the stop button 404 are not shown.
  • the display color of the extraction word 301 changes in accordance with the tempo at which the electronic device 1 reads the extraction word 301.
  • the display color of the extraction term 301 may not be changed.
  • FIG. 21 shows an example of the request screen 900.
  • notification information 901, instruction information 902, start button 903, the above-mentioned camera image area 304, and extraction words 301 are shown.
  • the notification information 901 is information for notifying the user that it is the next time the user reads the extraction term 301.
  • the start button 903 is a software button operated when the user reads out the extraction term 301.
  • the instruction information 902 is information for instructing the user to operate the start button 305 when reading out the extraction word 301.
  • step s7 When the request screen 900 is displayed, when the touch panel 130 detects a predetermined operation (for example, a tap operation) on the start button 903 in step s44, the above-mentioned step s7 is executed, and the tempo notification screen 400 is displayed. Ru. At this time, on the tempo notification screen 400, the display color of the extraction word 301 may not be changed. After step s7, the electronic device 1 operates in the same manner. When step s17 shown in FIG. 13 is performed, step s41 is performed again. In the flowchart shown in FIG. 18, when the display color of the extraction term 301 included in the tempo notification screens 400 and 450 does not change, only the speaker 160 of the display unit 120 and the speaker 160 is read to the user. It functions as a notification unit that notifies the tempo.
  • a predetermined operation for example, a tap operation
  • the basic mouth image is used in the machine lip reading process, but the usage of the basic mouth image is not limited thereto.
  • the electronic device 1 may generate an utterance video using a basic mouth image. In this case, it is possible to generate a speech representing natural mouth movement. Thus, the convenience of the electronic device 1 is improved.
  • the Japanese basic mouth shape is registered in the electronic device 1, but the basic oral shape of a foreign language can be registered in the electronic device 1 in the same manner.
  • the electronic device 1 is a mobile phone such as a smartphone, but may be another type of electronic device.
  • the electronic device 1 may be, for example, a tablet terminal, a personal computer, a wearable device, or the like.
  • the wearable device employed as the electronic device 1 may be of a wristband type, a wristwatch type, or the like attached to an arm, a headband type, a glasses type, or the like attached to a head. It may be a type worn on the body such as a clothes type.
  • the electronic device 1 may also be an operation device operated by a user mounted on a vehicle (for example, a car, a bicycle, a motorcycle, an airplane, a ship, etc.).
  • the operating device includes, for example, a navigation device and an auxiliary operating device for automatic driving of a vehicle.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Abstract

電子機器は、通知部、カメラ及び処理部を備える。通知部は、第1の言葉を読み上げるテンポをユーザに通知する。カメラは、第1の言葉を読み上げているユーザの少なくとも口唇を撮影する。処理部は、言葉を読み上げるテンポに基づいて、カメラで生成される、ユーザの少なくとも口唇が写る第1撮影画像から、発話の基本口形を示す基本口形画像を抽出する。

Description

電子機器、制御装置、制御プログラム及び電子機器の動作方法 関連出願の相互参照
 本出願は、日本国出願2017-207841号(2017年10月27日出願)の優先権を主張するものであり、当該出願の開示全体を、ここに参照のために取り込む。
 本開示は、電子機器に関する。
 特許文献1及び2に記載されているように、電子機器に関して様々な技術が提案されている。
特開2008-310382号公報 特開2012-103904号公報
 電子機器、制御装置、制御プログラム及び電子機器の動作方法が開示される。一の実施の形態では、電子機器は、通知部、カメラ及び処理部を備える。通知部は、第1の言葉を読み上げるテンポをユーザに通知する。カメラは、第1の言葉を読み上げているユーザの少なくとも口唇を撮影する。処理部は、言葉を読み上げるテンポに基づいて、カメラで生成される、ユーザの少なくとも口唇が写る第1撮影画像から、発話の基本口形を示す基本口形画像を抽出する。
 また、一の実施の形態では、制御装置は、通知部及びカメラを備える電子機器を制御するための、当該電子機器が備える制御装置である。制御装置は、通知部に、言葉を読み上げるテンポをユーザに通知させる。制御装置は、カメラに、言葉を読み上げているユーザの少なくとも口唇を撮影させる。制御装置は、言葉を読み上げるテンポに基づいて、カメラで生成される、ユーザの少なくとも口唇が写る撮影画像から、発話の基本口形を示す基本口形画像を抽出する。
 また、一の実施の形態では、制御プログラムは、電子機器を制御するための制御プログラムである。制御プログラムは、電子機器に、言葉を読み上げるテンポをユーザに通知する第1処理と、言葉を読み上げているユーザの少なくとも口唇を撮影する第2処理と、言葉を読み上げるテンポに基づいて、第2処理で生成される、ユーザの少なくとも口唇が写る撮影画像から、発話の基本口形を示す基本口形画像を抽出する第3処理とを実行させるためのものである。
 また、一の実施の形態では、電子機器の動作方法は、言葉を読み上げるテンポをユーザに通知する第1処理と、言葉を読み上げているユーザの少なくとも口唇を撮影する第2処理と、言葉を読み上げるテンポに基づいて、第2処理で生成される、ユーザの少なくとも口唇が写る撮影画像から、発話の基本口形を示す基本口形画像を抽出する第3処理とを備える。
電子機器の外観の一例を示す斜視図である。 電子機器の外観の一例を示す背面図である。 電子機器の構成の一例を示すブロック図である。 基本口形の一例を示す図である。 ユーザが電子機器を使用する様子の一例を示す図である。 電子機器の動作の一例を示すフローチャートである。 電子機器の表示の一例を示す図である。 電子機器の表示の一例を示す図である。 画面中の言葉の表示態様が変化する様子の一例を示す図である。 画面中の言葉の表示態様が変化する様子の一例を示す図である。 画面中の言葉の表示態様が変化する様子の一例を示す図である。 電子機器の動作の一例を説明するための図である。 電子機器の動作の一例を示すフローチャートである。 電子機器の表示の一例を示す図である。 電子機器の表示の一例を示す図である。 電子機器の表示の一例を示す図である。 電子機器の動作の一例を示すフローチャートである。 電子機器の動作の一例を示すフローチャートである。 電子機器の表示の一例を示す図である。 電子機器の表示の一例を示す図である。 電子機器の表示の一例を示す図である。
 <電子機器の外観の一例>
 図1及び2は電子機器1の外観の一例を示す斜視図及び背面図である。図1及び2に示されるように、電子機器1は、平面視で略長方形の板状の機器ケース11を備えている。機器ケース11は電子機器1の外装を構成している。
 機器ケース11の前面11aには、言い換えれば電子機器1の前面には、文字、記号及び図形等の各種情報が表示される表示面121が位置している。表示面121の背面側には後述するタッチパネル130が位置している。これにより、ユーザは、電子機器1の前面の表示面121を指等で操作することによって、電子機器1に対して各種情報を入力することができる。なお、ユーザは、指以外の操作子、例えば、スタイラスペンなどのタッチパネル用ペンで表示面121を操作することによっても、電子機器1に対して各種情報を入力することができる。
 機器ケース11の前面11aの上端部にはレシーバ穴12が位置している。機器ケース11の下側の側面11dにはマイク穴14が位置している。機器ケース11の前面11aの上端部からは、後述する第1カメラ180が有するレンズ181が視認可能となっている。図2に示されるように、機器ケース11の背面11b、言い換えれば電子機器1の背面の上端部からは、後述する第2カメラ190が有するレンズ191が視認可能となっている。また、機器ケース11の背面11bの上端部には発光部15が位置している。発光部15は例えばLED(Light Emitting Diode)である。機器ケース11の背面11bの下端部にはスピーカ穴13が位置している。
 電子機器1は、複数の操作ボタンから成る後述の操作ボタン群140を有する。各操作ボタンは、例えばハードウェアボタンであって、機器ケース11の表面に位置する。各操作ボタンは、例えば押しボタンである。操作ボタン群140には、ボリュームボタン141、電源ボタン142及び操作ボタン143~145が含まれる。ボリュームボタン141は、機器ケース11の右側の側面11cに位置している。本明細書では、右側と言えば、表示面121を見た場合の右側を意味する。また、左側と言えば、表示面121を見た場合の左側を意味する。電源ボタン142は、機器ケース11の上側の側面11eに位置している。操作ボタン143~145は、機器ケース11の前面11aの下端部に位置している。
 操作ボタン143は例えばバックボタンとして機能する。バックボタンは、表示面121の表示を一つ前の表示に切り替えるための操作ボタンである。ユーザが操作ボタン143を押すことによって、表示面121の表示が一つ前の表示に切り替わる。
 操作ボタン144は例えばホームボタンとして機能する。ホームボタンは、表示面121にホーム画面を表示させるための操作ボタンである。ユーザが操作ボタン144を押すことによって、表示面121にホーム画面が表示される。
 操作ボタン145は、例えば履歴ボタンとして機能する。履歴ボタンは、電子機器1で実行されたアプリケーションの履歴を表示面121に表示させるための操作ボタンである。ユーザが操作ボタン145を押すことによって、表示面121には、電子機器1で実行されたアプリケーションの履歴が表示される。
 <電子機器の電気的構成の一例>
 図3は電子機器1の電気的構成の一例を主に示すブロック図である。図3に示されるように、電子機器1は、制御部100、無線通信部110、表示部120、タッチパネル130及び操作ボタン群140を備える。さらに電子機器1は、レシーバ150、スピーカ160、マイク170、第1カメラ180、第2カメラ190、発光部15及び電池200を備える。電子機器1が備えるこれらの構成要素は、機器ケース11内に収められている。
 制御部100は、電子機器1の他の構成要素を制御することによって、電子機器1の動作を統括的に管理することが可能である。制御部100は制御装置あるいは制御回路とも言える。制御部100は、以下にさらに詳細に述べられるように、種々の機能を実行するための制御及び処理能力を提供するために、少なくとも1つのプロセッサを含む。
 種々の実施形態によれば、少なくとも1つのプロセッサは、単一の集積回路(IC)として、または複数の通信可能に接続された集積回路(IC)及び/またはディスクリート回路(discrete circuits)として実行されてもよい。少なくとも1つのプロセッサは、種々の既知の技術に従って実行されることが可能である。
 1つの実施形態において、プロセッサは、例えば、関連するメモリに記憶された指示を実行することによって1以上のデータ計算手続又は処理を実行するように構成された1以上の回路又はユニットを含む。他の実施形態において、プロセッサは、1以上のデータ計算手続き又は処理を実行するように構成されたファームウェア(例えば、ディスクリートロジックコンポーネント)であってもよい。
 種々の実施形態によれば、プロセッサは、1以上のプロセッサ、コントローラ、マイクロプロセッサ、マイクロコントローラ、特定用途向け集積回路(ASIC)、デジタル信号処理装置、プログラマブルロジックデバイス、フィールドプログラマブルゲートアレイ、またはこれらのデバイス若しくは構成の任意の組み合わせ、または他の既知のデバイス及び構成の組み合わせを含み、以下に説明される機能を実行してもよい。
 本例では、制御部100は、CPU(Central Processing Unit)101、DSP(Digital Signal Processor)102及び記憶部103を備える。記憶部103は、ROM(Read Only Memory)及びRAM(Random Access Memory)などの、CPU101及びDSP102が読み取り可能な非一時的な記録媒体を含む。記憶部103が有するROMは、例えば、不揮発性メモリであるフラッシュROM(フラッシュメモリ)である。記憶部103には、電子機器1を制御するための複数の制御プログラム103a等が記憶されている。制御部100の各種機能は、CPU101及びDSP102が記憶部103内の各種制御プログラム103aを実行することによって実現される。
 なお制御部100は、複数のCPU101を備えてもよい。この場合、制御部100は、比較的複雑な処理を行う、処理能力が高いメインCPUと、比較的簡単な処理を行う、処理能力が低いサブCPUとを備えてもよい。また制御部100は、DSP102を備えなくてもよいし、複数のDSP102を備えてもよい。また、制御部100の全ての機能あるいは制御部100の一部の機能は、その機能の実現にソフトウェアが不要なハードウェア回路によって実現されてもよい。
 記憶部103は、ROM及びRAM以外の、コンピュータが読み取り可能な非一時的な記録媒体を備えていてもよい。記憶部103は、例えば、小型のハードディスクドライブ及びSSD(Solid State Drive)などを備えていてもよい。
 記憶部103内の複数の制御プログラム103aには、様々なアプリケーション(つまり、アプリケーションプログラム)が含まれている。記憶部103には、例えば、音声通話及びビデオ通話を行うための通話アプリケーション、ウェブサイトを表示するためのブラウザ及び電子メールの作成、閲覧及び送受信を行うためのメールアプリケーションが記憶されている。また記憶部103には、第1カメラ180及び第2カメラ190を利用して被写体を撮影するためのカメラアプリケーション、記憶部103に記録されている静止画及び動画を表示するための記録画像表示アプリケーション及び記憶部103に記憶されている音楽データの再生制御を行うための音楽再生制御アプリケーションなどが記憶されている。記憶部103内の少なくとも一つのアプリケーションは、記憶部103内にあらかじめ記憶されているものであってよい。また、記憶部103内の少なくとも一つのアプリケーションは、電子機器1が他の装置からダウンロードして記憶部103内に記憶したものであってよい。
 無線通信部110は、アンテナ111を有している。無線通信部110は、アンテナ111を用いて、例えば複数種類の通信方式で無線通信することが可能である。無線通信部110の無線通信は、制御部100によって制御される。
 無線通信部110は、携帯電話システムの基地局と無線通信することが可能である。無線通信部110は、当該基地局及びインターネット等のネットワークを通じて、電子機器1とは別の携帯電話機及びウェブサーバ等と通信することが可能である。電子機器1は、他の携帯電話機等と、データ通信、音声通話及びビデオ通話等を行うことが可能である。
 また無線通信部110、WiFi等の無線LAN(Local Area Network)を用いて無線通信を行うことが可能である。また無線通信部110は、近距離無線通信を行うことが可能である。例えば、無線通信部110は、Bluetooth(登録商標)に準拠して無線通信することが可能である。無線通信部110は、ZigBee(登録商標)及びNFC(Near Field Communication)の少なくとも一方に準拠して無線通信することが可能であってもよい。
 無線通信部110は、アンテナ111で受信した信号に対して増幅処理等の各種処理を行い、処理後の受信信号を制御部100に出力する。制御部100は、入力される受信信号に対して各種処理を行って、当該受信信号に含まれる情報を取得する。また、制御部100は、情報を含む送信信号を無線通信部110に出力する。無線通信部110は、入力される送信信号に対して増幅処理等の各種処理を行って、処理後の送信信号をアンテナ111から無線送信する。
 表示部120は、電子機器1の前面11aに位置する表示面121と、表示パネル122とを備えている。表示部120は、表示面121に各種情報を表示することが可能である。表示パネル122は、例えば液晶表示パネルである。表示パネル122は、機器ケース11内において、表示面121と対向している。表示部120に表示される情報は、電子機器1の表面の表示面121に表示される。制御部100は、表示パネル122を制御することによって、表示面121の表示を制御することができる。なお表示パネル122は、液晶表示パネル以外の表示パネルであってもよい。例えば、表示パネル122は、有機EL(Electroluminescence)パネルなどの自発光型の表示パネルであってもよい。
 タッチパネル130は、表示面121に対する指等の操作子による操作を検出することが可能である。タッチパネル130は表示面121に対する操作を検出するセンサであると言える。タッチパネル130は、例えば、投影型静電容量方式のタッチパネルである。タッチパネル130は、例えば、表示面121の裏側に位置する。ユーザが指等の操作子によって表示面121に対して操作を行ったとき、その操作に応じた電気信号をタッチパネル130は制御部100に入力することが可能である。制御部100は、タッチパネル130が出力する出力信号に基づいて、表示面121に対して行われた操作の内容を特定することが可能である。そして制御部100は、特定した操作内容に応じた処理を行うことが可能である。なお、表示パネル122及びタッチパネル130の代わりに、タッチパネルが組み込まれたインセル型の表示パネルが採用されてもよい。
 操作ボタン群140の各操作ボタンは、ユーザによって操作されると、操作されたことを示す操作信号を制御部100に出力することが可能である。これにより、制御部100は、各操作ボタンについて、当該操作ボタンが操作されたか否かを判断することができる。操作信号が入力された制御部100が他の構成要素を制御することによって、電子機器1では、操作された操作ボタンに割り当てられている機能が実行される。
 マイク170は、電子機器1の外部から入力される音を電気的な音信号に変換して制御部100に出力することが可能である。電子機器1の外部からの音は、マイク穴14から電子機器1の内部に取り込まれてマイク170に入力される。
 スピーカ160は、例えばダイナミックスピーカである。スピーカ160は、制御部100からの電気的な音信号を音に変換して出力することが可能である。スピーカ160から出力される音は、スピーカ穴13から外部に出力される。ユーザは、スピーカ穴13から出力される音を、電子機器1から離れた場所でも聞こえることが可能である。
 レシーバ150は受話音を出力することが可能である。レシーバ150は例えばダイナミックスピーカである。レシーバ150は、制御部100からの電気的な音信号を音に変換して出力することが可能である。レシーバ150から出力される音はレシーバ穴12から外部に出力される。レシーバ穴12から出力される音の音量は、スピーカ穴13から出力される音の音量よりも小さくなっている。ユーザは、レシーバ穴12から出力される音を、当該レシーバ穴12に耳を近づけることによって聞くことができる。なお、レシーバ150の代わりに、機器ケース11の前面部分を振動させる、圧電振動素子等の振動素子を設けてもよい。この場合には、音は、当該前面部分の振動によりユーザに伝達される。
 第1カメラ180は、レンズ181及びイメージセンサなどを備えている。第2カメラ190は、レンズ191及びイメージセンサなどを備えている。第1カメラ180及び第2カメラ190のそれぞれは、制御部100による制御に基づいて被写体を撮影し、撮影した被写体を示す静止画あるいは動画を生成して制御部100に出力することが可能である。
 第1カメラ180のレンズ181は、機器ケース11の前面11aから視認可能となっている。したがって、第1カメラ180は、電子機器1の前面側(言い換えれば、表示面121側)に存在する被写体を撮影することが可能である。第1カメラ180はインカメラと呼ばれる。一方で、第2カメラ190のレンズ191は、機器ケース11の背面11bから視認可能となっている。したがって、第2カメラ190は、電子機器1の背面側に存在する被写体を撮影することが可能である。第2カメラ190はアウトカメラと呼ばれる。以後、第1カメラ180及び第2カメラ190を特に区別する必要がないときには、それぞれを単に「カメラ」と呼ぶことがある。
 発光部15は、制御部100による制御によって、発光したり、消灯したりすることができる。電池200は電子機器1の電源を出力することが可能である。電池200は例えば充電式の電池である。電池200から出力される電源は、電子機器1が備える制御部100及び無線通信部110などの各種構成に対して供給される。
 なお電子機器1は、タッチパネル130以外のセンサを備えてもよい。例えば、電子機器1は、指紋センサ、加速度センサ、気圧センサ、地磁気センサ、温度センサ、近接センサ、照度センサ及びジャイロセンサの少なくとも一つを備えてもよい。また電子機器1は、当該電子機器1の位置を求めることが可能なGPS(Global Positioning System)受信機を備えてもよい。
 <機械読唇の一例>
 本例では、電子機器1は機械読唇機能を有している。制御部100は、例えば、カメラで生成される、発話している人の少なくとも口唇が写る撮影画像に基づいて、当該人の発話内容(言い換えれば当該人が話す言葉の内容)を推定する機械読唇処理を行う。
 ここで、本開示での発話には、人が言葉を実際に声に出す場合だけではなく、実際には声を出していないが、言葉を声に出すときと同じように口を動かす場合も含まれる。また、言葉を読み上げるという表現及び言葉を発するという表現は、発話の概念に含まれる。したがって、例えば、言葉を読み上げるという動作には、人が言葉を実際に声に出して読み上げる場合だけではなく、実際には声を出していないが、言葉を声に出して読み上げるときと同じように口を動かす場合も含まれる。また言葉には、単語及び文が含まれる。
 本例では、制御部100は、例えば特許文献1に記載されている機械読唇処理と同様にして機械読唇処理を行う。機械読唇処理では、発話時の口形の単位となる基本口形が使用される。特許文献1にも記載されているように、人が言葉を発するときに、言葉の中の各音を発するために形成される口形は、発せられる音または口形の特徴などに応じて、複数種類の基本口形に分類される。すなわち、人が言葉の中の各音を発するとき、発する音の種類に応じて、基本口形の中のいずれかの口形が形成される。そして、ある基本口形から別の基本口形へと口形を変化させながら、その口形の変化に合わせて声を出すことで、言葉が音として発せられる。したがって、発話時の口形の時系列の変化は、基本口形の時系列の変化のパターン(以後、「口形パターン」と呼ぶ)で表すことができる。制御部100は、特許文献1に記載されているように、発話中の人の口唇が写る口唇画像に基づいて、発話中の人の口形の変化を口形パターンで表し、その口形パターンと、記憶部103に記憶される口形辞書中の口形パターンとを比較することによって、人が発する言葉を推定することができる。口形辞書には、複数の言葉のそれぞれについて、当該言葉を発したときの口形の変化のパターンを基本口形の変化のパターンで表した口形パターンが登録されている。
 図4は日本語の基本口形を説明するための図である。図4では、左側に基本口形の名称が示されて、中央に基本口形に割り当てられた口形コードが示され、右側に基本口形の模式図が示されている。
 図4に示されるように、日本語には6種類の基本口形が存在する。具体的には、母音に対応する、ア口形、イ口形、ウ口形、エ口形及びオ口形と、閉唇口形とが存在する。ア口形は、母音アを発するときに形作られる口形であり、イ口形は、母音イを発するときに形作られる口形であり、ウ口形は、母音ウを発するときに形作られる口形である。また、エ口形は、母音エを発するときに形作られる口形であり、オ口形は、母音オを発するときに形作られる口形であり、閉唇口形は、唇を閉じた状態の口形である。本例では、ア口形、イ口形、ウ口形、エ口形、オ口形及び閉唇口形に対して、それぞれ、A、I、U、E、O及びXという口形コードを割り当てる。以下では、基本口形を、それに割り当てた口形コードで示すことがある。
 記憶部103には、各基本口形について、当該基本口形を示す基本口形画像が記憶されている。制御部100は、機械読唇処理において、カメラで生成される撮影動画から、発話中の人の口唇が写る口唇画像を複数フレーム分抽出する。そして、制御部100は、抽出した口唇画像の各フレームと基本口形画像とを比較し、その比較結果に基づいて、発話中の人の口形の変化を表す口形パターンを生成する。そして、制御部100は、生成した口形パターンと、記憶部103に記憶される口形辞書中の口形パターンとを比較し、その比較結果に基づいて、人の発話内容を推定する。
 機械読唇処理では、例えばインカメラ180が使用される。電子機器1のユーザ10は、図5に示されるように、例えば、インカメラ180に自分の少なくとも口唇10aが写るように電子機器1を自分の手10bで持った状態で、電子機器1に機械読唇処理を実行させる。ユーザ10は、例えば、表示面121に対して所定の操作を行うことによって、電子機器1に機械読唇処理の実行を指示することができる。ユーザ10から機械読唇処理の実行の指示を受けた電子機器1では、制御部100が、インカメラ180を動作させ、インカメラ180で生成される撮影画像に基づいて機械読唇処理を行う。
 なお、ユーザ10が、操作ボタン143~145のいずれか一つを操作することによって、電子機器1に対して機械読唇処理の実行を指示することができるようにしてもよい。また、ユーザ10は、例えば、電子機器1を机の上に置くなどして、電子機器1を手10bに持たずに、電子機器1に機械読唇処理を実行させてもよい。また機械読唇処理において、アウトカメラ190が使用されてもよい。
 このように、本例では、電子機器1が機械読唇機能を有することから、ユーザは、実際に声を出すことなく、電子機器1に対する入力を行うことができる。例えば、ユーザは、声を実際に出すことなく、声を出すときと同じような口の動きをすることによって、電子機器1に対して、電子メールの送信指示及びブラウザの起動指示などを行うことができる。したがって、周囲にユーザの声が聞こえることなく、電子機器1に対して指示を行うことができる。よって、音声入力と比較して、ユーザのプライバシーを保護することができる。また、周囲の人に不快感を与える可能性を低減することができる。また、周囲が騒がしい場合であっても、ユーザは、電子機器1に対する入力を行うことができる。
 また、発話障害などの原因により、ユーザが実際に声を出すことが上手にできない場合であっても、電子機器1に対する入力を適宜行うことができる。
 <基本口形画像の登録方法の一例>
 本例では、記憶部103には、基本口形画像を電子機器1に登録するための登録アプリケーションが記憶されている。制御部100が登録アプリケーションを実行することによって、電子機器1の動作モードが、基本口形画像を電子機器1に登録する登録モードに設定される。登録モードでは、カメラで生成される撮影画像から基本口形画像が抽出されて電子機器1に登録される。登録モードでは、例えばインカメラ180が使用される。
 ここで、基本口形画像を電子機器1に登録する方法として、ユーザに、口の形を、意図的に基本口形にしてもらった状態で、当該ユーザの顔をカメラで撮影し、カメラで生成される撮影画像から、ユーザの口唇が写る口唇画像を抽出し、抽出した口唇画像を基本口形画像として電子機器1に登録する方法が考えられる。
 しかしながら、この方法では、カメラ撮影時のユーザの口の形が不自然な形となる可能性があり、不自然な基本口形を示す基本口形画像が電子機器1に登録される可能がある。その結果、ユーザの自然な発話のときに形作られる基本口形と、登録されている基本口形画像が示す基本口形とが大きく異なり、電子機器1において適切に機械読唇を行えない可能性がある。
 そこで、以下では、自然な形の基本口形を示す基本口形画像を電子機器1に登録することを可能にする登録方法について説明する。以後、動作モードと言えば、電子機器1の動作モードを意味する。また、ア口形を示す基本口形画像、イ口形を示す基本口形画像、ウ口形を示す基本口形画像、エ口形を示す基本口形画像、オ口形を示す基本口形画像及び閉唇口形を示す基本口形画像を、それぞれ、「ア口形画像」、「イ口形画像」、「ウ口形画像」、「エ口形画像」、「オ口形画像」及び「閉唇口形画像」と呼ぶことがある。
 図6は、電子機器1が登録モードで動作する際の当該電子機器1の動作の一例を示すフローチャートである。図6に示されるように、ステップs1において、制御部100は、記憶部103内の登録アプリケーションを読み出して実行する。これにより、電子機器1の動作モードが登録モードに設定される。
 制御部100は、例えば、電子機器1が、ユーザから、登録アプリケーションの実行の指示を受け取ると、ステップs1において登録アプリケーションを実行する。また、制御部100は、登録アプリケーションが異常終了したとき、ステップs1において登録アプリケーションを実行して再起動する。ユーザは、例えば、表示面121に表示される所定のアイコンに対して所定の操作(例えばタップ操作)を行うことによって、登録アプリケーションの実行を電子機器1に指示することができる。表示面121に表示されるアイコンに対する操作はタッチパネル130が検出することが可能である。またユーザが、操作ボタン143~145のいずれか一つを操作することによって、登録アプリケーションの実行を電子機器1に指示することができるようにしてもよい。
 登録アプリケーションが実行されて動作モードが登録モードに設定されると、ステップs2において、電子機器1は、ユーザに対して識別情報の入力を要求する。例えば、表示部120は、ユーザに対して識別情報の入力を要求するための要求画面を表示面121に表示する。その後、ステップs3において、電子機器1は、ユーザから当該ユーザを識別するための識別情報が入力されると、ステップs4において、制御部100は入力された識別情報を記憶部103に記憶する。識別情報には、例えば、ユーザの名前が含まれる。ユーザは、例えば、表示面121を操作することによって、電子機器1に対して、自身の識別情報を入力することができる。
 ステップs4の後、ステップs5において、電子機器1は、ユーザに対して、基本口形画像をカメラの撮影画像から抽出するための抽出用言葉を読み上げることを要求する。ステップs5では、表示部120は、抽出用言葉の読み上げを要求するための要求画面300を表示面121に表示する。そして、制御部100はインカメラ180に撮影を開始させる。電子機器1が登録モードで動作する場合には、ユーザは、インカメラ180に自身の顔が写るように電子機器1を使用する。ユーザ10は、例えば、電子機器1を図5のように手10bに持って使用する。
 図7は要求画面300の一例を示す図である。図7に示されるように、要求画面300には、例えば、抽出用言葉301と、指示情報302,303と、カメラ画像領域304と、スタートボタン305とが示されている。
 図7の例では、「ぎんがてつどうのよる」という言葉が抽出用言葉301として採用されている。抽出用言葉301は、後述の説明から明らかになるように、その言葉を発している人の口唇が写る口唇画像から、複数の基本口形画像を抽出することが可能となるような言葉となっている。できるだけ自然な基本口形を示す基本口形画像が抽出されるように、抽出用言葉301は、ユーザが自然と読めるような、多くの人が知っている言葉であってもよい。抽出用言葉301は図7の例には限られない。
 指示情報302は、抽出用言葉301を読み上げることをユーザに対して指示する情報である。スタートボタン305は、ユーザが抽出用言葉301を読み上げるときに操作するソフトウェアボタンである。指示情報303は、ユーザに対して、抽出用言葉301を読み上げるときにスタートボタン305を操作することを指示する情報である。
 カメラ画像領域304は、インカメラ180で生成される撮影動画310がリアルタイムに示される領域である。図7の例では、ユーザの顔が写る撮影動画310がカメラ画像領域304に示されている。ユーザは、カメラ画像領域304に示される撮影動画310を見て、自身の顔がインカメラ180に写っているか否かを確認することができる。以後、撮影動画と言えば、特に断らない限り、インカメラ180で生成される撮影動画を意味する。
 本例では、表示面121にカメラ画像領域304が表示されている間、制御部100は、撮影動画310から、ユーザの顔(詳細には顔全体)が写る顔画像を抽出する顔認識処理を実行する。さらに制御部100は、撮影動画310から、インカメラ180に写るユーザ10の口唇(詳細には口唇全体)が写る口唇画像を抽出する口唇認識処理を実行する。制御部100は、撮影動画に対して、特徴点抽出処理などの画像処理を行うことによって、顔認識処理及び口唇認識処理を実行することができる。制御部100は、例えば、撮影動画の各フレームから顔画像及び口唇画像を抽出する。したがって、表示面121にカメラ画像領域304が表示されている間、制御部100は、顔認識処理及び口唇認識処理を繰り返し実行することになる。
 以後、顔認識の成功と言えば、顔認識処理において顔画像が抽出されたことを意味し、顔認識の失敗と言えば、顔認識処理において顔画像が抽出されなかったことを意味する。同様に、口唇認識の成功と言えば、口唇認識処理において口唇画像が抽出されたことを意味し、口唇認識の失敗と言えば、口唇識処理において口唇画像が抽出されなかったことを意味する。
 制御部100は、顔認識に成功すると、図7に示されるように、抽出した顔画像の範囲320(以後、「顔認識範囲320」と呼ぶことがある)を撮影動画310に重ねて示す。また制御部100は、口唇認識に成功すると、抽出した口唇画像の範囲330(以後、「口唇認識範囲330」と呼ぶことがある)を撮影動画310に重ねて示す。ユーザは、カメラ画像領域304に顔認識範囲320が示されているか否かによって、電子機器1において顔認識が成功している否かを確認することができる。同様に、ユーザは、カメラ画像領域304に口唇認識範囲330が示されているか否かによって、電子機器1において口唇認識が成功している否かを確認することができる。
 以上のような要求画面300が表示されている場合に、ステップs6において、タッチパネル130が、スタートボタン305に対する所定の操作(例えばタップ操作)を検出すると、ステップs7において、電子機器1は、抽出用言葉を読み上げるテンポ(以後、「読み上げテンポ」と呼ぶことがある)をユーザに対して通知する。本例では、表示部120が、読み上げテンポをユーザに対して通知する通知処理を実行する。ステップs7では、制御部100は、読み上げテンポを通知するテンポ通知画面を表示部120に表示させる。
 なお、制御部100は、顔認識及び口唇認識の両方に成功しているとき、スタートボタン305に対するタップ操作を受け付け、顔認識及び口唇認識の少なくとも一方に失敗しているとき、当該タップ操作を受け付けなくてもよい。言い換えれば、制御部100は、顔認識範囲320及び口唇認識範囲330の両方が表示面121に表示されているとき、スタートボタン305に対するタップ操作を受け付け、顔認識範囲320及び口唇認識範囲330の少なくとも一方が表示面121に表示されていないとき、当該タップ操作を受け付けなくてもよい。この場合、制御部100は、顔認識及び口唇認識の両方に成功しているとき、スタートボタン305に対してタップ操作が行われると、ステップs7を実行して、テンポ通知画面を表示部120に表示させる。一方で、制御部100は、顔認識及び口唇認識の少なくとも一方に失敗しているとき、スタートボタン305に対してタップ操作が行われたとしても、ステップs7を実行しない。また、制御部100は、顔認識に成功しているか否かにかかわらず、口唇認識に成功しているとき、スタートボタン305に対するタップ操作を受け付け、顔認識に成功しているか否かにかかわらず、口唇認識に失敗しているとき、当該タップ操作を受け付けなくてもよい。
 このように、口唇認識に成功しているときスタートボタン305に対するタップ操作が受け付けられることによって、インカメラ180で生成される撮影画像から、ユーザの口唇が写る口唇画像を適切に抽出することが可能となる。なお、制御部100がスタートボタン305に対するタップ操作を受け付けない場合には、表示部120はエラーメッセージを表示してもよい。このエラーメッセージには、例えば、「顔と唇がカメラに正しく写るようにしてください」といった文字列が含まれる。
 図8はテンポ通知画面400の一例を示す図である。図8に示されるように、テンポ通知画面400には、例えば、抽出用言葉301と、上述のカメラ画像領域304と、情報402と、リトライボタン403と、ストップボタン404とが示されている。
 情報402は、ユーザが抽出用言葉301を読み上げている最中であることを示す情報である。ストップボタン404は、ユーザが抽出用言葉301の読み上げが終了したときに操作するソフトウェアボタンである。リトライボタン403は、ユーザが抽出用言葉301の読み上げを再度行うときに操作するソフトウェアボタンである。
 表示部120は、テンポ通知画面400を利用してテンポ通知処理を行う。具体的には、表示部120、テンポ通知画面400に示す抽出用言葉301の表示態様を、読み上げテンポに応じて、その先頭から変化させることによって、テンポ通知処理を行う。テンポ通知処理では、例えば、抽出用言葉301の表示色が、読み上げテンポに応じて、その先頭から変化する。例えば、抽出用言葉301の初期の表示色が青色であるとすると、抽出用言葉301の表示色は、その先頭から、読み上げテンポに応じて、青色から赤色に変化する。これにより、ユーザに対して読み上げテンポが通知される。
 図9は、抽出用言葉301の表示色が、読み上げテンポに応じて、その先頭から変化する様子の一例を示す図である。図8,9では、抽出用言葉301の表示色が変化する様子が太字で示されている。以下の図についても同様である。
 図9の例では、抽出用言葉301の表示色が、その先頭から1音ごとに、それをユーザが読み上げるタイミングで変化している。ここで、音とは、日本語の1拍の音を意味するものとする。拍はモーラとも呼ばれる。
 図9に示されるように、抽出用言葉301の先頭の「ぎ」の読み上げ期間t1において「ぎ」の表示色が変化する。次に、抽出用言葉301の先頭から2番目の「ん」の読み上げ期間t2において「ん」の表示色が変化する。次に、抽出用言葉301の先頭から3番目の「が」の読み上げ期間t3において「が」の表示色が変化する。次に、抽出用言葉301の先頭から4番目の「て」の読み上げ期間t4において「て」の表示色が変化する。次に、抽出用言葉301の先頭から5番目の「つ」の読み上げ期間t5において「つ」の表示色が変化する。次に、抽出用言葉301の先頭から6番目の「ど」の読み上げ期間t6において「ど」の表示色が変化する。次に、抽出用言葉301の先頭から7番目の「う」の読み上げ期間t7において「う」の表示色が変化する。次に、抽出用言葉301の先頭から8番目の「の」の読み上げ期間t8において「の」の表示色が変化する。次に、抽出用言葉301の先頭から9番目の「よ」の読み上げ期間t9において「よ」の表示色が変化する。そして、抽出用言葉301の最後の「る」の読み上げ期間t10において「る」の表示色が変化する。
 図9の例では、読み上げ期間t1~t10によって、抽出用言葉301の読み上げテンポが決定される。表示部120が行うテンポ通知処理は、最初の読み上げ期間t1の先頭で開始し、最後の読み上げ期間t10の末尾で終了すると言える。以後、読み上げ期間t1の先頭から読み上げ期間t10の末尾までの期間を「テンポ通知期間」と呼ぶことがある。また、読み上げ期間t1~t10を特に区別する必要がない場合には、それぞれを符号なしで「読み上げ期間」と呼ぶ。
 このように、本例では、カラオケの字幕の表示色が曲のテンポに応じて変化するのと同様に、抽出用言葉301の表示色が、その先頭から、読み上げテンポに応じて順次変化する。言い換えれば、抽出用言葉301の表示色が、その先頭から、抽出用言葉301を読み上げる速さに応じて順次変化する。これにより、ユーザは、テンポ通知画面400での抽出用言葉301の表示色の変化に合わせて、抽出用言葉301を読み上げることによって、電子機器1から通知される読み上げテンポで抽出用言葉301を読み上げることができる。
 なお、抽出用言葉301に含まれる1音において、読み上げる方向に沿って表示色が徐々に変化してもよい。例えば、抽出用言葉301の「ぎ」の表示色が、抽出用言葉301を読み上げる方向(図8では左側から右側に向かう方向)に沿って徐々に変化してもよい。また、電子機器1は、抽出用言葉301を中抜き文字で表示してもよい。この場合、電子機器1は、抽出用言葉301に含まれる1音を表す中抜き文字の表示色を、読み上げる方向に沿って徐々に変化させてもよい。
 また、テンポ通知画面400では、図10に示されるように、抽出用言葉301の表示サイズが、その先頭から、読み上げテンポに応じて順次変化してもよい。図10の例では、抽出用言葉301の表示サイズが、その先頭から、読み上げテンポに応じて1音ずつ大きくなっている。また、テンポ通知画面400では、図11に示されるように、抽出用言葉301の表示色及び表示サイズが、その先頭から、読み上げテンポに応じて順次変化してもよい。
 ステップs7において、制御部100は、テンポ通知期間にインカメラ180で生成される撮影動画310の各フレームから抽出する口唇画像を記憶部103に保存する。これにより、記憶部103には、ユーザが抽出用言葉301を読み上げている間の当該ユーザの口唇が写る口唇画像が記憶部103に保存される。撮影動画310の各フレームから口唇画像が抽出されることによって、ユーザの口唇が写る口唇動画が生成されると言えることから、記憶部103には、ユーザが抽出用言葉301を読み上げている間の当該ユーザの口唇が写る口唇動画が保存されると言える。本開示では、情報等を記憶部103に保存するとは、記憶部103が有する、フラッシュメモリ等の不揮発性メモリに情報等を記憶することを意味する。以後、記憶部103に保存されている口唇動画を「保存口唇動画」と呼ぶことがある。また、保存口唇動画を構成する複数のフレームのそれぞれを「口唇画像フレーム」と呼ぶことがある。
 ユーザは、テンポ通知画面400から通知される読み上げテンポに従って抽出用言葉301を最後まで読み上げると、ストップボタン404に対してタップ操作を行う。テンポ通知画面400が表示されているときに、ステップs8において、タッチパネル130がストップボタン404に対するタップ操作を検出すると、制御部100はステップs9を実行する。
 またユーザは、テンポ通知画面400から通知される読み上げテンポに従って上手く抽出用言葉301を読み上げることができなかったなどの理由で、抽出用言葉301の読み上げを再度行いたい場合には、リトライボタン403に対してタップ操作を行う。テンポ通知画面400が表示されているときに、ステップs10において、タッチパネル130がリトライボタン403に対するタップ操作を検出すると、ステップs7において、表示部120は、表示中のテンポ通知画面400中の抽出用言葉301の表示態様を元に戻した後、再度、抽出用言葉301の表示態様を、先頭から読み上げテンポに応じて変化させる。つまり、表示部120は、テンポ通知処理を再度行う。ユーザは、テンポ通知画面400から通知される読み上げテンポに従って再度抽出用言葉301を読み上げる。また、タッチパネル130がリトライボタン403に対するタップ操作を検出すると、制御部100は、記憶部103内の保存口唇動画を記憶部103から削除する。そして、制御部100は、再度行われるテンポ通知処理に応じて、口唇動画を記憶部103に再度保存する。
 ステップs9においては、制御部100は、ユーザに通知された読み上げテンポに基づいて、記憶部103内の保存口唇動画から、基本口形画像を抽出する。
 図12は、保存口唇動画から基本口形画像が抽出される抽出処理の一例を説明するための図である。図12には、テンポ通知期間T100と、それに含まれる上述の読み上げ期間t1~t10とが示されている。図12では、各読み上げ期間において、その期間に読み上げられる音が時間軸tの上側に示されている。また、各読み上げ期間において、その期間に読み上げられる音に対応する基本口形に割り当てられた口形コード(図4参照)が時間軸tの下側に示される。ここで、音に対応する基本口形とは、その音を人が発する場合に形作られる基本口形を意味する。
 特許文献1,2にも記載されているように、日本語の音には、単口形音と、複口形音とが存在する。単口形音とは、それを発するときの口形が、初口形を含まず、終口形のみで構成される音である。一方で、複口形音とは、それを発するときの口形に、初口形と終口形とが含まれる音である。初口形とは、人が音を発するとき、その音を発するために予め形作る必要がある基本口形であって、その音の母音に対応する基本口形とは異なる基本口形である。終口形とは、人が音を発するときにその音を発し終える際に形作られる基本口形である。
 例えば「ひ」は単口形音である。人が「ひ」を発するとき、初口形は形作られずに、終口形であるイ口形が形作られる。一方で、例えば「さ」は複口形音である。人が「さ」を発するとき、初口形であるイ口形が形作られた後に、終口形であるア口形が形作られる。
 ある音が単口形音である場合には、その音の終口形だけが、その音に対応する基本口形となる。一方で、ある音が複口形音である場合には、その音の初口形及び終口形が、その音に対応する基本口形となる。
 「ぎんがてつどうのよる」という抽出用言葉においては、「ぎ」、「ん」、「が」、「つ」、「う」及び「る」が単口形音となり、「て」、「ど」、「の」及び「よ」が複口形音となる。
 「ぎ」の終口形はイ口形となる。よって、「ぎ」に対応する基本口形はイ口形となる。したがって、図12においては、「ぎ」の読み上げ期間t1に、イ口形に割り当てられた口形コード「I」が示されている。
 「ん」の終口形は閉唇口形となる。よって、「ん」に対応する基本口形は閉唇口形となる。したがって、図12においては、「ん」の読み上げ期間t2に、閉唇口形に割り当てられた口形コード「X」が示されている。
 「が」の終口形はア口形となる。よって、「が」に対応する基本口形はア口形となる。したがって、図12においては、「が」の読み上げ期間t3に、ア口形に割り当てられた口形コード「A」が示されている。
 「つ」、「う」及び「る」の終口形はウ口形となる。よって、「つ」、「う」及び「る」に対応する基本口形はウ口形となる。したがって、図12においては、「つ」、「う」及び「る」の読み上げ期間t5,t7,t10に、ウ口形に割り当てられた口形コード「U」が示されている。
 「て」の初口形及び終口形はそれぞれイ口形及びエ口形となる。よって、「て」に対応する基本口形はイ口形及びエ口形となる。したがって、図12においては、「て」の読み上げ期間t4に、イ口形に割り当てられた口形コード「I」と、エ口形に割り当てられた口形コード「E」とが示されている。詳細には、読み上げ期間t4において、初口形が現れる前半期間t4aに口形コード「I」が示され、終口形が現れる後半期間t4bに口形コード「E」が示されている。
 「ど」、「の」及び「よ」のそれぞれの初口形及び終口形は、それぞれウ口形及びオ口形となる。よって、「ど」、「の」及び「よ」に対応する基本口形はウ口形及びオ口形となる。したがって、図12においては、「ど」、「の」及び「よ」の読み上げ期間t6,t8,t9に、ウ口形に割り当てられた口形コード「U」と、オ口形に割り当てられた口形コード「O」とが示されている。詳細には、読み上げ期間t6,t8,t9のそれぞれにおいて、初口形が現れる前半期間t6a,t8a,t9aに口形コード「U」が示され、終口形が現れる後半期間t6b、t8b、t9bに口形コード「O」が示されている。
 図12に示されるように、「ぎんがてつどうのよる」という抽出用言葉については、それを構成する複数の音に対応する基本口形に、6種類の基本口形のすべてが含まれている。図12に示される口形コードの並びは、「ぎんがてつどうのよる」という言葉が読み上げられる際に形作られる口形パターンを示していると言える。したがって、「ぎんがてつどうのよる」という言葉が読み上げられる際に形作られる口形パターンには、6種類の基本口形のすべてが含まれている。
 図12の例の場合、ステップs9において、制御部100は、例えば、保存口唇動画から、「ぎ」の読み上げ期間t1にインカメラ180で撮影された口唇が写る一の口唇画像フレームを抽出し、抽出した一の口唇画像フレームをイ口形画像とする。言い換えれば、制御部100は、「ぎ」の読み上げ期間t1においてインカメラ180で生成された撮影動画の一のフレームから抽出された口唇画像を保存口唇動画から抽出し、抽出した口唇画像をイ口形画像とする。ユーザがテンポ通知画面400から通知される読み上げテンポに合わせて抽出用言語を読み上げた場合には、「ぎ」の読み上げ期間t1にインカメラ180で撮影された口唇が写る一の口唇画像フレームには、「ぎ」の終口形であるイ口形が写る可能性が高い。よって、当該一の口唇画像フレームをイ口形画像とすることによって、イ口形画像を適切に抽出することができる。制御部100は、例えば、「ぎ」の読み上げ期間t1の真ん中のタイミングでインカメラ180で撮影された口唇が写る一の口唇画像フレームをイ口形画像とする。
 ステップs9において、制御部100は、保存口唇動画から、例えば、「ん」の読み上げ期間t2にインカメラ180で撮影された口唇が写る一の口唇画像フレームを抽出し、抽出した一の口唇画像フレームを閉唇口形画像とする。例えば、制御部100は、「ん」の読み上げ期間t2の真ん中のタイミングでインカメラ180で撮影された口唇が写る一の口唇画像フレームを閉唇口形画像とする。
 ステップs9において、制御部100は、保存口唇動画から、例えば、「が」の読み上げ期間t3にインカメラ180で撮影された口唇が写る一の口唇画像フレームを抽出し、抽出した一の口唇画像フレームをア口形画像とする。例えば、制御部100は、「が」の読み上げ期間t3の真ん中のタイミングでインカメラ180で撮影された口唇が写る一の口唇画像フレームをア口形画像とする。
 ステップs9において、制御部100は、保存口唇動画から、例えば、「つ」の読み上げ期間t5にインカメラ180で撮影された口唇が写る一の口唇画像フレームを抽出し、抽出した一の口唇画像フレームをウ口形画像とする。例えば、制御部100は、「つ」の読み上げ期間t5の真ん中のタイミングでインカメラ180で撮影された口唇が写る一の口唇画像フレームをウ口形画像とする。
 ステップs9において、制御部100は、保存口唇動画から、例えば、「て」の読み上げ期間t4の後半期間t4bにインカメラ180で撮影された口唇が写る一の口唇画像フレームを抽出し、抽出した一の口唇画像フレームを、エ口形画像とする。ユーザがテンポ通知画面400から通知される読み上げテンポに合わせて抽出用言語を読み上げた場合には、「て」の読み上げ期間t4の後半期間t4bにインカメラ180で撮影された口唇が写る一の口唇画像フレームには、「て」の終口形であるエ口形が写る可能性が高い。よって、当該一の口唇画像フレームをエ口形画像とすることによって、エ口形画像を適切に抽出することができる。制御部100は、例えば、「て」の読み上げ期間t4の後半期間t4bの真ん中のタイミングでインカメラ180で撮影された口唇が写る一の口唇画像フレームをエ口形画像とする。
 ステップs9において、制御部100は、保存口唇動画から、例えば、「ど」の読み上げ期間t6の後半期間t6bにインカメラ180で撮影された口唇が写る一の口唇画像フレームを抽出し、抽出した一の口唇画像フレームをオ口形画像とする。例えば、制御部100は、「ど」の読み上げ期間t6の後半期間t6bの真ん中のタイミングでインカメラ180で撮影された口唇が写る一の口唇画像フレームをオ口形画像とする。
 このように、抽出用言葉として例えば「ぎんがてつどうのよる」を採用することによって、制御部100は、電子機器1がユーザに通知する読み上げテンポに基づいて、カメラで生成される撮影動画から6種類の基本口形画像のすべてを抽出することができる。
 なお、図12の例において、制御部100が、保存口唇動画から基本口形画像を抽出する方法は、上記の例に限られない。例えば、制御部100は、保存口唇動画から、「て」の読み上げ期間t4の前半期間t4aにインカメラ180で撮影された口唇が写る一の口唇画像フレームを抽出し、抽出した一の口唇画像フレームをイ口形画像としてもよい。また制御部100は、保存口唇動画から、「う」の読み上げ期間t7にインカメラ180で撮影された口唇が写る一の口唇画像フレームを抽出し、抽出した一の口唇画像フレームをウ口形画像としてもよい。また制御部100は、保存口唇動画から、「の」の読み上げ期間t8の後半期間t8bにインカメラ180で撮影された口唇が写る一の口唇画像フレームを抽出し、抽出した一の口唇画像フレームをオ口形画像としてもよい。
 以上のように、電子機器1は、ユーザに対して抽出用言葉を読み上げるテンポを通知することから、当該テンポを適切に設定することによって、ユーザに自然な形で抽出用言葉を読み上げさせることが可能となる。そして、制御部100は、ユーザに通知される読み上げテンポに基づいて、カメラで生成される撮影画像から基本口形画像を抽出することから、自然な形の基本口形を示す基本口形画像を適切に取得することが可能となる。よって、電子機器1は、自然な形の基本口形を示す基本口形画像を用いて処理を行うことができ、その結果、電子機器1の利便性が向上する。例えば、電子機器1は、自然な形の基本口形を示す基本口形画像を用いて機械読唇処理を行うことができることから、機械読唇の精度が向上する。
 ステップs9の後、電子機器1は、抽出した基本口形画像が適切であるかを確認する抽出確認処理を行う。抽出確認処理では、電子機器1が機械読唇処理を行うことによってユーザが口パクした言葉を当てるという一種のクイズが行われる。抽出確認処理は、図13に示されるステップs11~s19で構成される。
 ステップs9の後、ステップs11において、電子機器1は、ユーザに対して、抽出した基本口形画像が適切であるかを確認するための口パクを行うことを要求する。ステップs11では、表示部120は、ユーザに対して口パクを行うことを要求する要求画面500を表示する。図14は要求画面500の一例を示す図である。
 図14に示されるように、要求画面500には、上述のカメラ画像領域304と、通知情報501と、指示情報502,503と、ユーザが口パクする言語として選択する対象の複数の確認用言語504と、スタートボタン505とが示されている。図14の例では、要求画面500には、抽出用言語とは異なる4つの確認用言語504が示されている。なお、要求画面500に示される確認用言語504の内容及び数は図14の例に限られない。
 通知情報501は、ユーザに対して、抽出した基本口形画像が適切であるかを今から確認することを通知する情報である。指示情報502は、ユーザに対して、要求画面500に示される4つの確認用言語504の一つを選択し、選択した確認用言語504を口パクすることを指示する情報である。スタートボタン505は、ユーザが選択した確認用言語504を口パクするときに操作するソフトウェアボタンである。指示情報503は、ユーザに対して、口パクを開始するときにスタートボタン505を操作することを指示する情報である。
 要求画面500が表示されている場合に、ステップs12において、スタートボタン505に対する所定の操作(例えばタップ操作)をタッチパネル130が検出すると、ステップs13が実行される。ユーザは、スタートボタン505に対してタップ操作をした後に、要求画面500に含まれる複数の確認用言語504から選択した確認用言語504を口パクで読み上げる。
 なお、要求画面500が表示されている場合、制御部100は、顔認識及び口唇認識の両方に成功しているとき、スタートボタン505に対するタップ操作を受け付け、顔認識及び口唇認識の少なくとも一方に失敗しているとき、当該タップ操作を受け付けなくてもよい。また、制御部100は、顔認識に成功しているか否かにかかわらず、口唇認識に成功しているとき、スタートボタン505に対するタップ操作を受け付け、顔認識に成功しているか否かにかかわらず、口唇認識に失敗しているとき、当該タップ操作を受け付けなくてもよい。制御部100がスタートボタン505に対するタップ操作を受け付けない場合には、表示部120はエラーメッセージを表示してもよい。
 ステップs13では、制御部100が、ステップs9で抽出した基本口形画像と、インカメラ180で生成される撮像動画310とに基づいて、ユーザが口パクする確認用言語を推定する機械読唇処理を行う。またステップs13では、表示部120が、ユーザが口パクを行う期間であることを通知する通知画面600を表示する、図15は通知画面600の一例を示す図である。
 図15に示されるように、通知画面600には、通知情報601と、上述のカメラ画像領域304と、要求画面500と同様の複数の確認用言語504と、ストップボタン602とが示される。通知情報601は、ユーザに対して、現在口パクを行う期間であることを通知する情報である。ストップボタン602は、ユーザが口パクを終了したときに操作するソフトウェアボタンである。ユーザは、確認用言語の口パクが完了すると、ストップボタン602に対して所定の操作(例えばタップ操作)を行う。
 通知画面600が表示されている場合に、ステップs14において、ストップボタン602に対するタップ操作をタッチパネル130が検出すると、ステップs15において、電子機器1は、機械読唇処理の結果をユーザに対して通知する。ステップs15では、表示部120は、機械読唇処理の結果をユーザに対して通知する通知画面700を表示する。図16は通知画面700の一例を示す図である。
 図16に示されるように、通知画面700には、通知情報701と、指示情報702と、上述のカメラ画像領域304と、正解ボタン703と、不正解ボタン704とが示される。
 通知情報701は、ユーザに対して、機械読唇処理において推定された言語(以後、「推定言語」と呼ぶことがある)を通知する情報である。通知情報701には推定言語701aが含まれる。指示情報702は、正解ボタン701か、不正解ボタン704かを操作することをユーザに対して指示する情報である。ユーザは、口パクした確認用言語と、通知情報701で通知される推定言語とが一致する場合には、正解ボタン703に対して所定の操作(例えばタップ操作)を行う。言い換えれば、ユーザが口パクした言語を電子機器1が推定した結果、その推定結果が正解である場合には、ユーザは正解ボタン703をタップ操作する。ユーザは、口パクした確認用言語と、通知情報701で通知される推定言語とが一致しない場合には、不正解ボタン704に対して所定の操作(例えばタップ操作)を行う。言い換えれば、ユーザが口パクした言語を電子機器1が推定した結果、その推定結果が不正解である場合には、ユーザは不正解ボタン704をタップ操作する。
 図16の例において、ユーザは、口パクで「かぜのまたさぶろ」を読み上げていたとき、正解ボタン703をタップ操作する。また図16の例において、ユーザは、口パクで「わがはいはねこである」を読み上げていたとき、不正解ボタン704をタップ操作する。
 通知画面700が表示されている場合、ステップs16において、不正解ボタン704に対するタップ操作がタッチパネル130で検出されると、ステップs17において、制御部100は、抽出した基本口形画像が適切でないと判定する。そして、制御部100は、抽出した基本口形画像を電子機器1に登録せずに破棄する。
 ステップs17の後、図6に示されるステップs5が再度実行されて、図7に示される要求画面300が再度表示面121に表示される。以後、電子機器1は同様に動作する。ユーザは、表示面121に表示される要求画面300に含まれるスタートボタン305を操作した後、抽出用言語301を再度読み上げる。なお、要求画面300に示される抽出用言語301は、前回表示された要求画面300に示される抽出用言語301とは異なる言語であってもよい。
 一方で、通知画面700が表示されている場合、ステップs18において、正解ボタン703に対するタップ操作がタッチパネル130で検出されると、ステップs19において、制御部100は、ステップs9で抽出した6種類の基本口形画像のうち、推定に正解した確認用言語が読み上げられる際に形作られる口形パターンに含まれる基本口形を示す基本口形画像は適切であると判定する。
 例えば、ステップs13の機械読唇処理で「かぜのまたさぶろう」が推定され、それがユーザが口パクした確認用言語と一致した場合を考える。「かぜのまたさぶろう」という確認用言語が読み上げられる際に形作られる口形パターンには、6種類の基本口形がすべて含まれる。したがって、ステップs19では、抽出された6種類の基本口形画像のすべてが適切であると判定される。
 また、ステップs13の機械読唇処理で「わがはいはねこである」が推定され、それがユーザが口パクした確認用言語と一致した場合を考える。「わがはいはねこである」という確認用言語が読み上げられる際に形作られる口形パターンには、ア口形、イ口形、ウ口形、エ口形及びオ口形の5種類の基本口形が含まれる。したがって、ステップs19では、抽出された6種類の基本口形画像のうち、ア口形、イ口形、ウ口形、エ口形及びオ口形をそれぞれ示す5種類の基本口形画像が適切であると判定される。
 ステップs19の後、ステップs20において、制御部100は、抽出したすべての基本口形画像、つまり6種類の基本口形画像が適切であることを確認したか否かを判定する。制御部100は、抽出したすべての基本口形画像が適切であることを確認したと判定すると、ステップs21において、抽出した6種類の基本口形画像を、ステップs3で入力された識別情報と対応付けて記憶部103に保存する。これにより、カメラで生成されるユーザの顔が写る撮影画像から抽出された6種類の基本口形画像が、当該ユーザの識別情報とともに電子機器1に登録される。これは、当該ユーザの電子機器1への登録であるとも言える。
 ステップs21の後、ステップs22において、制御部100は、登録アプリケーションの実行を終了する。これにより、電子機器1において登録モードが解除される。
 一方で、ステップs20において、制御部100が、抽出したすべての基本口形画像が適切であることをまだ確認していないと判定すると、ステップs11が再度実行されて、図14に示される要求画面500が表示面121に再度表示される。このとき、要求画面500には、それが読み上げられるときに形作られる口形パターンに、適切であることがまだ確認されてない基本口形画像が示す基本口形を含むような確認用言語504が示される。例えば、まだ確認されてない基本口形画像が閉唇口形画像であるとすると、要求画面500には、図14と同様に「かぜのまたさぶろう」が確認用言語504として示される。以後、電子機器1は同様に動作する。
 このように、電子機器1では、抽出した基本口形画像が適切であるかを確認する抽出確認処理が行われることから、電子機器1には、適切な基本口形画像が登録される可能性が高くなる。その結果、電子機器1の利便性がさらに向上する。電子機器1が、登録した基本口形画像を用いて機械読唇処理を行う場合には、機械読唇の精度がさらに向上する。
 以上の説明から理解できるように、複数のユーザが電子機器1に登録されると、当該複数のユーザの識別情報のそれぞれに対応付けられて基本口形画像が電子機器1に登録される。ユーザは、電子機器1の機械読唇機能を利用して電子機器1に対して入力を行う場合には、自身の識別情報を電子機器1に入力する。ユーザは、例えば表示面121に対して所定の操作を行うことによって、電子機器1に識別情報を入力することができる。電子機器1では、制御部100は、入力された識別情報と同じ識別情報に対応する基本口形画像を記憶部103から読み出す。つまり、制御部100は、入力された識別情報が示すユーザについての基本口形画像を記憶部103から読み出す。そして、制御部100は、読み出した基本口形画像を使用して機械読唇処理を実行する。
 このように、ユーザごとに、それに応じた基本口形画像を電子機器1に登録することによって、複数のユーザが電子機器1を使用する場合であっても、電子機器1は、それを使用するユーザに応じた基本口形画像を用いて処理を行うことができる。よって、電子機器1は、ユーザに応じた処理を適切に行うことができる。例えば、電子機器1は、それを使用するユーザに応じた基本口形画像を用いて機械読唇処理を行うことができる。よって、機械読唇の精度が向上する。
 なお、制御部100は、カメラで生成される撮影画像に少なくともユーザの口唇が写っていれば、当該撮影画像から基本口形画像を抽出することができる。したがって、ユーザは、電子機器1に登録アプリケーションを実行させる際には、自身の口唇が少なくともカメラに写るようにして電子機器1を使用すればよい。ユーザが、自身の口唇だけがカメラに写るように電子機器1を使用する場合には、制御部100は、表示面121にカメラ画像領域304が表示されている間、顔認識処理を実行しない。
 またユーザは、要求画面500のスタートボタン505を操作した後、口パクではなく、実際に声を出して選択した確認用言語を読み上げてもよい。
 また、要求画面500に示される複数の確認用言語504のすべてが、それが読み上げられるときに形作られる口形パターンに6種類の基本口形がすべて含まれるような言語である場合には、ステップs18の後、ステップs19,s20が実行されずにステップs21,s22が実行される。
 また、制御部100が実行する機械読唇処理での推定が所定回数(例えば5回)不正解の場合には、つまり、登録アプリケーションの実行中にステップs16が所定回数実行される場合には、電子機器1はステップs17の実行後に、登録アプリケーションの実行を終了するか否かをユーザに問い合わせる問い合わせ画面を表示面121に表示してもよい。問い合わせ画面の表示中に、ユーザが、登録アプリケーションの実行の終了を指示する終了指示操作を電子機器1に対して行うと、電子機器1は、登録アプリケーションの実行を終了する。一方で、問い合わせ画面の表示中に、ユーザが、登録アプリケーションの実行の継続を指示する継続指示操作を電子機器1に対して行うと、電子機器1は、登録アプリケーションの実行を継続して、ステップs5を実行する。終了指示操作及び継続指示操作は、例えば表示面121に対する所定の操作である。終了指示操作及び継続指示操作の少なくとも一方は、操作ボタン143~145のいずれか一つに対する操作であってもよい。
 また抽出用言語が、それが読み上げられるときに形作られる口形パターンに少なくとも1種類の基本口形を含まないような言語である場合には、図17に示されるように、ステップs9の後、ステップs31が実行されてもよい。ステップs31では、制御部100は、6種類の基本口形画像において、抽出していない基本口形画像が存在するか否かを判定する。ステップs31において、6種類の基本口形画像のすべてが抽出されたと判定されると、図13のステップs11が実行され、以後電子機器1は同様に動作する。一方で、ステップs31において、6種類の基本口形画像において、抽出されていない基本口形画像が存在すると判定されると、ステップs5が再度実行されて、要求画面300が表示される。この要求画面300には、それが読み上げらえる際に形作られる口形パターンに、未だ抽出されてない基本口形画像が示す基本口形を含むような抽出用言語301が示される。つまり、それが読み上げらえる際に形作られる口形パターンに、未だ抽出されてない基本口形画像が示す基本口形を含むような言葉が、新しい抽出用言語301として採用される。
 例えば、抽出用言語として「こんにちはあかちゃん」という言葉が採用される場合を考える。「こんにちはあかちゃん」という言葉が読み上げられる際に形作られる口形パターンにはエ口形が含まれない。したがって、ステップs9では、エ口形画像が抽出されない。よって、その後のステップs31ではYESと判定されて、ステップs5が実行される。このステップs5で表示される要求画面300には、それが読み上げらえる際に形作られる口形パターンにエ口形を含むような抽出用言語301が示される。例えば、「げんきですか」という言葉があらたな抽出用言語301として要求画面300に示される。「げんきですか」という言葉が読み上げられる際に形作られる口形パターンにはエ口形が含まれる。
 また登録モードでは、抽出確認処理が行われなくてもよい。この場合には、ステップs9の実行後に、ステップs21,s22が実行される。
 また、記憶部103において、基本口形画像に対応付けられる識別情報は、ユーザの顔が写る顔画像であってもよい。この場合、例えば、ステップs1の後、ステップs2~s4が実行されずに、ステップs5が実行されて要求画面300が表示される。そして、要求画面300が表示されている際に実行される顔認識処理で抽出される顔画像が識別情報として使用される。よって、この場合には、ステップs21において、ユーザの顔が写る顔画像と、当該ユーザについて基本口形画像とが対応付けられて記憶部103に保存される。
 このように、識別情報として顔画像が採用される場合には、ユーザは、電子機器1の機械読唇機能を利用して電子機器1に対して入力を行う場合、電子機器1を操作して識別情報を入力する必要がなくなる。ユーザは、電子機器1に機械読唇処理を実行させる場合には、カメラに自分の顔が写るようにして電子機器1を使用する。電子機器1では、制御部100が、カメラで生成される撮影画像から、ユーザの顔が写る顔画像を識別情報として抽出する。そして、制御部100は、記憶部103内において、抽出した顔画像と一致する顔画像に対応付けられている基本口形画像を使用して機械読唇処理を実行する。
 また上記の例では、表示部120が、読み上げテンポをユーザに通知する通知部として機能しているが、スピーカ160も読み上げテンポをユーザに通知する通知部として機能してもよい。
 例えば、テンポ通知画面400が表示面121に表示されている場合に、スピーカ160は、テンポ通知画面400に含まれる抽出用言葉301を、テンポ通知画面400によって通知される読み上げテンポで音声として出力してもよい。つまり、電子機器1は、読み上げテンポで抽出用言葉301を声に出して読み上げてもよい。これにより、スピーカ160から、抽出用言葉301の読み上げ例を示す音声が出力される。
 例えば、上述の図9に示されるように、「ぎんがてつどうのよる」という抽出用言葉301の表示色が変化することによって読み上げテンポがユーザに通知される場合を考える。この場合には、スピーカ160は、読み上げ期間t1~t10において、それぞれ、「ぎ」という音声、「ん」という音声、「が」という音声、「て」という音声、「つ」という音声、「ど」という音声、「う」という音声、「の」という音声、「よ」という音声及び「る」という音声を出力する。これにより、ユーザと電子機器1がいっしょに抽出用言葉を読み上げることになる。なお、ユーザは実際に声を出して抽出用言葉を読み上げる必要はない。
 また、ユーザと電子機器1がいっしょに抽出用言葉を読み上げる場合に、スピーカ160は、読み上げ期間t1の直前に、読み上げ開始タイミングをユーザに通知してもよい。例えば、スピーカ160は、読み上げ期間t1の直前に、「せいの」という言葉を音声で出力することによって、読み上げ開始タイミングをユーザに通知してもよい。この場合、テンポ通知画面400において、抽出用言葉301の表示色が、読み上げテンポに応じて変化しなくてもよい。つまり、表示部120は、読み上げテンポを通知しなくてもよい。
 また表示部120は、読み上げ期間t1の直前に、読み上げ開始タイミングをユーザに通知するための画像を表示してよい。この場合、表示部120は、読み上げ開始タイミングをユーザに通知するための画像を、読み上げテンポに応じて変化させてもよい。例えば、表示部120は、読み上げ開始タイミングをユーザに通知するための画像として、「せいの」という言葉を表示してもよい。表示120は、「せいの」という言葉を表示するとき、例えば、読み上げテンポに応じて、「せいの」という言葉の表示色を変化させてもよい。例えば、表示部120は、読み上げテンポに応じて、「せ」と、「い」と、「の」を、この順で表示してもよい。
 また、スピーカ160が、読み上げ期間t1の直前に、読み上げ開始タイミングをユーザに通知するのに合わせて、表示部120は、読み上げ開始タイミングをユーザに通知するための画像を表示してもよい。
 また、電子機器1が抽出用言葉を声に出して読み上げた後に、それを聞いたユーザが、電子機器1の読み上げを真似するように、抽出用言葉を読み上げてもよい。図18は、この場合の電子機器1の動作の一例を示すフローチャートである。図18に示されるフローチャートは、上述の図6に示されるフローチャートにおいて、ステップs5,s6の替わりにステップs41~44が実行されるものである。
 図18に示されるように、ステップs4において識別情報が記憶部103に記憶されると、ステップs41において、表示部120が、これからユーザにしてもらうことを説明するための説明画面800を表示する。またステップs41において、制御部100はインカメラ180に撮影を開始させる。
 図19は説明画面800の一例を示す図である。説明画面800には、通知情報801と、上述のカメラ画像領域304と、抽出用言葉301とが含まれている。通知情報801は、電子機器1が抽出用言葉301を読み上げた後に、それと同じ言葉をユーザが読み上げることをユーザに通知する情報である。
 ステップs41において説明画面800が表示された後、ステップs42において、電子機器1は、抽出用言葉を声に出して読み上げる。つまり、スピーカ160が、上述のようにして、抽出用言葉を読み上げテンポで音声として出力する。このとき、上述のテンポ通知画面400と同様のテンポ通知画面450が表示面121に表示されてもよい。図20はテンポ通知画面450の一例を示す図である。テンポ通知画面450には、テンポ通知画面400と同様に、抽出用言葉301と、カメラ画像領域304と、情報402とが示されている。ただし、テンポ通知画面450には、リトライボタン403及びストップボタン404は示されない。テンポ通知画面450では、テンポ通知画面450と同様に、抽出用言葉301の表示色が、電子機器1が抽出用言葉301を読み上げるテンポに応じて変化する。なお、テンポ通知画面450において、抽出用言葉301の表示色は変化しなくてもよい。
 電子機器1の抽出用言葉の読み上げが終了すると、ステップs43において、表示部120は、ユーザに対して抽出用言葉の読み上げを要求するための要求画面900を表示する。図21は要求画面900の一例を示す図である。要求画面900には、例えば、通知情報901と、指示情報902と、スタートボタン903と、上述のカメラ画像領域304と、抽出用言葉301とが示されている。通知情報901は、次はユーザが抽出用言葉301を読み上げる番であることをユーザに通知する情報である。スタートボタン903は、ユーザが抽出用言葉301を読み上げるときに操作するソフトウェアボタンである。指示情報902は、ユーザに対して、抽出用言葉301を読み上げるときにスタートボタン305を操作することを指示する情報である。
 要求画面900が表示されている場合、ステップs44において、タッチパネル130が、スタートボタン903に対する所定の操作(例えばタップ操作)を検出すると、上述のステップs7が実行されて、テンポ通知画面400が表示される。このとき、テンポ通知画面400では、抽出用言葉301の表示色は変化しなくてもよい。ステップs7の後、電子機器1は同様に動作する。図13に示されるステップs17が実行されると、ステップs41が再度実行される。なお、図18に示されるフローチャートにおいて、テンポ通知画面400,450に含まれる抽出用言葉301の表示色が変化しない場合には、表示部120及びスピーカ160のうちのスピーカ160だけが、ユーザに読み上げテンポを通知する通知部として機能する。
 上記の例では、基本口形画像は機械読唇処理で使用されているが、基本口形画像の使い方はこれに限定されない。例えば、特許文献2に記載されているように、電子機器1は、基本口形画像を使用して発話映像を生成してもよい。この場合には、自然な口の動きを表す発話映像を生成することができる。よって、電子機器1の利便性が向上する。
 また上記の例では、日本語の基本口形が電子機器1に登録されているが、外国語の基本口形も同様にして電子機器1に登録することができる。
 また上記の例では、電子機器1は、スマートフォン等の携帯電話機であったが、他の種類の電子機器であってよい。電子機器1は、例えば、タブレット端末、パーソナルコンピュータ、ウェアラブル機器などであってよい。電子機器1として採用されるウェアラブル機器は、リストバンド型あるいは腕時計型などの腕に装着するタイプであってもよいし、ヘッドバンド型あるいはメガネ型などの頭に装着するタイプであってもよいし、服型などの体に装着するタイプであってもよい。また電子機器1は、乗り物(例えば、自動車、自転車、オートバイ、飛行機及び船など)に搭載される、ユーザが操作する操作機器であってもよい。操作機器は、例えば、ナビゲーション装置、及び乗り物の自動運転用の補助操作装置などを含む。
 以上のように、電子機器1は詳細に説明されたが、上記した説明は、全ての局面において例示であって、この開示がそれに限定されるものではない。また、上述した各種の例は、相互に矛盾しない限り組み合わせて適用可能である。そして、例示されていない無数の例が、この開示の範囲から外れることなく想定され得るものと解される。
 1 電子機器
 100 制御部
 103 記憶部
 120 表示部
 160 スピーカ
 180 第1カメラ
 190 第2カメラ

Claims (15)

  1.  第1の言葉を読み上げるテンポをユーザに通知する通知部と、
     前記第1の言葉を読み上げている前記ユーザの少なくとも口唇を撮影するカメラと、
     前記テンポに基づいて、前記カメラで生成される、前記ユーザの少なくとも口唇が写る第1撮影画像から、発話の基本口形を示す基本口形画像を抽出する処理部と
    を備える、電子機器。
  2.  請求項1に記載の電子機器であって、
     前記通知部は、表示部を含み、
     前記表示部は、前記テンポを通知する通知情報を表示する、電子機器。
  3.  請求項2に記載の電子機器であって、
     前記表示部は、前記通知情報として、前記テンポに応じて表示態様が先頭から変化するように前記第1の言葉を表示する、電子機器。
  4.  請求項3に記載の電子機器であって、
     前記カメラは、前記表示部が前記第1の言葉を表示しているときに前記第1の言葉を読み上げている前記ユーザの前記少なくとも口唇を撮影する、電子機器。
  5.  請求項1乃至請求項4のいずれか一つに記載の電子機器であって、
     前記通知部は、スピーカを含み、
     前記スピーカは、前記第1の言葉を前記テンポで音声として出力する、電子機器。
  6.  請求項5に記載の電子機器であって、
     前記カメラは、前記スピーカが前記第1の言葉を音声として出力しているときに前記第1の言葉を読み上げている前記ユーザの前記少なくとも口唇を撮影する、電子機器。
  7.  請求項1乃至請求項6のいずれか一つに記載の電子機器であって、
     記憶部をさらに備え、
     前記処理部は、前記ユーザを識別するための識別情報と、前記基本口形画像とを対応付けて前記記憶部に記憶する、電子機器。
  8.  請求項7に記載の電子機器であって、
     前記処理部は、前記カメラで生成される撮影画像から、前記ユーザの顔が写る顔画像を抽出し、抽出した当該顔画像を前記識別情報として前記基本口形画像に対応付けて前記記憶部に記憶する、電子機器。
  9.  請求項7及び請求項8のいずれか一つに記載の電子機器であって、
     前記記憶部は、複数のユーザをそれぞれ識別するための複数の識別情報を記憶し、
     前記記憶部は、前記複数の識別情報のそれぞれについて、当該識別情報と、当該識別情報に対応するユーザについての前記基本口形画像とを対応付けて記憶する、電子機器。
  10.  請求項9に記載の電子機器であって、
     前記処理部は、当該処理部に入力される前記識別情報と同じ前記識別情報に対応する前記基本口形画像を前記記憶部から読み出して所定の処理で使用する、電子機器。
  11.  請求項10に記載の電子機器であって、
     前記カメラは、第2の言葉を読み上げている前記ユーザの少なくとも口唇を撮影し、
     前記処理部は、当該処理部に入力される、前記第2の言葉を読み上げている前記ユーザの前記識別情報と同じ前記識別情報に対応する前記基本口形画像を前記記憶部から読み出し、読み出した前記基本口形画像と、前記カメラで生成される、前記第2の言葉を読み上げている前記ユーザの少なくとも口唇が写る第2撮影画像とに基づいて、前記ユーザが読み上げている言葉を推定する、電子機器。
  12.  請求項1乃至請求項10のいずれか一つに記載の電子機器であって、
     前記カメラは、第2の言葉を読み上げている前記ユーザの少なくとも口唇を撮影し、
     前記処理部は、前記カメラで生成される、前記第2の言葉を読み上げている前記ユーザの少なくとも口唇が写る第2撮影画像と、前記基本口形画像とに基づいて、前記ユーザが読み上げた言葉を推定し、
     前記通知部は、前記処理部が推定した前記言葉が、前記第2の言葉に一致するか否かの問い合わせを前記ユーザに通知し、
     前記処理部は、前記電子機器に入力される、前記問い合わせに対する前記ユーザの応答に基づいて、前記基本口形画像が適切であるか否かを判定する、電子機器。
  13.  通知部及びカメラを備える電子機器を制御するための、当該電子機器が備える制御装置であって、
     前記通知部に、言葉を読み上げるテンポをユーザに通知させ、
     前記カメラに、前記言葉を読み上げている前記ユーザの少なくとも口唇を撮影させ、
     前記テンポに基づいて、前記カメラで生成される、前記ユーザの少なくとも口唇が写る撮影画像から、発話の基本口形を示す基本口形画像を抽出する、制御装置。
  14.  電子機器を制御するための制御プログラムであって、
     前記電子機器に、
      言葉を読み上げるテンポをユーザに通知する第1処理と、
      前記言葉を読み上げている前記ユーザの少なくとも口唇を撮影する第2処理と、
      前記テンポに基づいて、前記第2処理で生成される、前記ユーザの少なくとも口唇が写る撮影画像から、発話の基本口形を示す基本口形画像を抽出する第3処理と
    を実行させるための制御プログラム。
  15.  電子機器の動作方法であって、
     言葉を読み上げるテンポをユーザに通知する第1処理と、
     前記言葉を読み上げている前記ユーザの少なくとも口唇を撮影する第2処理と、
     前記テンポに基づいて、前記第2処理で生成される、前記ユーザの少なくとも口唇が写る撮影画像から、発話の基本口形を示す基本口形画像を抽出する第3処理と
    を備える、電子機器の動作方法。
PCT/JP2018/037658 2017-10-27 2018-10-10 電子機器、制御装置、制御プログラム及び電子機器の動作方法 WO2019082648A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017207841A JP2019079449A (ja) 2017-10-27 2017-10-27 電子機器、制御装置、制御プログラム及び電子機器の動作方法
JP2017-207841 2017-10-27

Publications (1)

Publication Number Publication Date
WO2019082648A1 true WO2019082648A1 (ja) 2019-05-02

Family

ID=66247792

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/037658 WO2019082648A1 (ja) 2017-10-27 2018-10-10 電子機器、制御装置、制御プログラム及び電子機器の動作方法

Country Status (2)

Country Link
JP (1) JP2019079449A (ja)
WO (1) WO2019082648A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06295192A (ja) * 1993-04-09 1994-10-21 Matsushita Electric Ind Co Ltd 比較装置
JP2005242230A (ja) * 2004-02-27 2005-09-08 Yamaha Corp カラオケ装置
JP2008310382A (ja) * 2007-06-12 2008-12-25 Omron Corp 読唇装置および方法、情報処理装置および方法、検出装置および方法、プログラム、データ構造、並びに、記録媒体
JP2010026731A (ja) * 2008-07-17 2010-02-04 Nec Saitama Ltd 文字入力装置、文字入力方法、文字入力システム、文字入力サーバー及び端末
JP2014229272A (ja) * 2013-05-27 2014-12-08 株式会社東芝 電子機器

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06295192A (ja) * 1993-04-09 1994-10-21 Matsushita Electric Ind Co Ltd 比較装置
JP2005242230A (ja) * 2004-02-27 2005-09-08 Yamaha Corp カラオケ装置
JP2008310382A (ja) * 2007-06-12 2008-12-25 Omron Corp 読唇装置および方法、情報処理装置および方法、検出装置および方法、プログラム、データ構造、並びに、記録媒体
JP2010026731A (ja) * 2008-07-17 2010-02-04 Nec Saitama Ltd 文字入力装置、文字入力方法、文字入力システム、文字入力サーバー及び端末
JP2014229272A (ja) * 2013-05-27 2014-12-08 株式会社東芝 電子機器

Also Published As

Publication number Publication date
JP2019079449A (ja) 2019-05-23

Similar Documents

Publication Publication Date Title
JP5331936B2 (ja) 音声制御画像編集
WO2019206186A1 (zh) 唇语识别方法及其装置、增强现实设备以及存储介质
WO2017130486A1 (ja) 情報処理装置、情報処理方法およびプログラム
JP6594646B2 (ja) ロボット及びロボット制御方法並びにロボットシステム
JP6551507B2 (ja) ロボット制御装置、ロボット、ロボット制御方法およびプログラム
CN110322760B (zh) 语音数据生成方法、装置、终端及存储介质
KR20150112337A (ko) 디스플레이 장치 및 그 사용자 인터랙션 방법
KR101835235B1 (ko) 시각 장애인 보조장치 및 그 제어방법
JP2019208138A (ja) 発話認識装置、及びコンピュータプログラム
KR20200044947A (ko) 표시 제어 장치, 통신 장치, 표시 제어 방법 및 컴퓨터 프로그램
US10845921B2 (en) Methods and systems for augmenting images in an electronic device
JP2016181018A (ja) 情報処理システムおよび情報処理方法
US20170322621A1 (en) Mobile phone, method for operating mobile phone, and recording medium
JP6587918B2 (ja) 電子機器、電子機器の制御方法、電子機器の制御装置、制御プログラム及び電子機器システム
JP6798258B2 (ja) 生成プログラム、生成装置、制御プログラム、制御方法、ロボット装置及び通話システム
WO2016157993A1 (ja) 情報処理装置、情報処理方法およびプログラム
JP6874437B2 (ja) コミュニケーションロボット、プログラム及びシステム
US10643636B2 (en) Information processing apparatus, information processing method, and program
US20180124309A1 (en) Wearable computing device for detecting photography
KR20200056754A (ko) 개인화 립 리딩 모델 생성 방법 및 장치
CN110291768B (zh) 信息处理装置、信息处理方法和信息处理系统
WO2019082648A1 (ja) 電子機器、制御装置、制御プログラム及び電子機器の動作方法
JP2017211430A (ja) 情報処理装置および情報処理方法
JP2016156877A (ja) 情報処理装置、情報処理方法およびプログラム
JP2017146402A (ja) 学習支援装置及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18871094

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18871094

Country of ref document: EP

Kind code of ref document: A1