WO2018033979A1 - 語学学習システム及び語学学習プログラム - Google Patents

語学学習システム及び語学学習プログラム Download PDF

Info

Publication number
WO2018033979A1
WO2018033979A1 PCT/JP2016/074052 JP2016074052W WO2018033979A1 WO 2018033979 A1 WO2018033979 A1 WO 2018033979A1 JP 2016074052 W JP2016074052 W JP 2016074052W WO 2018033979 A1 WO2018033979 A1 WO 2018033979A1
Authority
WO
WIPO (PCT)
Prior art keywords
learner
voice
learning
language
evaluation
Prior art date
Application number
PCT/JP2016/074052
Other languages
English (en)
French (fr)
Inventor
健一 海沼
市橋 敬男
Original Assignee
健一 海沼
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 健一 海沼 filed Critical 健一 海沼
Priority to CN201680074434.3A priority Critical patent/CN108431883B/zh
Priority to EP16913507.6A priority patent/EP3503074A4/en
Priority to PCT/JP2016/074052 priority patent/WO2018033979A1/ja
Priority to JP2017510606A priority patent/JP6172417B1/ja
Priority to US15/872,358 priority patent/US11145222B2/en
Publication of WO2018033979A1 publication Critical patent/WO2018033979A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/04Speaking
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/06Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/08Electrically-operated educational appliances providing for individual presentation of information to a plurality of student stations
    • G09B5/12Electrically-operated educational appliances providing for individual presentation of information to a plurality of student stations different stations being capable of presenting different information simultaneously
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B7/00Electrically-operated teaching apparatus or devices working with questions and answers
    • G09B7/02Electrically-operated teaching apparatus or devices working with questions and answers of the type wherein the student is expected to construct an answer to the question which is presented or wherein the machine gives an answer to the question presented by a student
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B7/00Electrically-operated teaching apparatus or devices working with questions and answers
    • G09B7/02Electrically-operated teaching apparatus or devices working with questions and answers of the type wherein the student is expected to construct an answer to the question which is presented or wherein the machine gives an answer to the question presented by a student
    • G09B7/04Electrically-operated teaching apparatus or devices working with questions and answers of the type wherein the student is expected to construct an answer to the question which is presented or wherein the machine gives an answer to the question presented by a student characterised by modifying the teaching programme in response to a wrong answer, e.g. repeating the question, supplying a further explanation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Definitions

  • the present invention relates to a language learning system and a language learning program that support a learner's language learning, and more particularly, to a language learning system and a language learning program based on results-reflecting sound and video suitable for learning pronunciation of a foreign language.
  • Patent Document 1 provides an example of adding a syllable mark indicating a range for each syllable to display information such as word spelling and pronunciation symbols. Synchronize with the syllable transition of the pronunciation voice output, highlight the syllable mark part of the current syllable, and easily acquire the correct syllable break and syllable time signature.
  • An enabled pronunciation learning device is disclosed. This pronunciation learning device outputs a native pronunciation sound as a model, and then highlights accents and syllables during the learner's pronunciation period to induce correct pronunciation of the learner.
  • a computer outputs a foreign language voice corresponding to the display of an object, and a learner who has heard the voice selects an action of the object corresponding to the voice, and whether or not the action selected by the learner is appropriate.
  • a learning system that judges and outputs an evaluation result or outputs it by voice so that a foreign language can be acquired without using characters.
  • the present invention provides a language learning system and a language learning program that can be adapted to a plurality of language learnings with less burden and cost in a language learning system suitable for learning pronunciation of a foreign language.
  • the present invention is connected to a learner terminal including a display unit that displays an image and a sound input / output unit that inputs and outputs audio via a network, and learners' language learning
  • a language learning system including a learning support server for supporting learning, wherein the learning support server stores a word or / and a sentence example voice as examples of pronunciation for one or more languages to be learned Voice storing means, voice transmitting means for transmitting the model voice and an image corresponding to the model voice to the learner terminal, allowing the learner to perceive the model voice and the image in association with each other, and the learner Transmitting the image to the terminal, requesting the learner to speak a word or sentence corresponding to the image, and acquiring a learner voice uttered by the learner; and analyzing the acquired learner voice Specialized for learners And voice analysis means for evaluating the accuracy of pronunciation, and evaluation transmission means for sending an image representing the evaluation of the accuracy of pronunciation evaluated by the voice analysis means to the learner terminal.
  • the evaluation transmission unit when the evaluation of the accuracy of pronunciation satisfies a predetermined reference value, transmits an image representing the evaluation to the learner terminal.
  • the voice transmission means When the accuracy evaluation of the pronunciation does not satisfy a predetermined reference value, the voice transmission means repeatedly transmits the sample voice to the learner terminal.
  • the voice transmission unit may output the image corresponding to the model voice after outputting the model voice from the sound input / output unit of the learner terminal.
  • Means for changing the image and displaying it on the display unit of the learner terminal is provided.
  • the voice storage unit includes a unit that stores a plurality of speaker's model voices in association with each word or / and sentence
  • the voice transmission unit includes: When the example voice is repeatedly transmitted to the learner terminal, there is provided means for transmitting the model voice of different speakers.
  • the learning support server stores learning status storage means for storing an evaluation of the accuracy of pronunciation of words or / and sentences learned for each learner, and the learning status storage
  • a grade creation means for creating a grade including a learning progress for each learner and good or bad sound based on an evaluation of the accuracy of pronunciation stored in the means, and a learning curriculum for each learner based on the grade
  • a curriculum creation means for creating
  • the learning support server stratifies each learner into a plurality of learning levels based on the results for each learner, and the learning level is the same layer or the learning
  • An image for providing a virtual reality environment to a plurality of learners in a layer including the same level layer and the preceding and following layers is transmitted to the learner terminal, and the plurality of learners have a voice conversation. It is equipped with learner interaction means.
  • the present invention also provides a language learning program for causing a computer to function as the language learning system according to any one of the above.
  • the language learning system of the present invention is connected to a learner terminal having a display unit for displaying an image and a sound input / output unit for inputting / outputting sound via a network, and supports learning of a learner's language
  • a language learning system including a support server, wherein the learning support server includes a voice storage unit that stores a word that serves as an example of pronunciation and / or an example voice of a sentence for one or more languages to be learned
  • Voice transmitting means for transmitting the model voice and the image corresponding to the model voice to the learner terminal, causing the learner to perceive the model voice and the image in association with each other, and the image to the learner terminal
  • a voice acquisition means for requesting the learner to utter a word or sentence corresponding to the image and acquiring a learner voice uttered by the learner, and identifying the learner by analyzing the acquired learner voice
  • Voice analysis means for evaluating the accuracy of pronunciation
  • evaluation transmission means for transmitting an image representing an evaluation of the accuracy of pronunciation
  • the language learning system of the present invention does not include character information related to the language to be learned, so that the learner learns the language with images and model sounds, so that the correct pronunciation can be acquired. Further, since the language learning system of the present invention does not include character information related to the language to be learned in the image transmitted to the learner terminal, localization for displaying characters corresponding to each language is not required, and multiple languages can be displayed. There is an effect that it is possible to cope with different learning languages only by changing the language of the model voice by storing the model voice in the voice storage means.
  • the evaluation transmission unit transmits an image representing the evaluation to the learner terminal.
  • the voice transmitting means repeatedly transmits the model voice to the learner terminal, so that the learner makes a correct pronunciation. Can display an image representing the evaluation on the display unit of the learner terminal and inform the learner of the evaluation.
  • the sound input / output unit of the learner terminal again There is an effect that an accurate pronunciation can be acquired by outputting a model voice and allowing a learner to repeatedly learn.
  • the voice transmission unit may output the image corresponding to the model voice after outputting the model voice from the sound input / output unit of the learner terminal.
  • the voice storage unit includes a unit that stores a plurality of speaker's model voices in association with each word or / and sentence
  • the voice transmission unit includes: When the sample voice is repeatedly transmitted to the learner terminal, a means for transmitting the sample voice of a different speaker is provided, so that the model voice of a different speaker can be transmitted to the learner in the same word or sentence. Since the correct pronunciation can be acquired without getting tired of the learner, the learning efficiency can be improved.
  • the learning support server stores learning status storage means for storing an evaluation of the accuracy of pronunciation of words or / and sentences learned for each learner, and the learning status storage
  • a grade creation means for creating a grade including a learning progress for each learner and good or bad sound based on an evaluation of the accuracy of pronunciation stored in the means, and a learning curriculum for each learner based on the grade
  • a curriculum creation means for creating a learning curriculum in addition to being able to present the results to the learner or its guardian, can also create a learning curriculum in real time, based on the curriculum for each learner
  • the learning support server stratifies each learner into a plurality of learning levels based on the results for each learner, and the learning level is the same layer or the learning
  • An image for providing a virtual reality environment to a plurality of learners in a layer including the same level layer and the preceding and following layers is transmitted to the learner terminal, and the plurality of learners have a voice conversation.
  • the language learning program of the present invention does not include character information related to the language to be learned in the image transmitted to the learner terminal by causing the computer to function as the language learning system according to any one of the above. , Localization for displaying characters corresponding to each language is no longer necessary, and sample speech of multiple languages is stored in the speech storage means, and it is possible to support different learning languages simply by changing the language of the sample speech There is an effect that can.
  • the lineblock diagram showing one example of the language study system concerning the present invention The block diagram which shows one Example of the audio
  • the flowchart which shows an example of the personal authentication of the language learning system which concerns on this invention.
  • the flowchart which shows an example of the learning assistance of the language learning system which concerns on this invention.
  • the flowchart which shows an example of the audio
  • FIG. 1 is a block diagram showing an embodiment of a language learning system according to the present invention.
  • FIG. 2 is a block diagram showing an embodiment of speech analysis means of the language learning system according to the present invention.
  • the language learning system of the present invention is connected to a learner terminal 3 having a display unit 31 for displaying an image and a sound input / output unit 32 for inputting / outputting sound via a network 4, so that the learner's language learning is performed.
  • a system including a learning support server 1 that supports a word, and the learning support server 1 stores a voice as a model of pronunciation and / or a model voice of a sentence for one or more languages to be learned A storage means 21; a voice transmission means 11 for transmitting a model voice and an image corresponding to the model voice to the learner terminal 3; causing the learner to perceive the model voice and the image in association with each other; and a learner terminal 3 to transmit the image, request the learner to utter a word or sentence corresponding to the image, and acquire a learner voice uttered by the learner, and analyze the acquired learner voice.
  • Identify learners A voice analysis unit 13 for evaluating the accuracy of pronunciation; and an evaluation transmission unit 14 for transmitting an image representing
  • the image transmitted to the learner terminal 3 includes a moving image in addition to a still image.
  • the image is an animation including a moving teacher object and does not include character information related to the language to be learned.
  • the language learning system of the present invention does not require animation localization, and stores voices of plural languages in the voice storage means, and supports different learning languages only by changing the language of the voice to be combined with animation. be able to.
  • the language learning system of the present invention can also make the learner learn the body language without human intervention by causing the teacher object to perform gestures and gestures corresponding to the model voice in the animation.
  • the learning support server 1 is a computer connected to the network 4, and includes a processing unit 10 that supports the learner's language learning in response to a request from the learner terminal 3, a program for causing the processing unit 10 to function, Storage means 20 for storing data such as voice.
  • the processing means 10 functions by a central processing unit (CPU) provided in the learning support server 1 and one or more programs that define the operation procedure of the CPU.
  • the storage unit 20 includes a memory such as a ROM and a RAM and a hard disk, for example.
  • the storage means 20 has a program area 20a for storing programs for executing various processes of the processing means 10, and a data area 20b for storing data such as audio data.
  • the storage means 20 includes a speech storage means 21 that stores a word as a model of pronunciation and a model voice of a sentence for two or more languages to be learned, and a word and sentence learned for each learner.
  • Learning state storage means 22 for storing an evaluation of the accuracy of pronunciation of
  • the storage unit 20 includes, as information for evaluating the accuracy of pronunciation, an acoustic model storage unit 23 that represents the frequency characteristics of the phonemes in the learning language, and a dictionary that links the words in the learning language and the acoustic models.
  • the model storage unit 24 and the language model storage unit 25 that expresses restrictions on how to arrange phonemes in the learning language are included.
  • the learner terminal 3 is a terminal such as a personal computer, a tablet terminal, or a smartphone that can be connected to the network 4.
  • the learner terminal 3 includes a display unit 31 that displays an image such as an animation, and a sound input / output unit 32 including a combination of a microphone and a speaker, for example, and is a terminal that can access the learning support server 1 via the network 4 If it is.
  • the processing means 10 includes a voice transmission means 11, a voice acquisition means 12, a voice analysis means 13, an evaluation transmission means 14, a grade creation means 15, a curriculum creation means 16, have.
  • the voice transmission unit 11 transmits the model voice stored in the voice storage unit 21 to the learner terminal 3 via the network 4 and outputs it from the sound input / output unit 32, and an animation corresponding to the model voice. Is transmitted and displayed on the display unit 31 to allow the learner to perceive the model voice and the animation in association with each other. This animation does not include character information related to the language to be learned.
  • the voice transmission unit 11 displays an animation including an image corresponding to the model voice (for example, an image of “apple”) on the display unit 31 of the learner terminal 3 together with the teacher object.
  • the voice transmission unit 11 outputs a model voice (here, “apple” voice) from the sound input / output unit 32 while the teacher object points to an image corresponding to the model voice, and causes the learner to play the model voice and animation.
  • a model voice here, “apple” voice
  • an image included in the animation here, an “apple” image
  • the display unit 31 does not display characters related to the language to be learned (here, “apple” characters).
  • the voice acquisition unit 12 transmits an animation corresponding to the above-described example voice to the learner terminal 3 via the network 4 and causes the display unit 31 to display the animation, and the learner corresponds to the animation or an image included in the animation.
  • Request the utterance of a word or sentence here "apple”
  • the voice acquisition unit 12 acquires a learner's voice uttered by the learner from the sound input / output unit 32 via the network 4.
  • the voice acquisition unit 12 preferably requests the utterance while the teacher object points to the “apple” image corresponding to the model voice, for example. Also at this time, the characters “apple” relating to the language to be learned are not displayed on the display unit 31.
  • the voice analysis means 13 analyzes the learner voice acquired from the learner terminal 3 via the network 4 to identify the learner and evaluate the accuracy of pronunciation.
  • the voice analysis unit 13 specifies a learner from the learner voice by voice authentication.
  • Each learner's voiceprint is stored in the learning status storage means 22 of the storage means 20 together with information such as the name of the learner.
  • the voice analysis means 13 is a voice signal generation means 131 for generating a voice signal by A / D converting the voice, a preprocessing means 132 for dividing the generated voice signal, and a frequency characteristic of the voice.
  • a voice feature extraction unit 133 for extracting, a voice recognition unit 134 for specifying a word or a speaker from the voice, and a pronunciation evaluation unit 135 for evaluating the accuracy of pronunciation are included.
  • the audio signal generation means 131 samples and quantizes a necessary portion from the audio data that is A / D converted by the learner terminal 3 and acquired by the learning support server 1.
  • the pre-processing means 132 amplifies the audio signal, divides the frame, and performs windowing processing.
  • the voice feature extraction unit 133 calculates a logarithmic value by performing a fast Fourier transform (FFT process) on the voice signal, applying a mel filter bank, and performing a discrete cosine transform (DCT transform) and a first-order difference transform to perform frequency characteristics of the voice. To extract.
  • FFT process fast Fourier transform
  • DCT transform discrete cosine transform
  • the speech recognition means 134 includes a learner specifying means for specifying the learner by comparing the frequency characteristics of the speech with each learner's voice print stored in the storage means 20, and a decoding means for decoding the speech frequency characteristics into words.
  • the pronunciation evaluation unit 135 calculates an acoustic score for evaluating sound accuracy and a language score for evaluating language accuracy based on the acoustic model, dictionary model, and language model stored in the storage unit 20. Then, the learner's pronunciation accuracy is evaluated, and this evaluation is stored in the learning status storage means 22.
  • the evaluation transmission unit 14 transmits an image representing the evaluation of the accuracy of pronunciation evaluated by the voice analysis unit 13 to the learner terminal 3.
  • the image representing this evaluation preferably does not include characters, and for example, the evaluation content may be represented by a graph or a mark.
  • the image representing this evaluation may be displayed in an animation, and it is most preferable that the teacher object represents the evaluation with a gesture for the learner's utterance.
  • the evaluation transmission unit 14 transmits an image representing the evaluation to the learner terminal 3 only when the evaluation of the accuracy of pronunciation satisfies a predetermined reference value.
  • the voice transmitting unit 11 repeatedly transmits a model voice and an animation corresponding to the model voice to the learner terminal 3 to the learner.
  • a model voice and the animation or an image included in the animation are related and perceived.
  • the voice storage means 21 is provided with means for associating and storing model voices of a plurality of speakers in each word and sentence.
  • the voice transmitting means 11 includes means for transmitting a model voice of a speaker different from the speaker of the model voice transmitted before when the model voice is repeatedly transmitted to the learner terminal 3.
  • the voice transmitting means 11 may change the speaker each time it is transmitted, or may change the speaker once every two to three times.
  • the grade creation means 15 creates a grade including learning progress and good or bad sound for each learner based on the evaluation of the accuracy of pronunciation stored in the learning status storage means 22, and this grade is used as the learning status. Store in the storage means 22. In addition, the grade creation means 15 transmits the grade created to the learner terminal 3. The grade creation means 15 may transmit the grade to a guardian's terminal instead of the learner terminal 3 or in addition to the learner terminal 3.
  • the curriculum creation means 16 creates a learning curriculum for each learner based on the results stored in the learning status storage means 22 and stores this learning curriculum in the learning status storage means 22.
  • the curriculum creation means 16 may correct the learning curriculum based on the accuracy of pronunciation during language learning.
  • the processing means 10 stratifies each learner into a plurality of learning levels based on the results of each learner, and includes the same learning level or the same learning level and the previous and subsequent layers. It is preferable to include learner exchange means 17 that transmits an animation for providing a virtual reality environment to a plurality of learners to the learner terminal 3 and allows the plurality of learners to have a voice conversation. Even in this case, the voice analysis means 13 is configured to analyze the learner's voice to identify the learner, evaluate the accuracy of pronunciation, and point out the wrong pronunciation.
  • FIG. 3 is a flowchart showing an example of personal authentication of the language learning system according to the present invention.
  • FIG. 4 is a flowchart showing an example of learning support of the language learning system according to the present invention.
  • FIG. 5 is a flowchart showing an example of speech analysis of the language learning system according to the present invention.
  • a learner learns English pronunciation will be described, but the same applies to other languages.
  • the learner selects, for example, an icon displayed on the display unit 31 of the learner terminal 3 and starts an application program for accessing the learning support server 1 (step S1).
  • the learner terminal 3 accesses a function that supports English pronunciation learning in the learning support server 1.
  • the processing means 10 supports English pronunciation learning in response to a request from the learner terminal 3.
  • the processing means 10 displays a sample voice of the first greeting such as “Hello!” On the learner terminal 3 while displaying an animation including a teacher object on the display unit 31 of the learner terminal 3 as an initial animation.
  • Output from the sound input / output unit 32 (step S2).
  • the teacher object make a gesture for prompting the learner to speak.
  • the processing means 10 acquires the learner voice input from the sound input / output unit 32 of the learner terminal 3 (step S3). Is analyzed to perform voiceprint authentication (step S4). The learner speech analysis procedure will be described later.
  • the processing means 10 collates the voiceprint obtained by analyzing the learner's voice with the registrant's voiceprint stored in the storage means 20 in advance, and identifies the learner (step S5).
  • the processing means 10 acquires registration information of a voice print that matches the voice print of the acquired learner voice.
  • the processing means 10 may authenticate the learner by causing the teacher object to speak the name of the learner or displaying an authentication image registered in advance by the learner on the display unit 31.
  • the processing unit 10 When the processing unit 10 authenticates the learner, the processing unit 10 executes the learning curriculum of the learner created based on the evaluation of the accuracy of pronunciation of words and sentences learned by the learner stored in the learning state storage unit 22. To do. On the other hand, when there is no voiceprint that matches the voiceprint of the acquired learner voice, the processing means 10 transmits error information to the learner terminal 3 and ends the authentication process.
  • the processing means 10 transmits, by the voice transmission means 11, an English model voice that is a learning language and an animation corresponding to the model voice to the learner terminal 3, and is included in the model voice and animation or animation to the learner.
  • Perceived images are associated with each other (step S11).
  • the voice transmission unit 11 displays an animation including an image corresponding to the model voice (for example, an image of “apple”) on the display unit 31 of the learner terminal 3 together with the teacher object.
  • the sound input / output unit 32 outputs a model sound (here, “apple” sound), and causes the learner to perceive the model sound and the image included in the animation in association with each other.
  • the processing means 10 does not send a model voice to the learner terminal 3 but sends only the animation by the voice obtaining means 12 to display an animation including an image of “apple” on the display unit 31.
  • the learner is requested to utter the English word “apple” corresponding to the “apple” image (step S12).
  • the processing means 10 transmits an animation requesting the utterance to the learner terminal 3 while pointing to the image of the teacher object “apple”.
  • the processing means 10 acquires the learner voice input from the sound input / output unit 32 of the learner terminal 3 (step S13).
  • the learner voice input from the sound input / output unit 32 is A / D converted by the processing unit of the learner terminal 3 and transmitted to the learning support server 1 via the network 4.
  • the processing unit 10 temporarily stores the acquired learner voice in the storage unit 20.
  • the processing means 10 analyzes the acquired learner voice by the voice analysis means 13 and evaluates the accuracy of pronunciation (step S14).
  • the voice analysis means 13 identifies the learner's voice authenticated in step S4 from the acquired voice, and evaluates the accuracy of pronunciation of the learner's voice.
  • the learner voice evaluation procedure will be described later.
  • the processing means 10 compares the evaluation of the accuracy of the pronunciation evaluated by the voice analysis means 13 with a predetermined reference value set in advance (step S15). If the evaluation of the accuracy of pronunciation satisfies a predetermined reference value, the processing means 10 includes an image representing the evaluation of the accuracy of pronunciation evaluated by the speech analysis means 13 by the evaluation transmission means 14 or the image.
  • the animation is transmitted to the learner terminal 3 and displayed on the display unit 31 (step S16).
  • the evaluation transmission unit 14 represents the evaluation by the gesture of the teacher object in response to the utterance of the learner.
  • the difference in evaluation can be represented by the size of the gesture of the teacher object. The larger the gesture, the higher the evaluation.
  • the processing means 10 returns to step S11, and the voice transmitting means 11 causes the learner terminal 3 to use the English model voice as the learning language. Then, the animation corresponding to the model voice is retransmitted, and the learner associates the model voice with the animation or the image included in the animation and perceives it. At this time, the voice transmitting unit 11 may transmit a model voice of a speaker different from the model voice speaker transmitted immediately before.
  • step S11 to step S16 When the evaluation of the accuracy of pronunciation satisfies a predetermined reference value, the processing means 10 transmits a sample voice of the next word or sentence to the learner terminal 3 based on the learner's learning curriculum, The processing from step S11 to step S16 is repeatedly executed until the language learning is finished (step S17).
  • the processing means 10 pronunciations the words and sentences learned in the learning status storage means 22. Is stored (step S18).
  • the processing means 10 creates a grade including the learner's learning progress and good or bad sound based on the evaluation of the accuracy of pronunciation stored in the learning status storage means 22 by the grade creation means 15. And the result is transmitted to the learner terminal 3 (step S19). Further, the processing means 10 may transmit the result to the guardian terminal instead of the learner terminal 3 or in addition to the learner terminal 3. At this time, the processing means 10 may periodically transmit the results to the guardian terminal, such as once a month.
  • processing means 10 creates a learning curriculum for each learner based on the grade created by the grade creation means 15 and stores it in the storage means 20.
  • the processing means 10 may correct the learning curriculum based on the accuracy of pronunciation during language learning.
  • the processing means 10 acquires the sound data input and A / D-converted by the sound input / output unit 32 of the learner terminal 3, samples the sound part from the sound data, quantizes the sound data, and learners' sound signal Is generated (step S21).
  • the processing means 10 amplifies the audio signal by the preprocessing means, divides the frame, and performs windowing processing (step S22). Further, the processing means 10 performs fast Fourier transform (FFT processing) on the speech signal by the speech feature extraction means, calculates a logarithmic value by applying a mel filter bank, and performs discrete cosine transform (DCT transform) and first-order difference transform. Then, the frequency characteristic of the voice is extracted (step S23).
  • FFT processing fast Fourier transform
  • DCT transform discrete cosine transform
  • the processing means 10 specifies the learner by comparing the frequency characteristic of the voice with the voiceprint of each learner stored in the storage means 20 by the voice recognition means (step S24). In the personal authentication described above, the processing means 10 performs an additional authentication procedure for the identified learner, if necessary, and ends the personal authentication process. Further, in the learning curriculum, the processing means 10 determines whether or not the frequency characteristics of the voice match the authenticated learner's voiceprint (step S25). If they do not match, the processing from step S21 to step S25 is performed. Run repeatedly.
  • the processing means 10 decodes the corresponding phoneme from the frequency characteristics of the voice by the voice recognition means (step S24). When the frequency characteristic of the voice matches with the authenticated learner's voiceprint in step S25, the processing means 10 continues from step S23 to step S24 until the decoding from the frequency characteristic of the voice of all frames to the corresponding phoneme is completed. This process is repeatedly executed (step S26).
  • the processing means 10 When the decoding from the frequency characteristics of the speech of all the frames to the corresponding phonemes is completed, the processing means 10 performs accurate sound analysis based on the acoustic model, dictionary model, and language model stored in the storage means 20 by the pronunciation evaluation means. An acoustic score for evaluating the sex and a language score for evaluating the accuracy of the language are calculated, and the accuracy of the pronunciation of the learner is evaluated (step S27).
  • the voice transmitting means 11 outputs a model voice from the sound input / output unit 32 of the learner terminal 3
  • learning is performed by changing an image corresponding to the model voice.
  • Means for displaying on the display unit 31 of the person terminal 3 is provided.
  • the evaluation transmission means 14 changes the image corresponding to the model voice and displays it on the display unit 31 of the learner terminal 3 when the evaluation of pronunciation accuracy satisfies a predetermined reference value. It has.
  • This image includes a moving image in addition to a still image, and the changed image is preferably an animation corresponding to a model voice.
  • the voice transmission unit 11 displays an animation including a teacher object on the display unit 31 of the learner terminal 3, and sends voices in languages such as instructions and emotional expressions issued by the teacher object from the sound input / output unit 32. Output. Then, the voice transmission means 11 displays an animation in which the image changes in accordance with a language such as a command or emotion expression, and causes the learner to change the model voice and the image (action or emotion expression corresponding to the command). To perceive.
  • the voice transmission unit 11 displays an animation including a student object in addition to the teacher object on the display unit 31 of the learner terminal 3.
  • the voice transmission means 11 displays an animation in which the student object hits both hands in response to the model voice, and instructs the learner to learn language.
  • the sentence “Clap your hands.” And the action “tapping both hands” corresponding to this command are related and perceived.
  • the voice acquisition means 12 does not send a model voice to the learner terminal 3 but sends only the animation including the teacher object and the student object, and requests the learner to utter “Clap your hands.”. At this time, the voice acquisition unit 12 may cause the teacher object to make a gesture requesting utterance.
  • the evaluation transmission unit 14 changes the image corresponding to the model voice and displays it on the display unit 31 of the learner terminal 3.
  • the evaluation transmission unit 14 causes the display unit 31 to display an animation (student object claps both hands) corresponding to the model voice “Clap your hands.”.
  • the difference in evaluation may be expressed by the size of the gesture of the teacher object.
  • Other configurations are the same as those of the first embodiment.
  • the present invention is useful as a language learning system suitable for learning pronunciation of a foreign language, and as a language learning system based on results-reflecting sound and video that can correspond to a plurality of language learnings with less burden and cost. is there.

Abstract

少ない負担とコストで複数の言語学習に対応させることが可能で、外国語の発音習得に適した成績反映型音と映像による語学学習システム及び語学学習プログラムを提供する。 学習者端末3にネットワーク4を介して接続された学習支援サーバ1は、学習対象言語について発音の手本となる単語やセンテンスの手本音声を記憶した音声記憶手段21と、学習者端末3に手本音声及び画像を送信し、学習者に該手本音声と該画像を関連付けて知覚させる音声送信手段11と、学習者端末3に前記画像を送信し、学習者に該画像に対応する単語やセンテンスの発話を要求する音声取得手段12と、取得した学習者音声を解析して学習者を特定すると共に、発音の正確性を評価する音声解析手段13と、発音の正確性の評価を表す画像を学習者端末3に送信する評価送信手段14と、を有し、前記画像には学習対象の言語に関する文字情報を含まないことを特徴とする。

Description

語学学習システム及び語学学習プログラム
 本発明は、学習者の語学学習を支援する語学学習システム及び語学学習プログラムに関し、特に、外国語の発音の学習に適した成績反映型音と映像による語学学習システム及び語学学習プログラムに関する。
 従来、学習者が一人で外国語を効率よく学習することができるように語学学習を支援する語学学習支援装置としては、コンピュータなどの電子機器に外国語の文字を表示させたり、音声を出力させたりして学習を支援するものが種々知られている。
 外国語の正確な発音の学習を支援する語学学習支援装置としては、特許文献1に、単語の綴りや発音記号などの表示情報に音節毎の範囲を示す音節マークを付すと共に、手本となる発音音声出力の音節の遷移に同期して、音節マークを付した表示情報について、現在の音節の音節マークの部分を強調表示し、正しい音節の区切りと音節の拍子を容易に身に付けることを可能にした発音学習装置が開示されている。この発音学習装置は、手本となるネイティブの発音音声を出力した後、学習者の発音期間において、アクセントと音節を強調表示して学習者の正しい発音を誘導するようになっている。
 特許文献2には、コンピュータがオブジェクトの表示と対応させて外国語の音声を出力し、音声を聞いた学習者に音声に対応するオブジェクトの動作を選択させ、学習者が選択した動作の適否を判断して評価結果を表示又は音声で出力し、文字を介することなく外国語の習得を可能にした学習システムが開示されている。
特開2015-36788公報 特開2002-268537公報
 しかし、特許文献1に記載の発音学習装置では、複数の学習言語に対応させるために、それぞれの学習言語について、単語の綴りや発音記号などの表示情報を表示させるためのプログラミング作業が必要となり、対応言語数に比例して工数が増大することから、複数の学習言語に対応させる際に大きな負担となる課題があった。
 引用文献2に記載の学習システムでは、文字を介することなく外国語の習得を可能にしていることから、上記課題は生じないものの、学習者の理解度を選択したオブジェクトの動作のみで判断しているために、学習者が外国語の正確な発音を身に付けているかを確認することができないという問題が残っていた。
 そこで、本発明は、外国語の発音習得に適した語学学習システムにおいて、少ない負担とコストで複数の言語学習に対応させることが可能な語学学習システム及び語学学習プログラムを提供するものである。
 本発明は、上記課題を解決するために、画像を表示する表示部と、音声を入出力する音入出力部と、を備えた学習者端末にネットワークを介して接続され、学習者の語学学習を支援する学習支援サーバを含む語学学習システムであって、前記学習支援サーバは、学習対象である一又は二以上の言語について発音の手本となる単語又は/及びセンテンスの手本音声を記憶した音声記憶手段と、前記学習者端末に前記手本音声及び該手本音声に対応する画像を送信し、学習者に該手本音声と該画像を関連付けて知覚させる音声送信手段と、前記学習者端末に前記画像を送信し、学習者に該画像に対応する単語又はセンテンスの発話を要求して学習者の発する学習者音声を取得する音声取得手段と、取得した前記学習者音声を解析して学習者を特定すると共に、発音の正確性を評価する音声解析手段と、前記音声解析手段が評価した発音の正確性の評価を表す画像を前記学習者端末に送信する評価送信手段と、を有し、前記画像には学習対象の言語に関する文字情報を含まない語学学習システムを提供するものである。
 また、本発明は、上記の語学学習システムにおいて、前記発音の正確性の評価が所定の基準値を満たした場合には、前記評価送信手段が該評価を表す画像を前記学習者端末に送信し、前記発音の正確性の評価が所定の基準値を満たさない場合には、前記音声送信手段が前記学習者端末に前記手本音声を繰り返し送信するものである。
 また、本発明は、上記の語学学習システムにおいて、前記音声送信手段は、前記学習者端末の音入出力部から前記手本音声を出力させた後に、該手本音声に対応して前記画像を変化させて前記学習者端末の表示部に表示させる手段を備え、前記評価送信手段は、前記発音の正確性の評価が所定の基準値を満たした場合に、前記手本音声に対応して前記画像を変化させて前記学習者端末の表示部に表示させる手段を備えたものである。
 また、本発明は、上記の語学学習システムにおいて、前記音声記憶手段は、それぞれの単語又は/及びセンテンスにおいて複数の話者の手本音声を関連付けて記憶する手段を備え、前記音声送信手段は、前記学習者端末に前記手本音声を繰り返し送信する際に、異なる話者の前記手本音声を送信する手段を備えたものである。
 また、本発明は、上記の語学学習システムにおいて、前記学習支援サーバは、学習者毎に学習した単語又は/及びセンテンスの発音の正確性の評価を記憶する学習状況記憶手段と、前記学習状況記憶手段に記憶された発音の正確性の評価に基づいて学習者毎の学習進捗度及び得意音又は不得意音を含む成績を作成する成績作成手段と、前記成績に基づいて学習者毎の学習カリキュラムを作成するカリキュラム作成手段と、を備えたものである。
 また、本発明は、上記の語学学習システムにおいて、前記学習支援サーバは、学習者毎の前記成績に基づいて各学習者を複数の学習レベルに層別し、前記学習レベルが同じ層又は前記学習レベルが同じ層と前後の層を含む層内の複数の学習者に仮想現実の環境を提供するための画像を前記学習者端末に送信し、前記複数の学習者に音声での会話を行わせる学習者交流手段を備えたものである。
 また、本発明は、上記の何れか一項に記載の語学学習システムとして、コンピュータを機能させるための語学学習プログラムを提供するものである。
 本発明の語学学習システムは、画像を表示する表示部と、音声を入出力する音入出力部と、を備えた学習者端末にネットワークを介して接続され、学習者の語学学習を支援する学習支援サーバを含む語学学習システムであって、前記学習支援サーバは、学習対象である一又は二以上の言語について発音の手本となる単語又は/及びセンテンスの手本音声を記憶した音声記憶手段と、前記学習者端末に前記手本音声及び該手本音声に対応する画像を送信し、学習者に該手本音声と該画像を関連付けて知覚させる音声送信手段と、前記学習者端末に前記画像を送信し、学習者に該画像に対応する単語又はセンテンスの発話を要求して学習者の発する学習者音声を取得する音声取得手段と、取得した前記学習者音声を解析して学習者を特定すると共に、発音の正確性を評価する音声解析手段と、前記音声解析手段が評価した発音の正確性の評価を表す画像を前記学習者端末に送信する評価送信手段と、を有し、前記画像には学習対象の言語に関する文字情報を含まないことにより、学習者は画像と手本音声で言語を学習するので、正確な発音を身に付けることができる。また、本発明の語学学習システムは、学習者端末に送信する画像に学習対象の言語に関する文字情報を含まないから、各言語に対応した文字を表示させるためのローカリゼーションが不要になり、複数言語の手本音声を音声記憶手段に記憶しておき、手本音声の言語を変えるだけで異なる学習言語に対応することができる効果がある。
 また、本発明は、上記の語学学習システムにおいて、前記発音の正確性の評価が所定の基準値を満たした場合には、前記評価送信手段が該評価を表す画像を前記学習者端末に送信し、前記発音の正確性の評価が所定の基準値を満たさない場合には、前記音声送信手段が前記学習者端末に前記手本音声を繰り返し送信することにより、学習者が正しい発音をした場合には、学習者端末の表示部に評価を表す画像を表示させて該評価を学習者に知らせることができ、学習者が誤った発音をした場合には、学習者端末の音入出力部から再び手本音声を出力させ、学習者に繰り返し学習させることによって正確な発音を習得させることができる効果がある。
 また、本発明は、上記の語学学習システムにおいて、前記音声送信手段は、前記学習者端末の音入出力部から前記手本音声を出力させた後に、該手本音声に対応して前記画像を変化させて前記学習者端末の表示部に表示させる手段を備え、前記評価送信手段は、前記発音の正確性の評価が所定の基準値を満たした場合に、前記手本音声に対応して前記画像を変化させて前記学習者端末の表示部に表示させる手段を備えたことにより、画像に文字情報を含ませなくても、手本音声に対応した変化と同じように画像を変化させることによって学習者に発音が正しいことを伝えることができる効果がある。
 また、本発明は、上記の語学学習システムにおいて、前記音声記憶手段は、それぞれの単語又は/及びセンテンスにおいて複数の話者の手本音声を関連付けて記憶する手段を備え、前記音声送信手段は、前記学習者端末に前記手本音声を繰り返し送信する際に、異なる話者の前記手本音声を送信する手段を備えたことにより、同じ単語又はセンテンスにおいて異なる話者の手本音声を学習者に聞かせることができ、学習者を飽きさせないで、正しい発音を習得させることができるから、学習効率を向上させることができる効果がある。
 また、本発明は、上記の語学学習システムにおいて、前記学習支援サーバは、学習者毎に学習した単語又は/及びセンテンスの発音の正確性の評価を記憶する学習状況記憶手段と、前記学習状況記憶手段に記憶された発音の正確性の評価に基づいて学習者毎の学習進捗度及び得意音又は不得意音を含む成績を作成する成績作成手段と、前記成績に基づいて学習者毎の学習カリキュラムを作成するカリキュラム作成手段と、を備えたことにより、学習者又はその保護者に成績を提示することができるのみならず、学習カリキュラムをリアルタイムに作成することができ、学習者毎のカリキュラムに基づいて不得意音を含む単語又はセンテンスを繰り返し学習するなど個人に合わせた効果的な学習を行わせることができる効果がある。
 また、本発明は、上記の語学学習システムにおいて、前記学習支援サーバは、学習者毎の前記成績に基づいて各学習者を複数の学習レベルに層別し、前記学習レベルが同じ層又は前記学習レベルが同じ層と前後の層を含む層内の複数の学習者に仮想現実の環境を提供するための画像を前記学習者端末に送信し、前記複数の学習者に音声での会話を行わせる学習者交流手段を備えたことにより、学習者同士で音声での交流を行いながら語学学習を行わせることができる効果がある。
 また、本発明の語学学習プログラムは、上記の何れか一項に記載の語学学習システムとして、コンピュータを機能させることにより、学習者端末に送信する画像に学習対象の言語に関する文字情報を含まないから、各言語に対応した文字を表示させるためのローカリゼーションが不要になり、複数言語の手本音声を音声記憶手段に記憶しておき、手本音声の言語を変えるだけで異なる学習言語に対応することができる効果がある。
本発明に係る語学学習システムの一実施例を示す構成図。 本発明に係る語学学習システムの音声解析手段の一実施例を示す構成図。 本発明に係る語学学習システムの個人認証の一例を示すフローチャート。 本発明に係る語学学習システムの学習支援の一例を示すフローチャート。 本発明に係る語学学習システムの音声解析の一例を示すフローチャート。
 本発明の実施の形態を図示する実施例に基づいて説明する。図1は、本発明に係る語学学習システムの一実施例を示す構成図である。図2は、本発明に係る語学学習システムの音声解析手段の一実施例を示す構成図である。
 本発明の語学学習システムは、画像を表示する表示部31と、音声を入出力する音入出力部32と、を備えた学習者端末3にネットワーク4を介して接続され、学習者の語学学習を支援する学習支援サーバ1を含むシステムであって、学習支援サーバ1は、学習対象である一又は二以上の言語について発音の手本となる単語又は/及びセンテンスの手本音声を記憶した音声記憶手段21と、学習者端末3に手本音声及び該手本音声に対応する画像を送信し、学習者に該手本音声と該画像を関連付けて知覚させる音声送信手段11と、学習者端末3に前記画像を送信し、学習者に該画像に対応する単語又はセンテンスの発話を要求して学習者の発する学習者音声を取得する音声取得手段12と、取得した学習者音声を解析して学習者を特定すると共に、発音の正確性を評価する音声解析手段13と、音声解析手段が評価した発音の正確性の評価を表す画像を前記学習者端末に送信する評価送信手段14と、を有し、前記画像には学習対象の言語に関する文字情報を含まないことを特徴とする。
 本発明の語学学習システムにおいて、学習者端末3に送信する上記画像には、静止画像の他、動画像も含まれる。本発明の特に好ましい実施形態としては、上記画像が動きのある教師オブジェクト含むアニメーションであり、学習対象の言語に関する文字情報を含まない形態である。本発明の語学学習システムは、アニメーションのローカリゼーションが不要であり、複数言語の手本音声を音声記憶手段に記憶しておき、アニメーションと組み合わせる手本音声の言語を変えるだけで異なる学習言語に対応することができる。
 また、本発明の語学学習システムは、アニメーションにおいて教師オブジェクトに手本音声に対応した身振りや手振りなどの動作をさせることにより、学習者に人を介さないでボディーランゲージを学習させることもできる。
 学習支援サーバ1は、ネットワーク4に接続されたコンピュータであって、学習者端末3からの要求に応じて学習者の語学学習を支援する処理手段10と、処理手段10を機能させるためのプログラムや音声などのデータを記憶する記憶手段20と、を有する。
 処理手段10は、学習支援サーバ1内に設けられた中央演算処理装置(CPU)、及びこのCPUの動作手順を規定する一又は二以上のプログラムによって機能する。記憶手段20は、例えばROMやRAMなどのメモリ及びハードディスクを備えている。記憶手段20は、処理手段10の各種処理を実行するためのプログラムなどが格納されるプログラム領域20aと、音声データなどのデータを記憶するデータ領域20bと、を有している。
 本実施例において、記憶手段20は、学習対象である二以上の言語について発音の手本となる単語及びセンテンスの手本音声を記憶した音声記憶手段21と、学習者毎に学習した単語及びセンテンスの発音の正確性の評価を記憶する学習状況記憶手段22と、を有している。また、記憶手段20は、発音の正確性の評価を行うための情報として、学習言語の音素が持っている周波数特性を表した音響モデル記憶手段23と、学習言語の単語と音響モデルを結びつける辞書モデル記憶手段24と、学習言語の音素の並び方に関する制約を表した言語モデル記憶手段25と、を有している。
 学習者端末3は、ネットワーク4に接続可能なパーソナルコンピュータ、タブレット端末、スマートフォンなどの端末である。学習者端末3は、アニメーションなどの画像を表示する表示部31と、例えばマイクとスピーカの組み合わせからなる音入出力部32と、を備え、ネットワーク4を介して学習支援サーバ1にアクセス可能な端末であればよい。
 図1に示す本実施例において、処理手段10は、音声送信手段11と、音声取得手段12と、音声解析手段13と、評価送信手段14と、成績作成手段15と、カリキュラム作成手段16と、を有している。
 音声送信手段11は、ネットワーク4を介して学習者端末3に、音声記憶手段21に記憶された手本音声を送信して音入出力部32から出力させると共に、該手本音声に対応するアニメーションを送信して表示部31に表示させ、学習者に該手本音声と該アニメーションを関連付けて知覚させる。このアニメーションには、学習対象の言語に関する文字情報を含まない。
 本実施例において、音声送信手段11は、学習者端末3の表示部31に教師オブジェクトと共に、手本音声に対応する画像(例えば「りんご」の画像)を含むアニメーションを表示させる。音声送信手段11は、教師オブジェクトが手本音声に対応する画像を指しながら、音入出力部32から手本音声(ここでは「apple」の音声)を出力させ、学習者に手本音声とアニメーション又はアニメーションに含まれる画像(ここでは「りんご」の画像)を関連付けて知覚させる。このとき、表示部31には、学習対象の言語に関する文字(ここでは「apple」の文字)は表示されない。
 音声取得手段12は、ネットワーク4を介して学習者端末3に、上記の手本音声に対応するアニメーションを送信して表示部31に表示させ、学習者にアニメーション又はアニメーションに含まれる画像に対応する単語又はセンテンス(ここでは「apple」)の発話を要求する。音声取得手段12は、音入出力部32からネットワーク4を介して学習者の発する学習者音声を取得する。音声取得手段12は、アニメーションにおいて、例えば教師オブジェクトが手本音声に対応する「りんご」の画像を指しながら、発話を要求することが好ましい。このときも、表示部31には、学習対象の言語に関する「apple」の文字は表示されない。
 音声解析手段13は、ネットワーク4を介して学習者端末3から取得した学習者音声を解析して、学習者を特定すると共に、発音の正確性を評価する。本実施例において、音声解析手段13は、音声認証によって、学習者音声から学習者を特定する。各学習者の声紋は、記憶手段20の学習状況記憶手段22に学習者の氏名などの情報と共に記憶されている。
 本実施例において、音声解析手段13は、音声をA/D変換して音声信号を生成する音声信号生成手段131と、生成された音声信号を分割する前処理手段132と、音声の周波数特性を抽出する音声特徴抽出手段133と、音声から言葉の特定又は話者の特定をする音声認識手段134と、発音の正確性を評価する発音評価手段135と、を有する。
 音声信号生成手段131は、学習者端末3でA/D変換され、学習支援サーバ1が取得した音声データから必要箇所をサンプリングし、量子化する。前処理手段132は、音声信号を増幅処理し、フレーム分割して窓かけ処理を行う。音声特徴抽出手段133は、音声信号を高速フーリエ変換(FFT処理)してメルフィルタバンクをかけて対数値を算出し、離散コサイン変換(DCT変換)と一階差分変換を行って音声の周波数特性を抽出する。
 音声認識手段134は、音声の周波数特性を記憶手段20に記憶された各学習者の声紋と照合して学習者を特定する学習者特定手段と、音声の周波数特性から言葉にデコードするデコード手段と、を有する。発音評価手段135は、記憶手段20に記憶された音響モデル、辞書モデル及び言語モデルに基づいて、音の正確性を評価する音響スコアと、言語の正確性を評価する言語スコアと、を算出して、学習者の発音の正確性を評価し、この評価を学習状況記憶手段22に記憶する。
 評価送信手段14は、音声解析手段13が評価した発音の正確性の評価を表す画像を学習者端末3に送信する。この評価を表す画像は、文字を含まないことが好ましく、例えばグラフやマークで評価内容を表してもよい。また、この評価を表す画像は、アニメーションの中で表示してもよく、学習者の発話に対して教師オブジェクトがジェスチャーで評価を表すことが最も好ましい。本実施例において、評価送信手段14は、発音の正確性の評価が所定の基準値を満たした場合にのみ、該評価を表す画像を学習者端末3に送信する。一方、発音の正確性の評価が所定の基準値を満たさない場合は、音声送信手段11が学習者端末3に手本音声及び該手本音声に対応するアニメーションを繰り返し送信し、学習者に該手本音声と該アニメーション又はアニメーションに含まれる画像を関連付けて知覚させる。
 本実施例において、音声記憶手段21は、それぞれの単語及びセンテンスにおいて複数の話者の手本音声を関連付けて記憶する手段を備えている。音声送信手段11は、学習者端末3に手本音声を繰り返し送信する際に、前に送信した手本音声の話者とは異なる話者の手本音声を送信する手段を備えている。音声送信手段11は、同じ単語又はセンテンスを繰り返し送信するときに、送信する度に話者を変えてもよく、2~3回に一度話者を変えてもよい。
 成績作成手段15は、学習状況記憶手段22に記憶された発音の正確性の評価に基づいて学習者毎の学習進捗度及び得意音又は不得意音を含む成績を作成し、この成績を学習状況記憶手段22に記憶する。また、成績作成手段15は、学習者端末3に作成した成績を送信する。なお、成績作成手段15は、学習者端末3に代えて、又は、学習者端末3に加えて保護者用の端末に成績を送信してもよい。
 カリキュラム作成手段16は、学習状況記憶手段22に記憶された成績に基づいて学習者毎の学習カリキュラムを作成し、この学習カリキュラムを学習状況記憶手段22に記憶する。なお、カリキュラム作成手段16は、語学学習中の発音の正確性に基づいて、学習カリキュラムを修正してもよい。
 本実施例において、処理手段10は、学習者毎の成績に基づいて各学習者を複数の学習レベルに層別し、学習レベルが同じ層又は学習レベルが同じ層と前後の層を含む層内の複数の学習者に仮想現実の環境を提供するためのアニメーションを学習者端末3に送信し、複数の学習者に音声での会話を行わせる学習者交流手段17を備えていることが好ましい。この場合でも、音声解析手段13は、学習者音声を解析して学習者を特定すると共に、発音の正確性を評価し、誤った発音に対しては指摘をするように構成している。
 なお、本発明の語学学習システムの構成は、実施例の形態に限定されるものではなく、他の様々な実施形態を採用してもよい。
[語学学習の流れ]
 以下、図3乃至図5を参照しながら、本実施例に係る語学学習システムの動作について説明する。図3は、本発明に係る語学学習システムの個人認証の一例を示すフローチャートである。図4は、本発明に係る語学学習システムの学習支援の一例を示すフローチャートである。図5は、本発明に係る語学学習システムの音声解析の一例を示すフローチャートである。ここでは、学習者が英語の発音を学習する場合について説明するが、他の言語の場合も同様である。
[個人認証]
 先ず、本発明に係る語学学習システムの個人認証の一例を図3に基づいて説明する。
 学習者は、例えば学習者端末3の表示部31に表示されたアイコンを選択し、学習支援サーバ1にアクセスするためのアプリケーションプログラムを起動させる(ステップS1)。本実施例では、学習者端末3は、学習支援サーバ1において英語の発音学習を支援する機能にアクセスする。
 学習者端末3からのアクセスを受けた学習支援サーバ1は、処理手段10が学習者端末3からの要求に応じて、英語の発音学習を支援する。先ず、処理手段10は、初期のアニメーションとして、例えば教師オブジェクトを含むアニメーションを学習者端末3の表示部31に表示させながら、「Hello!」など最初の挨拶の手本音声を学習者端末3の音入出力部32から出力させる(ステップS2)。このとき、教師オブジェクトは、学習者に発話を促すジェスチャーをすることが好ましい。
 学習者が、同じく「Hello!」と発音して挨拶すると、処理手段10は、学習者端末3の音入出力部32から入力された学習者音声を取得し(ステップS3)、この学習者音声を解析して声紋認証を行う(ステップS4)。学習者音声の解析手順については、後述する。
 処理手段10は、学習者音声を解析して得られた声紋と、予め記憶手段20に記憶された登録者の声紋とを照合し、学習者を特定する(ステップS5)。処理手段10は、取得した学習者音声の声紋と一致する声紋の登録情報を取得する。このとき、処理手段10は、教師オブジェクトに学習者の名前を発話させたり、予め学習者が登録した認証用画像を表示部31に表示させたりして、学習者を認証してもよい。
 処理手段10は、学習者を認証すると、学習状況記憶手段22に記憶された該学習者の学習した単語及びセンテンスの発音の正確性の評価に基づいて作成された該学習者の学習カリキュラムを実行する。一方、取得した学習者音声の声紋と一致する声紋がないとき、処理手段10は、学習者端末3にエラー情報を送信して、認証処理を終了する。
[学習カリキュラムの実行]
 次に、本発明に係る語学学習システムの学習支援の一例を図4に基づいて説明する。
 処理手段10は、音声送信手段11によって、学習者端末3に学習言語である英語の手本音声及び該手本音声に対応するアニメーションを送信し、学習者に手本音声とアニメーション又はアニメーションに含まれる画像を関連付けて知覚させる(ステップS11)。具体的には、音声送信手段11は、学習者端末3の表示部31に教師オブジェクトと共に、手本音声に対応する画像(例えば「りんご」の画像)を含むアニメーションを表示させ、教師オブジェクトが該画像を指し示しながら、音入出力部32から手本音声(ここでは「apple」の音声)を出力させ、学習者に手本音声とアニメーションに含まれる画像を関連付けて知覚させる。
 次に、処理手段10は、学習者端末3に対して手本音声を送信しないで、音声取得手段12によってアニメーションのみを送信し、表示部31に「りんご」の画像を含むアニメーションを表示させ、学習者に「りんご」の画像に対応する英単語「apple」の発話を要求する(ステップS12)。このとき、処理手段10は、教師オブジェクトが「りんご」の画像を指しながら発話を要求するアニメーションを学習者端末3に送信する。
 学習者が学習者端末3に向かって「apple」と発話すると、処理手段10は、学習者端末3の音入出力部32から入力された学習者音声を取得する(ステップS13)。音入出力部32から入力された学習者音声は、学習者端末3の処理部においてA/D変換され、ネットワーク4を介して学習支援サーバ1に送信される。処理手段10は、取得した学習者音声を記憶手段20に一時的に記憶する。
 処理手段10は、音声解析手段13によって、取得した学習者音声を解析して発音の正確性を評価する(ステップS14)。音声解析手段13は、取得した音声からステップS4で認証した学習者の音声を特定し、この学習者の音声について発音の正確性を評価する。学習者音声の評価手順については、後述する。
 処理手段10は、音声解析手段13が評価した発音の正確性の評価を、予め設定した所定の基準値と比較する(ステップS15)。発音の正確性の評価が所定の基準値を満たした場合には、処理手段10は、評価送信手段14によって、音声解析手段13が評価した発音の正確性の評価を表す画像又は該画像を含むアニメーションを学習者端末3に送信し、表示部31に表示させる(ステップS16)。具体的には、評価送信手段14は、学習者の発話に反応して教師オブジェクトがジェスチャーで評価を表す。例えば、評価の違いは、教師オブジェクトのジェスチャーの大きさで表すことができ、ジェスチャーが大きい程、評価が高くなる。
 一方、発音の正確性の評価が所定の基準値を満たさない場合には、処理手段10は、ステップS11に戻り、音声送信手段11によって、学習者端末3に学習言語である英語の手本音声及び該手本音声に対応するアニメーションを再送信し、学習者に手本音声とアニメーション又はアニメーションに含まれる画像を関連付けて知覚させる。このとき、音声送信手段11は、直前に送信した手本音声の話者とは異なる話者の手本音声を送信してもよい。
 発音の正確性の評価が所定の基準値を満たした場合には、処理手段10は、学習者の学習カリキュラムに基づいて、次の単語又はセンテンスの手本音声を学習者端末3に送信し、語学学習を終了するまでステップS11からステップS16までの処理を繰り返し実行する(ステップS17)。
 学習カリキュラムに基づいた語学学習が終了したとき、又は、学習者が学習者端末3で語学学習の終了を選択したときは、処理手段10は、学習状況記憶手段22に学習した単語及びセンテンスの発音の正確性の評価を記憶する(ステップS18)。
 そして、処理手段10は、成績作成手段15によって、学習状況記憶手段22に記憶された発音の正確性の評価に基づいて学習者の学習進捗度及び得意音又は不得意音を含む成績を作成して記憶手段20に記憶すると共に、学習者端末3に成績を送信する(ステップS19)。また、処理手段10は、学習者端末3に代えて、又は、学習者端末3に加えて保護者端末に成績を送信してもよい。このとき、処理手段10は、1ヶ月に一度など定期的に成績を保護者端末に送信するようにしてもよい。
 また、処理手段10は、成績作成手段15によって作成された成績に基づいて学習者毎の学習カリキュラムを作成し、記憶手段20に記憶する。なお、処理手段10は、語学学習中の発音の正確性に基づいて、学習カリキュラムを修正してもよい。
[学習者音声の解析]
 本発明に係る語学学習システムの音声解析の一例を図5に基づいて説明する。
 処理手段10は、学習者端末3の音入出力部32で入力され、A/D変換された音データを取得し、この音データから音声箇所をサンプリングし、量子化して、学習者の音声信号を生成する(ステップS21)。
 処理手段10は、前処理手段によって、音声信号を増幅処理し、フレーム分割して窓かけ処理を行う(ステップS22)。また、処理手段10は、音声特徴抽出手段によって、音声信号を高速フーリエ変換(FFT処理)してメルフィルタバンクをかけて対数値を算出し、離散コサイン変換(DCT変換)と一階差分変換を行って音声の周波数特性を抽出する(ステップS23)。
 処理手段10は、音声認識手段によって、音声の周波数特性を記憶手段20に記憶された各学習者の声紋と照合して学習者を特定する(ステップS24)。上述の個人認証において、処理手段10は、特定した学習者に対して、必要な場合は追加の認証手続を行って個人認証処理を終了する。また、学習カリキュラムにおいて、処理手段10は、音声の周波数特性が認証した学習者の声紋と一致するか否かを判定し(ステップS25)、一致しない場合にはステップS21からステップS25までの処理を繰り返し実行する。
 学習カリキュラムにおいて、処理手段10は、音声認識手段によって、音声の周波数特性から該当する音素にデコードする(ステップS24)。ステップS25において音声の周波数特性が認証した学習者の声紋と一致する場合には、処理手段10は、全フレームの音声の周波数特性から該当する音素へのデコードが完了するまでステップS23からステップS24までの処理を繰り返し実行する(ステップS26)。
 全フレームの音声の周波数特性から該当する音素へのデコードが完了すると、処理手段10は、発音評価手段によって、記憶手段20に記憶された音響モデル、辞書モデル及び言語モデルに基づいて、音の正確性を評価する音響スコアと、言語の正確性を評価する言語スコアと、を算出し、学習者の発音の正確性を評価する(ステップS27)。
 本発明の別の実施例としては、音声送信手段11が、学習者端末3の音入出力部32から手本音声を出力させた後に、該手本音声に対応して画像を変化させて学習者端末3の表示部31に表示させる手段を備えている。このとき、評価送信手段14は、発音の正確性の評価が所定の基準値を満たした場合に、手本音声に対応して画像を変化させて学習者端末3の表示部31に表示させる手段を備えている。この画像には、静止画像の他、動画像も含まれ、変化させた画像は、手本音声に対応したアニメーションであることが好ましい。
 具体的には、音声送信手段11は、学習者端末3の表示部31に教師オブジェクトを含むアニメーションを表示させ、この教師オブジェクトが発する命令、感情表現などの言語の音声を音入出力部32から出力させる。そして、音声送信手段11は、命令、感情表現などの言語に対応して画像が変化するアニメーションを表示させ、学習者に該手本音声と該画像の変化(命令に対応する行動、感情表現)を関連付けて知覚させる。
 例えば、音声送信手段11は、学習者端末3の表示部31に教師オブジェクトに加え、生徒オブジェクトを含むアニメーションを表示させる。音声送信手段11は、教師オブジェクトに「Clap your hands.」と手本音声を発話させると、この手本音声に対応して生徒オブジェクトが両手を叩くアニメーションを表示させ、学習者に学習言語の命令文「Clap your hands.」と、この命令に対応した行動「両手を叩く」を関連付けて知覚させる。
 音声取得手段12は、学習者端末3に対して手本音声を送信しないで、教師オブジェクトと生徒オブジェクトを含むアニメーションのみを送信し、学習者に「Clap your hands.」の発話を要求する。このとき、音声取得手段12は、教師オブジェクトに発話を要求するジェスチャーをさせてもよい。
 評価送信手段14は、音声解析手段13が評価した発音の正確性が所定の基準値を満たした場合に、手本音声に対応して画像を変化させて学習者端末3の表示部31に表示させる。ここでは、評価送信手段14が、手本音声「Clap your hands.」に対応したアニメーション(生徒オブジェクトが両手を叩く)を表示部31に表示させる。また、評価の違いは、教師オブジェクトのジェスチャーの大きさで表してもよい。その他の構成は、実施例1の構成と同様である。
 本発明は、外国語の発音習得に適した語学学習システムにおいて、少ない負担とコストで複数の言語学習に対応させることが可能な成績反映型音と映像による語学学習システムを提供するものとして有用である。
 1 学習支援サーバ
 3 学習者端末
 4 ネットワーク
10 処理手段
11 音声送信手段
12 音声取得手段
13 音声解析手段
14 評価送信手段
15 成績作成手段
16 カリキュラム作成手段
17 学習者交流手段
20 記憶手段
21 音声記憶手段
22 学習状況記憶手段
31 表示部
32 音入出力部

Claims (7)

  1.  画像を表示する表示部と、音声を入出力する音入出力部と、を備えた学習者端末にネットワークを介して接続され、学習者の語学学習を支援する学習支援サーバを含む語学学習システムであって、
     前記学習支援サーバは、
     学習対象である一又は二以上の言語について発音の手本となる単語又は/及びセンテンスの手本音声を記憶した音声記憶手段と、
     前記学習者端末に前記手本音声及び該手本音声に対応する画像を送信し、学習者に該手本音声と該画像を関連付けて知覚させる音声送信手段と、
     前記学習者端末に前記画像を送信し、学習者に該画像に対応する単語又はセンテンスの発話を要求して学習者の発する学習者音声を取得する音声取得手段と、
     取得した前記学習者音声を解析して学習者を特定すると共に、発音の正確性を評価する音声解析手段と、
     前記音声解析手段が評価した発音の正確性の評価を表す画像を前記学習者端末に送信する評価送信手段と、を有し、
     前記画像には学習対象の言語に関する文字情報を含まない語学学習システム。
  2.  請求項1に記載の語学学習システムにおいて、
     前記発音の正確性の評価が所定の基準値を満たした場合には、前記評価送信手段が該評価を表す画像を前記学習者端末に送信し、
     前記発音の正確性の評価が所定の基準値を満たさない場合には、前記音声送信手段が前記学習者端末に前記手本音声を繰り返し送信する語学学習システム。
  3.  請求項2に記載の語学学習システムにおいて、
     前記音声送信手段は、前記学習者端末の音入出力部から前記手本音声を出力させた後に、該手本音声に対応して前記画像を変化させて前記学習者端末の表示部に表示させる手段を備え、
     前記評価送信手段は、前記発音の正確性の評価が所定の基準値を満たした場合に、前記手本音声に対応して前記画像を変化させて前記学習者端末の表示部に表示させる手段を備えた語学学習システム。
  4.  請求項2項又は請求項3項に記載の語学学習システムにおいて、
     前記音声記憶手段は、それぞれの単語又は/及びセンテンスにおいて複数の話者の手本音声を関連付けて記憶する手段を備え、
     前記音声送信手段は、前記学習者端末に前記手本音声を繰り返し送信する際に、異なる話者の前記手本音声を送信する手段を備えた語学学習システム。
  5.  請求項1項乃至請求項4項の何れか一項に記載の語学学習システムにおいて、
     前記学習支援サーバは、
     学習者毎に学習した単語又は/及びセンテンスの発音の正確性の評価を記憶する学習状況記憶手段と、
     前記学習状況記憶手段に記憶された発音の正確性の評価に基づいて学習者毎の学習進捗度及び得意音又は不得意音を含む成績を作成する成績作成手段と、
     前記成績に基づいて学習者毎の学習カリキュラムを作成するカリキュラム作成手段と、を備えた語学学習システム。
  6.  請求項5に記載の語学学習システムにおいて、
     前記学習支援サーバは、
     学習者毎の前記成績に基づいて各学習者を複数の学習レベルに層別し、前記学習レベルが同じ層又は前記学習レベルが同じ層と前後の層を含む層内の複数の学習者に仮想現実の環境を提供するための画像を前記学習者端末に送信し、前記複数の学習者に音声での会話を行わせる学習者交流手段を備えた語学学習システム。
  7.  請求項1乃至請求項6の何れか一項に記載の語学学習システムとして、コンピュータを機能させるための語学学習プログラム。
PCT/JP2016/074052 2016-08-17 2016-08-17 語学学習システム及び語学学習プログラム WO2018033979A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201680074434.3A CN108431883B (zh) 2016-08-17 2016-08-17 语言学习系统以及语言学习程序
EP16913507.6A EP3503074A4 (en) 2016-08-17 2016-08-17 LANGUAGE LEARNING SYSTEM AND LANGUAGE LEARNING PROGRAM
PCT/JP2016/074052 WO2018033979A1 (ja) 2016-08-17 2016-08-17 語学学習システム及び語学学習プログラム
JP2017510606A JP6172417B1 (ja) 2016-08-17 2016-08-17 語学学習システム及び語学学習プログラム
US15/872,358 US11145222B2 (en) 2016-08-17 2018-01-16 Language learning system, language learning support server, and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2016/074052 WO2018033979A1 (ja) 2016-08-17 2016-08-17 語学学習システム及び語学学習プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US15/872,358 Continuation US11145222B2 (en) 2016-08-17 2018-01-16 Language learning system, language learning support server, and computer program product

Publications (1)

Publication Number Publication Date
WO2018033979A1 true WO2018033979A1 (ja) 2018-02-22

Family

ID=59505178

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/074052 WO2018033979A1 (ja) 2016-08-17 2016-08-17 語学学習システム及び語学学習プログラム

Country Status (5)

Country Link
US (1) US11145222B2 (ja)
EP (1) EP3503074A4 (ja)
JP (1) JP6172417B1 (ja)
CN (1) CN108431883B (ja)
WO (1) WO2018033979A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7121330B2 (ja) 2017-09-26 2022-08-18 カシオ計算機株式会社 電子機器、音響機器、電子機器の制御方法及び制御プログラム
JP7119615B2 (ja) * 2018-06-14 2022-08-17 株式会社リコー サーバ、音データ評価方法、プログラム、通信システム
JP7176272B2 (ja) * 2018-07-26 2022-11-22 富士フイルムビジネスイノベーション株式会社 情報処理装置およびプログラム
CN109215417A (zh) * 2018-10-24 2019-01-15 北京实境智慧科技有限公司 一种vr记忆系统及方法
CN112614489A (zh) * 2020-12-22 2021-04-06 作业帮教育科技(北京)有限公司 用户发音准确度评估方法、装置和电子设备
CN113077819A (zh) * 2021-03-19 2021-07-06 北京有竹居网络技术有限公司 发音评价方法和装置、存储介质和电子设备
CN113506572A (zh) * 2021-07-08 2021-10-15 东北师范大学 一种便携式实时反馈语言学习系统
KR102623155B1 (ko) * 2022-08-02 2024-01-10 최동원 한국어 학습자를 위한 한국어 발음교정 시스템
CN117275319B (zh) * 2023-11-20 2024-01-26 首都医科大学附属北京儿童医院 训练语言重点能力的装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002082598A (ja) * 2000-09-07 2002-03-22 Keynet:Kk 学習支援システム及び学習支援方法
JP2005024815A (ja) * 2003-07-01 2005-01-27 Ryuichiro Yamazaki 言語学習システムとその装置、方法、プログラム、及びこのプログラムを記録する記録媒体
JP2005031207A (ja) * 2003-07-08 2005-02-03 Omron Corp 発音練習支援システム、発音練習支援方法、発音練習支援プログラムおよびそれを記録したコンピュータ読み取り可能な記録媒体
JP2006195094A (ja) * 2005-01-12 2006-07-27 Yamaha Corp 発音学習支援装置
JP2011128362A (ja) * 2009-12-17 2011-06-30 Cocone Corp 学習システム
JP2014240902A (ja) * 2013-06-11 2014-12-25 株式会社ジャストシステム 学習支援装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6427063B1 (en) * 1997-05-22 2002-07-30 Finali Corporation Agent based instruction system and method
KR100355072B1 (ko) * 2000-07-06 2002-10-05 한상종 멀티미디어 분할페이지 및 이를 이용한 언어학습방법과언어학습시스템
US6435876B1 (en) * 2001-01-02 2002-08-20 Intel Corporation Interactive learning of a foreign language
JP2002268537A (ja) 2001-03-13 2002-09-20 Nd Cube Kk プログラム、記録媒体、及び学習システム
US7407384B2 (en) * 2003-05-29 2008-08-05 Robert Bosch Gmbh System, method and device for language education through a voice portal server
CN101023468A (zh) * 2004-07-22 2007-08-22 跳蛙企业股份有限公司 交互式外语教学设备和方法
WO2010008722A1 (en) * 2008-06-23 2010-01-21 John Nicholas Gross Captcha system optimized for distinguishing between humans and machines
CA2732268C (en) * 2008-07-28 2020-07-21 Breakthrough Performancetech, Llc Systems and methods for computerized interactive skill training
US8784108B2 (en) * 2011-11-21 2014-07-22 Age Of Learning, Inc. Computer-based language immersion teaching for young learners
US9679496B2 (en) * 2011-12-01 2017-06-13 Arkady Zilberman Reverse language resonance systems and methods for foreign language acquisition
JP2015036788A (ja) 2013-08-14 2015-02-23 直也 内野 外国語の発音学習装置
KR20150024180A (ko) * 2013-08-26 2015-03-06 주식회사 셀리이노베이션스 발음 교정 장치 및 방법
CN106057023A (zh) * 2016-06-03 2016-10-26 北京光年无限科技有限公司 一种面向智能机器人的儿童教学方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002082598A (ja) * 2000-09-07 2002-03-22 Keynet:Kk 学習支援システム及び学習支援方法
JP2005024815A (ja) * 2003-07-01 2005-01-27 Ryuichiro Yamazaki 言語学習システムとその装置、方法、プログラム、及びこのプログラムを記録する記録媒体
JP2005031207A (ja) * 2003-07-08 2005-02-03 Omron Corp 発音練習支援システム、発音練習支援方法、発音練習支援プログラムおよびそれを記録したコンピュータ読み取り可能な記録媒体
JP2006195094A (ja) * 2005-01-12 2006-07-27 Yamaha Corp 発音学習支援装置
JP2011128362A (ja) * 2009-12-17 2011-06-30 Cocone Corp 学習システム
JP2014240902A (ja) * 2013-06-11 2014-12-25 株式会社ジャストシステム 学習支援装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3503074A4 *

Also Published As

Publication number Publication date
US11145222B2 (en) 2021-10-12
US20180137778A1 (en) 2018-05-17
JPWO2018033979A1 (ja) 2018-08-16
CN108431883B (zh) 2020-04-28
JP6172417B1 (ja) 2017-08-02
CN108431883A (zh) 2018-08-21
EP3503074A4 (en) 2020-03-25
EP3503074A1 (en) 2019-06-26

Similar Documents

Publication Publication Date Title
JP6172417B1 (ja) 語学学習システム及び語学学習プログラム
US11527174B2 (en) System to evaluate dimensions of pronunciation quality
Witt Automatic error detection in pronunciation training: Where we are and where we need to go
EP3144930A1 (en) Apparatus and method for speech recognition, and apparatus and method for training transformation parameter
JP2001159865A (ja) 対話型語学指導のための方法および装置
US11676572B2 (en) Instantaneous learning in text-to-speech during dialog
Daniels et al. The suitability of cloud-based speech recognition engines for language learning.
CN109817244B (zh) 口语评测方法、装置、设备和存储介质
CN110600013B (zh) 非平行语料声音转换数据增强模型训练方法及装置
JP5105943B2 (ja) 発話評価装置及び発話評価プログラム
US20190347948A1 (en) Learning tool and method
JP2010197644A (ja) 音声認識システム
Kabashima et al. Dnn-based scoring of language learners’ proficiency using learners’ shadowings and native listeners’ responsive shadowings
KR20080097619A (ko) 상호 대화식 학습 시스템 및 방법
JP2007148170A (ja) 外国語学習支援システム
US11605388B1 (en) Speaker conversion for video games
JP3621624B2 (ja) 外国語学習装置、外国語学習方法および媒体
Shukla Development of a Human-AI Teaming Based Mobile Language Learning Solution for Dual Language Learners in Early and Special Educations
JP7039637B2 (ja) 情報処理装置、情報処理方法、情報処理システム、情報処理プログラム
US11790884B1 (en) Generating speech in the voice of a player of a video game
KR20190106011A (ko) 대화 시스템 및 그 방법, 그 방법을 실행하기 위하여 매체에 저장된 컴퓨터 프로그램
JP7060857B2 (ja) 語学習得装置及び語学習得プログラム
León-Montaño et al. Design of the architecture for text recognition and reading in an online assessment applied to visually impaired students
Kasrani Development of a Performance Assessment System for Language Learning
JP2017530425A (ja) 指定言語でのユーザの発話の改善を支援するための方法およびシステム

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 2017510606

Country of ref document: JP

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16913507

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2016913507

Country of ref document: EP

Effective date: 20190318