WO2015099464A1 - 3차원 멀티미디어 활용 발음 학습 지원 시스템 및 그 시스템의 발음 학습 지원 방법 - Google Patents

3차원 멀티미디어 활용 발음 학습 지원 시스템 및 그 시스템의 발음 학습 지원 방법 Download PDF

Info

Publication number
WO2015099464A1
WO2015099464A1 PCT/KR2014/012850 KR2014012850W WO2015099464A1 WO 2015099464 A1 WO2015099464 A1 WO 2015099464A1 KR 2014012850 W KR2014012850 W KR 2014012850W WO 2015099464 A1 WO2015099464 A1 WO 2015099464A1
Authority
WO
WIPO (PCT)
Prior art keywords
pronunciation
specific
information
image
target
Prior art date
Application number
PCT/KR2014/012850
Other languages
English (en)
French (fr)
Inventor
강진호
Original Assignee
강진호
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 강진호 filed Critical 강진호
Priority to US15/108,318 priority Critical patent/US20160321953A1/en
Publication of WO2015099464A1 publication Critical patent/WO2015099464A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/04Speaking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages

Definitions

  • the present invention relates to a 3D multimedia pronunciation learning support system and a method for supporting pronunciation learning of the system. More particularly, the present invention includes pronunciation learning support means for accurate and efficient pronunciation learning on a 3D video image inside an articulation organ. The present invention relates to a 3D multimedia pronunciation learning support system and a pronunciation learning support method of the system.
  • the number of foreign residents and immigrants in Korea is continuously increasing, and accordingly, the number of foreigners who acquire or attempt to acquire Korean nationality is also increasing.
  • these foreigners are learning Korean, they need to understand the difference between the sound system of Korean language and the sound system of each foreigner, and there are no similar sounds in the native language of foreigners who learn Korean. If not, they may also have difficulty learning Korean pronunciation and communicating with Korean.
  • the difficulty in learning Korean pronunciation is not only the adult foreign residents and immigrants living in Korea, but also the international marriage rate, which is continuously increasing with the increase in the number of immigrants, and the second generation children of Korean nationality through international marriage. I am also having a hard time.
  • the number of language experts trained to overcome these difficulties in language learning is extremely limited, and the cost of language learning can be a heavy burden for families with low-income foreign immigrants. Therefore, it is urgent to develop a means and medium for efficiently learning standard Korean pronunciation.
  • the pronunciation or correction of the pronunciation is usually made by a 1: 1 teaching method with a foreign instructor.
  • a problem that it takes a lot of money to learn English.
  • the problem was that people who lived the same busy daily life had very limited participation in the learning.
  • the English pronunciation evaluation method of the language learner as described above is based on a pronunciation comparison method using a speech signal processing technique.
  • HMM hidden Markov model
  • the learner can roughly know how accurate his / her pronunciation is with the displayed scores, but his / her vowel / consonant pronunciation, accentuation, and intonation have no means to compare each field of vowel / consonant pronunciation, stress, and intonation. How different it is from the original sound and you can't recognize exactly where it is wrong.
  • the learner who is compared with the recorded voice file of the native speaker of the second language is recorded.
  • the magnitude of the average peak value of the waveform of the audio signal of the speech signal and the value of the fundamental frequency (F0) based on the total number of vibrations per second of the vocal cords, which are vocal organs, should be similar.
  • various distortion factors may occur in the digital signal processing process for recording and analyzing the pre-recorded sound and the voice of the learner.
  • Voice signal strength below compression to compression ratio according to signal-to-noise ratio in voice recording and signal over noise distortion, and signal strength to prevent such overload distortion The value of the voice signal is varied depending on the sampling frequency rate setting and the quantization bit coefficient setting upon the change of the voice signal according to the compression start threshold setting value of the signal and the change to the digital signal. Can change. Therefore, when the difference between the above-described signal processing schemes in the recording and digital signal processing of the two comparison target sources may be difficult, it may be difficult to compare and analyze the exact differences.
  • early pronunciation learning is a top-down learning method that acquires the principles of phoneme pronunciation at the level of speech such as words, sentences, and paragraphs, in which various factors such as stress, rhythm, soft, intonation, and fluency affect sound change. Understand the changes in sound caused by stress and coarticulation, while learning the correct standard pronunciation of each phoneme rather than processing, applying it to words, and learning various rules for softening, intonation, and rhythm.
  • bottom-up processing which is extended to sentences, is recognized as a more efficient learning method, and the importance of accurate phonetic learning of phonemes, i.e., each phonetic symbol, is emerging.
  • the existing phoneme-learning tools and devices simply image the frontal view of the facial muscles seen from the outside of the human body and the tongue seen from the outside of the oral cavity, and also simulate the movements of articulation and vocal organs in the oral cavity and the nasal cavity.
  • images there are many limitations in learning to mimic the native speaker's pronunciation, such as showing the change in the position and movement of the tongue and the changes in the air flow during the pronunciation and position of vocal resonance.
  • the pronunciation learning support system may be included in a predetermined user terminal device or server, the image sensor included in or linked to the pronunciation learning support system is
  • the pronunciation learning support system may provide a pronunciation learning related image viewed from the first perspective direction determined by referring to the recognized direction.
  • the pronunciation learning support system may manage a database that includes or is accessible to the database, the database includes recommended information including the strength and direction information of the air flow flowing through the space inside the mouth when the pronunciation of the pronunciation for each pronunciation object At least a portion of the airflow information data and the recommended resonance point information data including the position information on the articulation organ in which resonance occurs when the voice is generated may be recorded, and the pronunciation learning support system may include the recommended airflow information recorded in the database.
  • the pronunciation learning support system may acquire speech information for each subject of a plurality of subjects and perform or support frequency analysis on the speech information obtained for each speech information.
  • the pronunciation learning support system may include or be interlocked with a frequency analysis device which is a kind of audio sensor, and the frequency analysis device may extract F1 and F2, which are the lowest two frequencies of the formant frequencies, and thus may be extracted.
  • F1 and F2 frequency values By using the obtained F1 and F2 frequency values, the recommended resonance point information data is acquired for each voice information, and the obtained data is recorded on the database, so that a user using the pronunciation learning support system is very rational and accurate. Information by pronunciation target It can assist you to.
  • the pronunciation learning support system may include or be linked with an audio sensor to detect a user's utterance on a specific pronunciation target, and obtain actual resonance point information data on the user's specific pronunciation target using the audio sensor.
  • the image processing apparatus may be operated when the actual resonance point information data is displayed at a corresponding position on the articulation organ in the image provided based on the first perspective direction, thereby operating specific recommended resonance point information data recorded in the database.
  • the image processing apparatus may refer to metadata in order to process at least some of the articulation organs in different layers, and the metadata may be directly included in the image processing apparatus or managed by accessing a predetermined database.
  • the user of the pronunciation learning support system activates only the articulatory organs used for the utterance of a specific pronunciation target pronounced by the user so that the user can be included in the image to enhance the user's interest and the effect of language learning. have.
  • the pronunciation learning support system can be included in a predetermined user terminal device or server, the image processing is included in or linked to the pronunciation learning support system A process in which the device (i) displays information about the state of the space within the oral cavity and the state of articulation organs included in the specific preparation data corresponding to the specific pronunciation object to provide preparation oral image information, (ii) the specific A process of providing at least a portion of the specific recommended air flow information data and the specific recommended resonance point information data corresponding to the pronunciation target at a location of at least a part of the space and articulation organs in the oral cavity, and (iii) Oral cavity contained in specific follow-up data corresponding to specific pronunciation object
  • the pronunciation learning support system acquires at least some of (i) preparation data including information on the state of the space inside the oral cavity and the state of articulation organs before the pronunciation target is uttered for each pronunciation target, and (ii) the pronunciation Of the recommended air flow information data including the strength and direction information of the air flow flowing through the space inside the oral cavity during the speech and the recommended resonance point information data including the position information on the articulation organ where resonance occurs when the speech is spoken Acquire at least a portion, and (iii) obtain at least some of subsequent data comprising information about the state of the space within the oral cavity and the state of the articulation organ after the pronunciation object has been spoken, for each language, person Audio sensor to calculate the range of resonance within the oral cavity during vowel pronunciation by gender and age The audio sensor may calculate an average value of the range in which the calculated resonance may occur, and allow a predetermined section to be set with reference to the calculated average value, thereby allowing the image processing apparatus to set the section. Based on the information, it is possible to generate vowel squares
  • the pronunciation learning support system may acquire speech information for each subject of a plurality of subjects and perform or support frequency analysis on the speech information obtained for each speech information.
  • the pronunciation learning support system may include or be interlocked with a frequency analysis device which is a kind of audio sensor, and the frequency analysis device may extract F1 and F2, which are the lowest two frequencies of the formant frequencies, and thus may be extracted.
  • F1 and F2 frequency values By using the obtained F1 and F2 frequency values, the recommended resonance point information data is acquired for each voice information, and the obtained data is recorded on the database, so that a user using the pronunciation learning support system is very rational and accurate. Information by pronunciation target And it can support so you can listen to.
  • the pronunciation learning support system may include or be linked with an audio sensor to detect a user's utterance on a specific pronunciation target, and obtain actual resonance point information data on the user's specific pronunciation target using the audio sensor.
  • An image processing apparatus is operated when the actual resonance point information data is displayed at a corresponding position on the articulation organ in the image, thereby comparing the specific recommended resonance point information data recorded in the database to the corresponding position on the articulation organ in the image. By distinguishing and displaying each other, the user can easily compare the actual resonance point information according to his pronunciation with the recommended resonance point information recorded in the database at a glance.
  • the image processing apparatus may refer to metadata in order to process at least some of the articulation organs in different layers, and the metadata may be directly included in the image processing apparatus or managed by accessing a predetermined database.
  • the user of the pronunciation learning support system activates only the articulatory organs used for the utterance of a specific pronunciation target pronounced by the user so that the user can be included in the image to enhance the user's interest and the effect of language learning. have.
  • the present invention is to solve the above problems, the pronunciation learning support system according to another embodiment of the present invention can be included in a predetermined user terminal device or server, the image included in or linked to the pronunciation learning support system
  • the processing device may (i) display the first specific recommended air flow information data corresponding to the specific target language pronunciation target in a space inside the oral cavity and the first specific recommended resonance point information data corresponding to the specific target language pronunciation target.
  • a process of displaying at least one of the processes of displaying at a specific position on the articulation organ and (ii) displaying second specific recommended air flow information data corresponding to the specific reference language pronunciation object in a space inside the oral cavity and the specific reference language pronunciation
  • the second specific recommended resonance point information data corresponding to the object on the articulation organ By providing the processing at least one of a process of displaying an image in place, and can enable users to accurately learn the pronunciation of the language spoken by the comparison of the target language and a language reference.
  • the pronunciation learning support system may acquire speech information for each subject of a plurality of subjects and perform or support frequency analysis on the speech information obtained for each speech information.
  • the pronunciation learning support system may include or be interlocked with a frequency analysis device which is a kind of audio sensor, and the frequency analysis device may extract F1 and F2, which are the lowest two frequencies of the formant frequencies, and thus may be extracted.
  • F1 and F2 frequency values By using the obtained F1 and F2 frequency values, the recommended resonance point information data is acquired for each voice information, and the obtained data is recorded on the database, so that a user using the pronunciation learning support system is very rational and accurate. Information by pronunciation target And it can support so you can listen to.
  • the pronunciation learning support system may include or be linked with an audio sensor to detect a user's utterance on a specific pronunciation target, and obtain actual resonance point information data on the user's specific pronunciation target using the audio sensor.
  • the image processing apparatus may be operated when the actual resonance point information data is displayed at a corresponding position on the articulation organ in the image provided based on the first perspective direction, thereby operating specific recommended resonance point information data recorded in the database.
  • the image processing apparatus may refer to metadata in order to process at least some of the articulation organs in different layers, and the metadata may be directly included in the image processing apparatus or managed by accessing a predetermined database.
  • the user of the pronunciation learning support system activates only the articulatory organs used for the utterance of a specific pronunciation target pronounced by the user so that the user can be included in the image to enhance the user's interest and the effect of language learning. have.
  • the pronunciation learning support system when the pronunciation learning support system (a) accesses a database that is managed by itself or an external database to speak the pronunciation for each pronunciation target Acquiring at least some of the recommended airflow information data including the strength and direction information of the airflow flowing through the space inside the oral cavity and the recommended resonance point information data including the position information on the articulation organ in which resonance occurs during speech. step; And (b) when a specific pronunciation target is selected from the pronunciation targets, requests the image processing apparatus managed by the user or an external image processing apparatus to display the specific recommended airflow information data corresponding to the specific pronunciation target in the first perspective direction.
  • the pronunciation learning support system identifies the pronounced specific pronunciation object in response to a user's pronunciation of the specific pronunciation object
  • the pronunciation learning is performed.
  • the image learning device managed by the pronunciation learning support system or an external image sensor may be requested according to the gaze recognition technology of the user using the pronunciation learning support system or the recognition technology of the face of the user.
  • the direction information at which the user looks at the screen is identified as the first direction
  • the first perspective direction is determined with reference to the direction information.
  • the step (b) when it is identified that the direction information of the user looking at the screen has been changed in the second direction while being provided in the first perspective direction, the first And an image processed on the basis of the perspective direction and an image processed on the basis of the second perspective direction stored as corresponding to the second direction.
  • the step (a) may be performed by requesting an audio sensor or an external audio sensor managed by the pronunciation learning support system (a1) to obtain utterance information for each subject by pronunciation target. step; (a2) performing frequency analysis on the speech information obtained for each speech information; And (a3) acquiring the recommended resonance point information data for each voice information by referring to the lowest two frequencies F1 and F2 among the formant frequencies with reference to the frequency analysis.
  • the step (b) may include (b1) from the detected speech. Obtaining actual resonance point information data for the specific pronunciation object of the user; And (b2) respectively displaying the specific recommended resonance point information data and the actual resonance point information data stored corresponding to the specific pronunciation object at corresponding positions on the articulation organ in the image provided based on the first perspective direction. Processing the process to provide an image.
  • the articulation organs are n, and at least some of the articulation organs are stored with metadata for processing in different layers, and the user of the pronunciation learning support system is configured to perform the identification.
  • the image processing apparatus may provide an image by activating a layer corresponding to at least one specific articulation organ corresponding to the specific pronunciation target.
  • the pronunciation learning support system accesses a database managed by itself or an external database (a) (i) the pronunciation target for each pronunciation object Obtain at least a portion of the preparation data including information about the state of the space inside the oral cavity and the state of articulation organs before the utterance, and (ii) the intensity of the airflow flowing through the space inside the oral cavity during speech And at least some of recommended air flow information data including direction information and recommended resonance point information data including position information on articulation organs where resonance occurs when uttering a corresponding pronunciation, and (iii) the pronunciation target is uttered.
  • a process of providing ready oral image information by displaying information about the state and the state of articulation organs, and (ii) at least a portion of the specific recommended air flow information data and the specific recommended resonance point information data corresponding to the specific pronunciation target.
  • a process for providing vocal oral image information by displaying at least a portion of the space and articulation organs of the subject, (iii) the state of the space within the oral cavity contained in the specific subsequent data corresponding to the specific pronunciation object, and Process the process of displaying information about the condition to provide subsequent oral imaging information.
  • an information processing method of a pronunciation learning support system comprising providing an image.
  • the audio sensor managed by the pronunciation learning support system or an audio sensor linked thereto is 1) at the time of vowel pronunciation for each language, human gender, and age. Calculating a range in which resonance can occur in the oral cavity; (a2) calculating an average value of a range within which the calculated resonance can occur; And (a3) additionally obtaining information on vowel squareness through a process including setting a section with reference to the calculated average value, and in step (b),
  • the image processing apparatus may insert and provide a vowel squareness corresponding to the specific pronunciation target to at least some of the prepared oral image information, the vocal oral image information, and the subsequent oral image information. It features.
  • the step (a) may include: (a1) acquiring utterance information for each of a plurality of subjects by using a frequency analyzer such as the audio sensor; (a2) performing frequency analysis on the speech information obtained for each speech information; And (a3) acquiring the recommended resonance point information data for each voice information by referring to the lowest two frequencies F1 and F2 among the formant frequencies with reference to the frequency analysis.
  • the step (b) may be performed by (b1) the user from the detected speech. Acquiring actual resonance point information data for the specific pronunciation object; And (b2) the specific recommended resonance point information data and the actual resonance point information data stored corresponding to the specific pronunciation object are displayed at corresponding positions on the articulation organ using the image processing apparatus, respectively, so that the oral cavity image information is obtained. It characterized in that it comprises a step of providing an image by processing a process for providing.
  • the articulation organs are n pieces, and at least some of the articulation organs are stored with metadata for processing in different layers, and the user of the pronunciation learning support system is configured to perform the identification.
  • an image is provided by activating a layer corresponding to at least one specific articulation organ corresponding to the specific pronunciation target.
  • the pronunciation learning support system accesses a database managed by itself or an external database (a) pronunciation target of the target language and the target Recommended airflow information data including the intensity and direction information of the airflow flowing through the space inside the oral cavity when the reference language corresponding to the pronunciation target of the language is spoken, and on the articulation organ where resonance occurs when the pronunciation is spoken. Obtaining at least some of the recommended resonance point information data including the location information; And (b) a specific target language is selected among the target languages, a specific reference language is selected among the reference languages, a specific target language pronunciation target is selected among pronunciation targets of the specific target language, and a pronunciation target of the specific reference language is selected.
  • a process of displaying first specific recommended air flow information data corresponding to the specific target language pronunciation target in a space inside the oral cavity and a first specific recommendation corresponding to the specific target language pronunciation target At least one of the processes for displaying the resonance point information data at a specific location on the articulation organ using an image processing apparatus, and (ii) sending the second specific recommended air flow information data corresponding to the specific reference language pronunciation object within the oral cavity.
  • a process of displaying in the space and a second specific recommended ball corresponding to the specific reference language pronunciation object A method of processing information of a pronunciation learning support system, the method comprising: providing at least one of a process of displaying bright spot information data at a specific location on an articulation organ to provide an image using the image processing apparatus.
  • the step (b) may include: (b1) acquiring voice data from the utterance of the user of the pronunciation learning support system using an audio sensor; (b2) analyzing the acquired speech data to obtain a type of the reference language; And (b3) a plurality of subjects who have used the pronunciation learning support system among the at least one target language corresponding to the obtained reference language, select the most as a pair for the acquired reference language. And supporting the selection by providing the type of the top n target languages.
  • the step (b) may include (b1) acquiring voice data using an audio sensor from the utterance of the user of the pronunciation learning support system; (b2) analyzing the acquired voice data to obtain a type of the target language; And (b3) a plurality of subjects who have used the pronunciation learning support system among the at least one reference language corresponding to the obtained target language, select the most as a pair of the acquired target language. And supporting the selection by providing the type of the top n reference languages.
  • step (b) may include (b1). Obtaining actual resonance point information data for the specific pronunciation object of the user from the detected speech; And (b2) using at least one of the first specific recommended resonance point information data and the second specific recommended resonance point information data and the actual resonance point information data stored corresponding to the specific pronunciation target using an image processing apparatus. And processing the process of displaying each of the corresponding positions on the articulation organ to provide an image.
  • the articulation organs are n, and at least some of the articulation organs are stored with metadata for processing in different layers, and by the user of the pronunciation learning support system
  • a layer corresponding to the specific target language pronunciation target or the at least one specific articulation organ corresponding to the specific reference language pronunciation target is activated using an image processing apparatus. It characterized by providing an image.
  • the pronunciation learning support system recognizes a direction of a user's gaze or a face using the pronunciation learning support system when the image sensor included in or interlocked with it is referred to, referring to the recognized direction.
  • the image processing apparatus included in or linked to the pronunciation learning support system to process the image processing task to provide a pronunciation learning-related image in a state viewed from the determined first perspective direction, the user can easily perform professional language content of language learning.
  • the pronunciation learning support system may manage a database that includes or is accessible to the database, the database includes recommended information including the strength and direction information of the air flow flowing through the space inside the mouth when the pronunciation of the pronunciation for each pronunciation object At least a portion of the airflow information data and the recommended resonance point information data including the position information on the articulation organ in which resonance occurs when the voice is generated may be recorded, and the pronunciation learning support system may include the recommended airflow information recorded in the database.
  • the pronunciation learning support system may acquire speech information for each subject of a plurality of subjects and perform or support frequency analysis on the speech information obtained for each speech information.
  • the pronunciation learning support system may include or be interlocked with a frequency analysis device which is a kind of audio sensor, and the frequency analysis device may extract F1 and F2, which are the lowest two frequencies of the formant frequencies, and thus may be extracted.
  • F1 and F2 frequency values By using the obtained F1 and F2 frequency values, the recommended resonance point information data is acquired for each voice information, and the obtained data is recorded on the database, so that a user using the pronunciation learning support system is very rational and accurate.
  • Information by pronunciation target There are number of effects that can assist you.
  • the pronunciation learning support system may include or be linked to an audio sensor in order to detect a user's utterance of a specific pronunciation target, and the actual resonance point information data of the user's specific pronunciation target using the audio sensor.
  • the specific resonance point information recorded in the database may be obtained by operating the image processing apparatus when the actual resonance point information data is displayed at a corresponding position on the articulation organ in the image provided based on the first perspective direction.
  • the data may be distinguished and displayed at a corresponding position on the articulation organ in the image provided based on the first perspective direction, and thus, the user may record the actual resonance point information according to his / her pronunciation and the recommended resonance point information recorded in the database. Easy comparison at a glance The effect is that you can.
  • the image processing apparatus may refer to metadata in order to process at least some of the articulation organs in different layers, and the metadata may be directly included in the image processing apparatus or managed by accessing a predetermined database.
  • the user of the pronunciation learning support system activates only the articulatory organs used for the utterance of a specific pronunciation target pronounced by the user so that the user can be included in the image to enhance the user's interest and the effect of language learning. There is an effect.
  • the image processing apparatus included in or linked to the pronunciation learning support system includes (i) the state of the space inside the oral cavity and the articulation organ included in the specific preparation data corresponding to the specific pronunciation object.
  • a process of providing vocal oral image information by displaying at least a portion of the image on the image; (iii) information on the state of the space inside the oral cavity and the state of articulation organs included in specific subsequent data corresponding to the specific pronunciation object Display the image by processing the process of providing subsequent oral image information.
  • the pronunciation learning support system includes at least some of the preparation data including information on the state of the space inside the oral cavity and the state of articulation organs before the pronunciation object is uttered for each pronunciation object from a database included in or accessible to the user. And (ii) recommending airflow information data including the strength and direction information of the airflow flowing through the space inside the oral cavity during speech, and location information on articulation organs where resonance occurs during speech. Acquire at least some of the recommended resonance point information data including; and (iii) obtain at least some of subsequent data including information about the state of the space within the oral cavity and the state of the articulation organ after the pronunciation object is spoken.
  • an audio sensor may be included or interlocked with the audio sensor for calculating a range that may occur, wherein the audio sensor may calculate an average value of the range in which the calculated resonance may occur, and the predetermined section is referred to with reference to the calculated average value.
  • the image processing apparatus supports the generation of vowel squares based on the partition information and includes them in the image, thereby providing the user with the exact location of the resonance. The effect is that you can receive professional information accurately.
  • the pronunciation learning support system may acquire speech information for each subject of a plurality of subjects and perform or support frequency analysis on the speech information obtained for each speech information.
  • the pronunciation learning support system may include or be interlocked with a frequency analysis device which is a kind of audio sensor, and the frequency analysis device may extract F1 and F2, which are the lowest two frequencies of the formant frequencies, and thus may be extracted.
  • F1 and F2 frequency values By using the obtained F1 and F2 frequency values, the recommended resonance point information data is acquired for each voice information, and the obtained data is recorded on the database, so that a user using the pronunciation learning support system is very rational and accurate. Information by pronunciation target And there is an effect that can be heard.
  • the pronunciation learning support system may include or be linked with an audio sensor to detect a user's utterance on a specific pronunciation target, and obtain actual resonance point information data on the user's specific pronunciation target using the audio sensor.
  • An image processing apparatus is operated when the actual resonance point information data is displayed at a corresponding position on the articulation organ in the image, thereby comparing the specific recommended resonance point information data recorded in the database to the corresponding position on the articulation organ in the image. By distinguishing and displaying, the user can easily compare the actual resonance point information according to his pronunciation with the recommended resonance point information recorded in the database at a glance.
  • the image processing apparatus may refer to metadata in order to process at least some of the articulation organs in different layers, and the metadata may be directly included in the image processing apparatus or managed by accessing a predetermined database.
  • the user of the pronunciation learning support system activates only the articulatory organs used for the utterance of a specific pronunciation target pronounced by the user so that the user can be included in the image to enhance the user's interest and the effect of language learning. There is an effect.
  • the image processing device included in or linked to the pronunciation learning support system (i) displays the first specific recommended air flow information data corresponding to the specific target language pronunciation target in the space inside the oral cavity And at least one of a process of displaying first specific recommended resonance point information data corresponding to the specific target language pronunciation target at a specific position on the articulation organ, and (ii) a second correspondence to the specific reference language pronunciation target.
  • the pronunciation learning support system may acquire speech information for each subject of a plurality of subjects and perform or support frequency analysis on the speech information obtained for each speech information.
  • the pronunciation learning support system may include or be interlocked with a frequency analysis device which is a kind of audio sensor, and the frequency analysis device may extract F1 and F2, which are the lowest two frequencies of the formant frequencies, and thus may be extracted.
  • F1 and F2 frequency values By using the obtained F1 and F2 frequency values, the recommended resonance point information data is acquired for each voice information, and the obtained data is recorded on the database, so that a user using the pronunciation learning support system is very rational and accurate.
  • Information by pronunciation target There is an effect that can support and help you to listen.
  • the pronunciation learning support system may include or be linked with an audio sensor to detect a user's utterance on a specific pronunciation target, and obtain actual resonance point information data on the user's specific pronunciation target using the audio sensor.
  • the image processing apparatus may be operated when the actual resonance point information data is displayed at a corresponding position on the articulation organ in the image provided based on the first perspective direction, thereby operating specific recommended resonance point information data recorded in the database.
  • the image processing apparatus may refer to metadata in order to process at least some of the articulation organs in different layers, and the metadata may be directly included in the image processing apparatus or managed by accessing a predetermined database.
  • the user of the pronunciation learning support system activates only the articulatory organs used for the utterance of a specific pronunciation target pronounced by the user so that the user can be included in the image to enhance the user's interest and the effect of language learning. There is an effect.
  • FIG. 1 is a diagram illustrating an exemplary configuration of a pronunciation learning support system according to the present invention.
  • FIG. 2 is a diagram of another exemplary embodiment of the pronunciation learning support system of the present invention.
  • FIG. 3 is a diagram illustrating an exemplary configuration of a pronunciation learning support DB unit of a pronunciation learning support system of the present invention.
  • FIG. 4 is a diagram illustrating an exemplary information processing method of the 3D image information processing module of the pronunciation learning support system according to the present invention.
  • FIG. 5 is a diagram illustrating an exemplary information processing method of a 3D image information processing module of a pronunciation learning support system of the present invention for providing first and second 3D image information.
  • FIG. 6 is a diagram illustrating an exemplary information processing method of a 3D image information processing module of a pronunciation learning support system of the present invention that receives control information and provides 3D image information corresponding to the control information.
  • FIG. 7 is a diagram illustrating an exemplary information processing method of a 3D image information processing module of the pronunciation learning support system of the present invention that receives perspective direction selection information and provides 3D image information corresponding to the perspective direction.
  • FIG. 8 is a diagram illustrating an exemplary information processing method of a 3D image information processing module of a pronunciation learning support system of the present invention that receives layer selection information for each articulation organ and provides 3D image information corresponding to a layer of the articulation organ. .
  • FIG. 9 is a diagram illustrating an exemplary information processing method of a 3D image information processing module of a pronunciation learning support system of the present invention for processing audio information obtained from a user.
  • 10 to 12 are exemplary images included in constructing the first three-dimensional image information of the present invention as long as provided with respect to [p] based on the exemplary first perspective direction.
  • FIG. 13 to 14 are diagrams illustrating an intermediate step between providing a first 3D image and providing a second 3D image, in which the perspective direction is continuously changed.
  • 15 to 17 are exemplary images included in constructing second 3D image information of the present invention provided based on an exemplary second perspective direction with respect to [p].
  • 18 to 20 are exemplary images included in constructing another second 3D image information of the present invention provided based on an exemplary third perspective direction with respect to [p].
  • 21 to 23 are exemplary images included in constructing another second 3D image information of the present invention provided based on the fourth exemplary viewing direction with respect to [p].
  • 24 to 26 are exemplary embodiments of images included in constructing three-dimensional image information of the present invention integratedly provided based on four exemplary perspective directions with respect to [p].
  • 27 to 29 are exemplary embodiments included in constructing the first 3D image information of the present invention as long as they are provided with respect to the half assortment [w] based on the exemplary first perspective direction.
  • 30 to 32 are exemplary images included in constructing second three-dimensional image information of the present invention provided based on an exemplary second perspective direction for a half vowel [w].
  • 33 to 34 are diagrams illustrating results of exemplary information processing of the 3D image information processing module of the pronunciation learning support system of the present invention, in which resonance point information and recommended resonance point information of the present invention are compared and provided.
  • 35 is a diagram illustrating an exemplary configuration of an oral image information processing module of the pronunciation learning support system of the present invention for providing oral image information.
  • FIG. 36 is a diagram illustrating an exemplary information processing method of an oral image information processing module of a pronunciation learning support system of the present invention for providing oral image information on a pronunciation target.
  • FIG. 37 is a diagram illustrating an exemplary information processing method of the oral cavity image information processing module of the pronunciation learning support system of the present invention providing oral image information corresponding to the control information on the obtained oral image.
  • FIG. 38 is a diagram illustrating an exemplary information processing method of the oral cavity image information processing module of the pronunciation learning support system of the present invention providing oral image information corresponding to the obtained pronunciation support visualization means.
  • FIG. 39 is a diagram illustrating an exemplary information processing method of the oral cavity image information processing module of the pronunciation learning support system of the present invention that provides oral image information corresponding to the obtained layer selection information for each articulation organ.
  • FIG. 40 is a diagram illustrating an exemplary information processing method of an oral cavity image information processing module of the pronunciation learning support system of the present invention for processing audio information obtained from a user.
  • FIG. 41 is a view illustrating a result of an oral cavity image information processing module of the pronunciation learning support system according to the present invention, which is provided to the oral cavity image information when the oral cavity image information is requested for phoneme [ch]. Drawing.
  • FIG. 46 illustrates a result of an embodiment of an oral image information processing module of the pronunciation learning support system according to the present invention, which is provided as subsequent oral image information with respect to the friction sound when it is requested to provide oral image information about a phoneme [ch]. Drawing.
  • FIG. 47 illustrates a result of an embodiment of an oral image information processing module of the pronunciation learning support system of the present invention, which is provided with the prepared oral image information of the phoneme when it is requested to provide oral image information on a phoneme [ei].
  • FIGS. 48 to 50 are diagrams illustrating an oral cavity image information processing module of a pronunciation learning support system according to an embodiment of the present invention, which is provided when the oral cavity image information is provided for a phoneme [ei], when the oral cavity image information is provided to the phoneme. It is a figure regarding a result.
  • FIG. 51 illustrates a result of an embodiment of the oral cavity image information processing module of the pronunciation learning support system of the present invention, which is provided to the phoneme as subsequent oral image information when it is requested to provide oral image information about a phoneme [ei]. Drawing.
  • FIG. 52 is an exemplary image of vocal vocal image data 1441 indicating vocal vocal cords and a vocal oral cavity image information to which a waveform image is additionally provided when there is a vocal vocal cord.
  • FIG. 53 is a diagram illustrating an exemplary result of preparatory oral image information processing of the oral image information processing module of the pronunciation learning support system according to the present invention including a vowel square image.
  • FIG. 54 is a diagram illustrating an exemplary result of vocal oral image information processing of the oral image information processing module of the pronunciation learning support system according to the present invention including a vowel square image.
  • FIG. 55 is a voice oral image of the oral image information processing module of the pronunciation learning support system of the present invention in which user voice resonant point information (asterisk) is displayed by processing user voice information and processing F1 and F2 of user voice information.
  • 1 is a diagram of an exemplary result for information processing.
  • 56 to 59 are diagrams illustrating exemplary results of processing the oral cavity image information of the oral cavity image information processing module of the pronunciation learning support system of the present invention in which muscle tension display means is reflected among the constituent image information. .
  • FIG. 60 is a diagram illustrating an exemplary configuration of a mapping pronunciation learning support module of the pronunciation learning support system of the present invention that supports learning about pronunciation of a target language in comparison with pronunciation of a reference language.
  • FIG. 61 is a diagram illustrating an exemplary information processing method of a mapping pronunciation learning support module of a pronunciation learning support system of the present invention that supports learning about pronunciation of a target language in comparison with pronunciation of a reference language.
  • FIG. 62 is a diagram illustrating an exemplary information processing method of a mapping pronunciation learning support module of a pronunciation learning support system of the present invention for searching and processing reference language pronunciation object information mapped to obtained target language pronunciation object information.
  • FIG. 63 is a view illustrating exemplary mapping pronunciation learning support module of a pronunciation learning support system of the present invention that provides reference language pronunciation response oral image information, target language pronunciation response oral image information, and target-reference comparison information with reference to control information.
  • FIG. It is a figure regarding a processing method.
  • FIG. 64 is a diagram illustrating an exemplary information processing method of a mapping pronunciation learning support module of a pronunciation learning support system of the present invention providing user-target-reference comparison image information including user-target-reference comparison information.
  • FIG. 65 is a diagram illustrating a mapping process module among multiple languages of a pronunciation learning support system of the present invention, in which reference language pronunciation corresponding oral image information of a reference language pronunciation target for a reference language [i] corresponding to a target language [i] is displayed;
  • FIG. 66 is a pronunciation learning support system according to the present invention in which the pronunciation target oral image information for the target language [i] and the reference language pronunciation oral image information for the reference language [i] corresponding to the target language [i] are displayed together.
  • 1 is a diagram illustrating an exemplary result of information processing of a plurality of language mapping processing modules.
  • FIG. 67 is a diagram illustrating mapping between a plurality of languages of a pronunciation learning support system of the present invention in which reference language pronunciation corresponding oral image information of a reference language pronunciation target for a reference language [word] corresponding to a target language [ ⁇ ] and [:] is displayed.
  • 1 is a diagram of an exemplary result of information processing of a processing module.
  • FIG. 68 is a pronunciation learning support system according to the present invention in which the pronunciation target oral image information corresponding to the target language [ ⁇ ] and the reference language pronunciation corresponding oral image information for the reference language [word] corresponding to the target language [ ⁇ ] are displayed together.
  • 1 is a diagram illustrating an exemplary result of information processing of a plurality of language mapping processing modules.
  • FIG. 69 shows both the pronunciation target corresponding oral image information of the target languages [ ⁇ ] and [:] and the reference language pronunciation corresponding oral image information of the reference language [word] corresponding to the target languages [ ⁇ ] and [:].
  • 1 is a diagram of an exemplary result of information processing of a plurality of language mapping processing modules of the pronunciation learning support system of the present invention.
  • 70 to 73 are diagrams illustrating exemplary results of information processing of a plurality of language mapping processing modules of the pronunciation learning support system according to the present invention to which the present invention concept for consonants is applied.
  • the pronunciation learning support system 1000 of the present invention may exchange information with at least one user terminal 2000 through a wired / wireless network 5000, and support pronunciation learning for a user.
  • the user terminal 2000 is an object for exchanging functions and services of the pronunciation learning support system 1000 from the standpoint of the pronunciation learning support system 1000.
  • a PC and a smart phone are provided to the user terminal 2000.
  • third-party systems are not excluded.
  • the third system may receive information from the pronunciation learning support system 1000 of the present invention and transmit the information to the terminal of the person receiving the service.
  • a dedicated program or a specific software is installed in the user terminal 2000, it is a matter of course that the dedicated program or software can be carried out the invention idea while exchanging information with the pronunciation learning support system 1000.
  • the pronunciation learning support system 1000 may be driven in the user terminal 2000.
  • the pronunciation learning support system 1000 may be executed in a dedicated terminal for the pronunciation learning support system 1000 or a dedicated program or specific software installed in the pronunciation learning support system 1000.
  • the dedicated program or the specific software may receive the latest service or updated content from the pronunciation learning support system 1000 through the wired / wireless network 5000.
  • the pronunciation learning support system 1000 uses a 3D image information processing module 1100 for processing 3D panoramic image information for pronunciation learning, an oral image information processing module 1200 for processing oral image information, and a heterogeneous language. It may include any one or more of the mapping pronunciation learning support module 1300 to support pronunciation learning.
  • the pronunciation learning support system 1000 may include a pronunciation learning support DB unit 1400 including various DBs and data for supporting pronunciation learning.
  • the pronunciation learning support DB unit 1400 is responsible for the input and output unit 1600 and the physical communication function to perform information exchange function with the user terminal 2000 or the third system connected to the wired or wireless network 5000. It includes a communication support unit 1800, and includes a variety of functional modules for normal information processing with a physical device for providing a server or other conventional computing functions.
  • the pronunciation learning support system 1000 may include a unit information or a specialized information processing unit 1700 for processing a connection unit for generating a combined image by combining images constituting the image and specialized information.
  • the 3D image information processing module 1100 may include a 3D image information DB 1110 including 3D image information data, a 3D image mapping module 1120 for processing 3D image mapping, and a user input based 3. And a panoramic image providing module 1140 for providing a panoramic image to a display device of the user terminal 2000 or the user terminal 2000.
  • the 3D image information DB 1110 includes 3D image information data 1111 for each pronunciation target, 3D image information data 1112 for each perspective direction for each pronunciation target, and / or integrated 3D image information data 1113. There may be.
  • the 3D image mapping processing module 1120 may include a 3D image mapping processor 1121 for mapping 3D image information for each pronunciation target and 3D image mapping relationship information data 1122 for each pronunciation target.
  • the oral cavity image information processing module 1200 may include an oral cavity image information DB 1210 that provides oral image information, an oral cavity image providing module 1220 that provides oral image information, and processes oral image information by receiving a user input. It may include a user input-based oral image processing unit 1230 and oral image information providing module 1240 for providing oral image information.
  • the oral cavity image information DB 1210 may include prepared oral image information data 1211 for each pronunciation target, oral image information data 1212 for each pronunciation target, subsequent oral image information data 1213 for each pronunciation target, and / or integrated oral image information for each pronunciation target. It may include any one or more of the data 1214.
  • the oral cavity image providing module 1220 may include any one or more of the oral cavity image coupling provider 1221 or the integrated oral image providing unit 1222.
  • the mapping pronunciation learning support module 1300 may include a mapping language image information DB 1310 storing mapping language image information between heterogeneous languages for pronunciation learning, and a plurality of language mapping processing modules for performing a mapping process between languages. 1320, a mapping language image information providing controller 1330 for controlling the provision of the mapping language image information, and a user input based mapping language image processor 1340 which processes the mapping language image information based on information input by the user. There may be.
  • the mapping language image information DB 1310 may include target language pronunciation corresponding oral image information data 1311, reference language pronunciation corresponding oral image information data 1312, target-reference comparison information data 1313, and integrated mapping language image information data. It may include any one or more of (1314).
  • the multi-language mapping processing module 1320 includes a plurality of language mapping processing units 1321 for processing mapping information between a plurality of languages and mapping relationship information data for each language between the plurality of pronunciation objects, which store mapping information between a plurality of languages for each pronunciation target. It may include any one or more of.
  • the pronunciation learning support DB unit 1400 includes various data for supporting pronunciation learning of the inventive concept.
  • the pronunciation learning support DB unit 1400 includes pronunciation learning object data 1410 storing a pronunciation learning object, articulation engine image data 1420 storing an image of an articulation organ, and an airflow display storing an airflow display image.
  • Articulation position information data (1470) storing articulation position information
  • vocal cord ringing image data (1481) storing vocal cord ringing image information
  • vowel rectangular image data 1482 storing vowel rectangular image information.
  • the contact corresponding image data 1483 storing the contact corresponding image information and the muscle tension display image data 1484. And any one or more of the muscle tension display image data (1484), which may contain.
  • the pronunciation learning object data 1410 includes information on phonemes, syllables, words, and word strings, which are objects of pronunciation learning.
  • the phoneme may include not only a phonetic symbol associated with a language targeted for pronunciation learning, but also a phonetic symbol associated with a language targeted for reference.
  • a syllable is formed by using one or more phonemes, and the word or word string may also be prepared through linear combination of phonemes.
  • the phoneme and syllable may correspond to the spelling or spelling of the language that is the object of pronunciation learning, and the corresponding spelling or spelling also forms the information of the pronunciation learning object data 1410.
  • words and word sequences phrases, clauses, and sentences
  • spelling and corresponding pronunciation symbols or pronunciation symbol sequences may also be important components of the pronunciation learning target data 1410. .
  • the articulation organ image data 1420 includes image data of the articulation organ.
  • the first is image data for each articulation organ for a particular pronunciation object.
  • Articulatory organs include the tongue, lips, mouth, teeth, vocal cords, nose, etc. When a particular pronunciation is made, one or more of these articulators may change in shape (visually perceived shape, tension, muscle movement, etc.). have.
  • the image data for each articulation organ refers to a time series image (video image) in which movement of the articulation organ for a specific pronunciation occurs.
  • the image data for each of the articulation organs may be layered for each articulation organ, and may be provided to the user by overlapping each layer for a specific pronunciation.
  • the user may want to concentrate on only the movement of a specific articulation organ such as the tongue for further learning by articulation organ.
  • the layer processing should be provided to the user only the layer related to the movement of the tongue, and the other layers may be provided together, but only special processing of the tongue (a distinct color, boundary, or other highlighting process) may be performed.
  • the specially processed layer may be combined with another existing layer and provided to the user terminal 2000.
  • the layer information processing is performed by the layer processor 1510 of the image combiner 1500 of the present invention.
  • synchronization processing with other articulation organ images is important, and this synchronization processing is performed by the synchronization processing unit 1520.
  • the single image for each pronunciation object includes an image image in which all articulation organs for pronunciation of the pronunciation object or essential or necessary articulation organs that need to be visually provided are displayed.
  • at least one articulation engine image data 1420 may be included for one articulation organ. In particular, this is even more so when a video image of a pronunciation target is provided as a panoramic image to be described later.
  • the articulation image data 1420 may be mapped and stored for each sound object.
  • the airflow display image data 1430 includes an image corresponding to a change in airflow corresponding to the flow of air, the intensity, the compression, and the release of the air generated in the articulator for learning the pronunciation.
  • the airflow display image data 1430 may be different for each pronunciation target, or may share specific airflow display image data 1430 for each pronunciation target.
  • the airflow display image data 1430 may be mapped and stored for each sound object.
  • the facial image data 1440 is data necessary for providing a facial image when the pronunciation is performed for each pronunciation object.
  • the facial image data 1440 is used to help accurate and efficient pronunciation learning by providing various changes occurring in the face, such as opening and closing of the oral cavity and changes in facial muscles as the pronunciation progresses.
  • the face image data 1440 may be provided by itself when a specific pronunciation learning is performed, but may be provided incidentally, in parallel, or sequentially after another image.
  • the auditory information data 1450 for each pronunciation object is sound or speech data that can be perceived auditoryly for each pronunciation object. Multiple sounds or vocals may be mapped to one utterance object. Since the sound to be pronounced may sound differently to the user depending on the tone, gender, age, etc., it is preferable that a plurality of voices are mapped to one sound object in order to sound familiar to the user.
  • the user may transmit selection information about a desired characteristic (for example, a woman, a transformer, a clear tone) to the pronunciation learning support system 1000 (for this purpose, the user of the pronunciation learning support system 1000).
  • the selection information providing request unit 1610 may provide the user terminal 2000 with the characteristic information of the speech sound that the pronunciation learning support system 1000 can provide.), The pronunciation learning support system 1000 You will be able to proceed to pronunciation pronunciation with a sound that meets these characteristics. In this case, synchronization between the uttered sound and the image mapped to the pronunciation target is necessary, which is performed by the synchronization processor 1520 of the present invention.
  • the utterance may be coupled to an image mapped with the pronunciation target. In this case, if the image mapped to the pronunciation target is generated for each possible combination of the characteristics of the selectable speech sounds, the speech sound corresponding to the characteristics selected by the user may be provided.
  • the resonance point information data 1460 of the present invention stores resonance point information for a pronunciation target in which resonance occurs.
  • the resonance point information includes resonance point position information in the articulation organ in which resonance occurs and resonance point display image data 1541 that can visually recognize the resonance point. Since the resonance point position information may be visually recognized according to the oral cavity image position coordinates, absolute position information is secured for each oral cavity image or relative position information is stored. On the other hand, the position of the resonance point may be changed according to the progress of pronunciation (in continuous pronunciation of vowels or words, etc.).
  • the image combiner 1500 may perform a function of combining the variation of the resonance point position information with the oral cavity image when the resonance point position information is stored according to the passage of the speech time for each pronunciation target.
  • the fluctuation of the resonance point may be processed on an independent layer for displaying the resonance point.
  • the layer processing is performed by the layer processing unit 1510 of the present invention
  • the synchronization is performed by the synchronization processing unit 1520 of the present invention. do.
  • resonance since resonance may occur for a predetermined time or more during speech, continuous resonance display using resonance point display image data 1541 is visually performed at the resonance point while resonance occurs when providing image information of the pronunciation target.
  • a single image including a resonance display using the resonance point display image data (1461) for the pronunciation object that the resonance occurs may be generated.
  • the resonance point display image data 1462 may be visually recognized by the user while a single image generated through the user terminal 2000 is provided.
  • the voice energy generated due to spontaneous vocal cords passes through the oral cavity, causing the maximum amplitude to the resonance frequency within the oral cavity, i.e., through resonance display means in the image constituting the video during the time or period of resonance.
  • resonance display means which is one of the most important means of the pronunciation support visualization method
  • users can synchronize with the position of the tongue during the video playback and the position of the tongue during the pronunciation of each phoneme. This allows the learner to recognize and predict not only the location in the oral cavity, but also where the tongue rings (resonance is occurring).
  • Sonorants are sounds that flow as air flows through the oral cavity or nasal cavity.
  • the words spoken against obstruents typically include vowels, half vowels [w, j, etc.], and vowels [m, n, ng] for each language.
  • the majority of these resonators, except for the half vowels, can form independent syllables (minimum chunks of sounds that make meaning) within words (vowels, nasal notes, vowels), so they are inaccurate in language learning.
  • One pronunciation can cause errors in cognition, such as distortion, assimilation, substitution, and omission of certain phonologies, so it is stable by precise phonetic position control and accurate utterance of each phoneme. When resonance occurs, it can clearly convey meaning.
  • the resonance points of the F1 F2 formant frequencies are all vowels in each language, Korean waue wee yay, English [w, j], or French semivowels, and dark 'l' in the voice.
  • the variation of the position of the resonance point in the oral cavity which is calculated by the ratio of F1 and F2, It has a steady value that allows the display to be accurate enough for the learner to perceive visually.
  • the location of the resonance point exactly matches the surface of the tongue at a particular location during each phonetic pronunciation, it is more effective in visually recognizing these parts and mimicking the phonetic pronunciation of such resonant sounds with the learner's voice. .
  • the mark on the resonance point of each vowel pronunciation is analyzed based on the existing research papers that analyzed the ratio of the two frequencies when the lowest one of the formant frequencies is F1 and F2.
  • the average value of the frequency band where the resonance occurs on the surface of the specific position of the tongue in the oral cavity of the 3D simulated image, which is created to predict the location where the resonance occurs, is converted to the average value of the radiometric marker to reproduce the sound of the speech signal in the video. Synchronize so that it can be displayed simultaneously from the starting point and mark the location of the tongue where resonance occurs in the oral cavity.
  • articulation position information data 1470 of the present invention articulation position information is stored for a pronunciation target.
  • the articulation position information includes articulation position information in the articulation organ and articulation position indication image data 1471 capable of visually recognizing the articulation position. Since the articulation position information may vary visually recognized position coordinates according to the oral cavity image, absolute position information is secured for each oral cavity image or relative position information is stored.
  • the position of the articulation may be changed according to the progress of the pronunciation (in a continuous consonant or pronunciation of a word, etc.) In this case, the articulation position fluctuating with the progress of the pronunciation needs to be synchronized.
  • the image combiner 1500 may perform a function of combining the variation of the articulation position information with the oral cavity image when the articulation position information according to the passage of the speech time is stored for each pronunciation target.
  • the variation of the articulation position may be processed on an independent layer for displaying the articulation position, in which case the layer processing is performed by the layer processing unit 1510 of the present invention, and the synchronization is performed by the synchronization processing unit 1520 of the present invention. do.
  • continuous articulation position display using the articulation position display image data 1471 is visually displayed at the articulation position when providing the image information of the pronunciation target. It would be desirable to remain perceivable. Meanwhile, a single image including the articulation position indication using the articulation position indication image data 1471 for the pronunciation target may be generated.
  • the articulation position indication image data 1471 may be visually recognized by the user while a single image generated through the user terminal 2000 is provided.
  • the 3D image information processing module 1100 is requested to provide 3D image information for the pronunciation target (S1-11), and provides first 3D image information (S1-12). And provide at least one piece of second 3D image information (S1-13).
  • Both the first 3D image information and the second 3D image information are dynamically fluctuated images (videos are examples, and such fluctuations are stepwise changes or fluctuations in a predetermined time unit or smooth continuous fluctuations such as moving images).
  • the video includes an articulation organ display, a resonance point display or an articulation position display, an air flow change display, an vocal fold display, a contact region display, and the like, which are associated with a pronunciation object, All of the shapes can be visually recognized, such as shape, size, or shape as the vocalization progresses.
  • the first three-dimensional image information provides three-dimensional image information related to one perspective direction until preparation, start and end of utterance for one utterance object.
  • Perspective direction may be a planar angle such as front and rear, left and right, etc., but at a solid angle (including up and down, viewing angle of origin at (1,1,1) on stereo coordinates or at (1,2 / 3, 1/3)
  • Perspective angle of view and the like may be an example of a solid angle).
  • the first three-dimensional image information of the present invention is provided at a specific first solid angle with respect to [p]. It is preferable that the first 3D image information is provided as a smooth video, but in the specification of the present invention, it is expressed in a stepwise or stepwise manner due to the limitation of the description, but it should be understood that it may be provided as a smooth continuous change. will be.
  • FIG. 10 is an image provided for the first time when trying to start [p] sounding.
  • the lips, the tongue, and the palate which are the articulation organs utilized for [p] pronunciation, can be used in three dimensions, and other articulation organs that are irrelevant are excluded.
  • the internal image of the articulation organ such as the tongue or the inside of the lips, which is a big feature of the present invention, is used. This is not achievable with the display of planar two-dimensional images.
  • FIG. 10 it can be seen that there is a small arrow between the tongue and the inner lips, the small arrow is an image display means corresponding to the air flow change.
  • FIG. 11 it can be found that the size of the image display means corresponding to the air flow change in the same image is large.
  • FIG. 12 it can be seen that the image display means corresponding to the air flow change is displayed by three small arrows facing radially with the lips open.
  • the shape of the lips of the tongue should also be shaped in three dimensions, especially by using the internal image of the articulation organ (which should keep the tip of the tongue bent downward and the center of the tongue flat). It is possible to confirm whether a rupture sound [p] can be produced.
  • FIG. 13 to 14 are diagrams illustrating an intermediate step between providing a first 3D image and providing a second 3D image, in which the perspective direction is continuously changed.
  • FIG. 15 to 17 show the flow and fluctuations of the airflow and the movement of the articulation organ for [p] sounding in another perspective direction (lateral direction).
  • FIG. 16 shows that the airflow display image 111 is the largest and the lips are firmly shut in the state where the movement of the tongue remains unchanged, which compresses the air before bursting in a manner that ruptures the [[p] sound. Is showing. This will be an example of the combined effect of the three-dimensional image and the air flow display image 111 of the internal articulation organ of the present invention in pronunciation learning.
  • FIGS. 19 and 20 show only the three-dimensional image of the internal articulation organ without any image portion of the external articulation organ observed from the outside, and the three-dimensional image and the airflow display image 111 of the internal articulation organ of the present invention. Another good example of the coupling effect. As shown in FIGS. 19 to 20, the present invention effectively presents a phenomenon occurring in the oral cavity through a three-dimensional image and an airflow display image to produce a specific pronunciation.
  • FIGS. 21-23 show the movement of the articulation organ and the flow or fluctuation of airflow for [p] sounding in another perspective direction (rear direction).
  • the pronunciation learning support system 1000 combines n (n> 1, n is a natural number) images from a first 3D image, which has been selectively provided, to an n 3D image, so as to appear on one screen.
  • n three-dimensional images can be provided at a time to check the motion of the articulation organ for the sound. 24 to 26 it can be seen that n three-dimensional images are provided at once.
  • the pronunciation learning support system 1000 of the present invention generates one integrated three-dimensional image file to sequentially provide the images of FIGS. 10 to 23 or 10 to 26. It may be stored in 1113 and then provided to the user terminal 2000. Meanwhile, the 3D image information processing module 1100 stores and stores each of the nth 3D images provided in each perspective direction into n image files, and then sequentially stores the 3D images according to the selection sequentially or according to a user's selection. Only dimensional image information may be provided.
  • the pronunciation learning support system 1000 generates 3D image information about a plurality of perspective directions, and then adds the 3D image information data 1112 to each perspective direction for each pronunciation target.
  • the control information may be obtained from the user terminal 2000, and the 3D image information corresponding to the control information may be provided.
  • the 3D image information processing module 1100 may receive control information for providing a 3D image (S1-21) and provide 3D image information corresponding to the control information (S1-22).
  • Control information includes perspective direction, playback speed (normal speed, 1 / n times, n times, n is a natural number), selection of articulation organs to be shown or articulation organs to be emphasized, indication of resonance points or articulation positions, airflow It may be the presence or absence of a mark, a display method, a pronunciation object (a phoneme, a syllable, a word, and / or a word string).
  • the user selection information providing request unit 1610 of the input / output unit 1600 presents a list of selectable control information to the user terminal 2000 and obtains control selection information of the user through the user selection information obtaining unit 1620. Next, 3D image information corresponding to the control selection information of the user may be obtained and provided.
  • Representative control information will be the perspective direction, which is well illustrated in FIG. 7.
  • the 3D image information processing module 1100 obtains selection information on at least one viewing direction desired by the user terminal 2000 (S1-31) and corresponds to the viewing direction. 3D image information may be obtained (S1-32), and 3D image information corresponding to the perspective direction may be provided (S1-33).
  • the 3D image information processing module 1100 obtains selection information on the layer for each articulation organ (S1-41), and selects a layer for each selected articulation organ. It may be able to provide three-dimensional image information for (S1-42).
  • FIG. 27 to FIG. 29 show first 3D image information for a half vowel [w]
  • FIGS. 30 to 32 show second 3D image information.
  • 26 to 32 it can be seen that there are indications for resonance points, airflow indications, and contact indications.
  • a resonance point is indicated in the middle of the tongue, and the airflow mark is laterally passed around the resonance point. Scattered and the front of the tongue should stick to the palatal ceiling.
  • the palatal and adhering part (palate contact site display image 114) is treated with a shade (dark color), unlike other parts of the tongue (the shaded part is the palatal contact area) It is a display image 114.)
  • the resonance point-corresponding images (resonance points are indicated by circular points and spreading ringing marks around the resonance points) are generated. It can be seen that it is maintained continuously.
  • the resonance point display image and the air flow display image 111 for accurate utterance are supported so as to effectively learn the accurate synchronization with the progress of the utterance.
  • the panorama image providing module 1140 of the 3D image information processing module 1100 performs a function of providing a 3D image as shown in FIG. 10 to FIG. 32 to the user terminal 2000 while changing the perspective direction. .
  • the 3D image information processing module 1100 of the present invention may obtain voice information about the same pronunciation target from a user and derive location information on a common point from the obtained voice information. Deriving the resonance point position information for the user input utterance is well shown in Korean Patent Application Publication No. 10-2012-0040174, which is the prior art of the applicant.
  • the frequency analysis of the user's speech information is performed, using F1 and F2, which are the lowest two of the formant frequencies, as F1 as the y coordinate and F2 as the x coordinate (F2, F1). Shows that we can determine the position of the resonance point.
  • the 3D image information processing module 1100 obtains voice / voice information of a user for a pronunciation target (S1-51), and user resonance point information (resonance) in the voice / voice information of the user. Location information of the point and resonance holding time information, etc.) (S1-52), and process the user resonance point information to be included in the 3D image (S1-53), and the user (voice) resonance point information and the recommended resonance point.
  • a process of providing 3D image information including information (S1-54) is performed. Generation of resonance point information is performed by the resonance point generator 1710 of the present invention.
  • FIG. 33 and 34 illustrate that resonance point information and recommended resonance point information of the present invention are compared and displayed.
  • the resonance point information generated by the resonance point generator 1710 may be reflected in a 3D image in a star shape.
  • FIG. 33 it is visually suggested that the user resonance point is located to the left above the recommended resonance point, thereby contributing intuitively to the user's pronunciation correction.
  • FIG. 34 shows that the user resonance point disappears and only the recommended resonance point is maintained.
  • 34 shows that the user resonance point is not continuously maintained to the user, so that the user can intuitively feel the learning point of continuing the resonance holding time for accurate pronunciation.
  • the 3D image information data 1111 for each pronunciation target of the 3D image information DB 1110 includes 3D image information data for each pronunciation target, and 3D image information data 1111 for each pronunciation target. ) Includes the 3D image information in all perspective directions.
  • the 3D image information included in the 3D image information data 1112 according to the perspective direction for each pronunciation target includes separate 3D image information for each perspective direction.
  • the 3D image information included in the 3D image information data 1112 according to the perspective direction for each pronunciation target is used.
  • the three-dimensional image information included in the integrated three-dimensional image information data 1113 includes various three-dimensional images (integration by perspective direction, integration by tone, integration by articulation organs, integration by playback speed, etc.) for each pronunciation object. It is characteristic that it exists.
  • the 3D image information processing module 1100 may receive selection information regarding a playback speed from the user, and may adjust and provide a speed of providing the 3D image.
  • the 3D image mapping processing module 1120 manages 3D image information for each pronunciation target, and when there is a request for a pronunciation target (and perspective direction) from the outside, 3D image mapping relation information data for each pronunciation target ( 1122).
  • Data of the 3D image mapping relationship information data 1122 for each pronunciation object may be as shown in Table 1 below.
  • the oral cavity image information processing module 1200 is requested to provide the oral cavity image information on the pronunciation target (S2-11), the oral cavity image information is provided (S2-12), and then, the oral cavity image information is provided. (S2-13).
  • the oral cavity image information processing module 1200 may provide subsequent oral image information (S2-14).
  • FIG. 41 provides an exemplary image of a video provided when the oral cavity image information on the phoneme [ch] is requested from the user terminal 2000 as the prepared oral image information regarding the friction sound.
  • a cross-sectional image composed of three-dimensional images of major articulation organs such as the tongue is not a simple two-dimensional planar image but a three-dimensional image with three-dimensional images on the right is composed of a moving image as preparation oral image information. It is shown as an image, and the face image is shown on the left. In the present invention, the face image on the left side may be optional.
  • the preparation oral cavity image information illustrated in FIG. 41 it can be seen that the preparation position of the tongue, the preparation for generation of air flow in the vocal cords, and the articulation position (the circle where the part where the tongue contacts the palate represent the articulation position) are shown.
  • vocalization is prepared, but actual vocalization does not start. Accordingly, the vocal sound that can be perceived acoustically does not correspond. The user can visually understand what preparations should be made before speaking to the pronunciation target for which pronunciation learning is necessary, through the preparation oral image information as shown in FIG. 41.
  • the oral cavity image information includes various images that appear when there is speech, such as an airflow display image.
  • the user can grasp that the airflow is coming up from the vocal cords through the image shown in FIG. 42 included in the vocal oral image information, and through the image as shown in FIG. 43, the tongue and the palate until the airflow reaches the place where the tongue is in contact with the palate. It can be seen that the contact of is not separated, and through the image as shown in FIG. 44, the tongue and palate are weakly opened and come out through the gap where the air flow is opened.
  • FIG. 46 illustrates an example image included in a video corresponding to subsequent oral image information.
  • the air flow is extinguished, but teeth and lips are open, it can be seen that the contact position of the tongue and palate is not changed.
  • FIG. 47 to 50 are exemplary embodiments in which the inventive concept of the [ei] pronunciation is implemented.
  • FIG. 47 is a diagram illustrating an exemplary configuration image of prepared oral image information of a [ei] phoneme.
  • FIG. 48 to 50 are examples of an exemplary configuration image of vocal oral cavity image information for the [ei] phoneme.
  • the user can see that the tongue is in a low position and there is a resonance point on the tongue.
  • FIG. 49 the user can see that there is a resonance point in the oral space away from the tongue.
  • FIG. 50 a resonance point exists at a position of the tongue close to the palate, and through the display spreading from side to side on the resonance display image 113. It can be seen that the resonance persists.
  • FIG. 48 is a diagram illustrating an exemplary configuration image of prepared oral image information of a [ei] phoneme.
  • FIG. 48 to 50 are examples of an exemplary configuration image of vocal oral cavity image information for the [ei] phoneme.
  • the user can see that
  • FIG. 51 shows an exemplary configuration image of subsequent oral image information for the [ei] phoneme.
  • FIG. 51 shows an exemplary configuration image of subsequent oral image information for the [ei] phoneme.
  • the user can see that the resonance does not disappear through subsequent oral image information to which the present invention as shown in FIG. 51 is applied, and the position and state of the tongue in the oral cavity substantially maintain the final position and state of the vocal oral image information. have.
  • FIG. 52 is an exemplary image of vocal oral image information to which the present invention is displayed in which vocal vocal image data 1481 indicating vocal cords are displayed on the vocal cords.
  • vocal vocal image data 1481 indicating vocal cords are displayed on the vocal cords.
  • a waveform image related to the vocal cord ringing may be additionally provided. The presence of vocal vocal cords is indicated at the position of the vocal cords in the video image so that if there is no voice, there is no indication. Can be inserted.
  • FIG. 53 illustrates an exemplary image of the prepared oral image information of the present invention including the vowel square image 121
  • FIG. 54 illustrates the oral cavity image information of the present invention including the vowel square image 121.
  • Vowel quadrillateral A set of trapezoidal vowels (vowel quadrillateral) set by calculating the mean value of the range in which the resonance can occur within the oral cavity during the pronunciation of the male, adult, female, and degenerative children in each oral image. When inserted, all the vowels have a measurable threshold, which makes it easier for learners to predict when the vowels are pronounced in the oral cavity.
  • the image of the present invention means a trapezoidal square of a trapezoidal shape which is shown in gray.
  • the preparation oral image information data 1211 for each pronunciation object is prepared oral image information data
  • the oral image information data 1212 for each pronunciation object is oral image information
  • the subsequent oral image information data 1213 for each pronunciation object is a subsequent oral image.
  • Information is stored for each pronunciation target.
  • the integrated oral image information data 1214 for each pronunciation object may convert the integrated digital file for each pronunciation object. Saving.
  • the oral cavity image information stored in the pronunciation object-specific oral image information data 1212 stored in the pronunciation support visualization means air flow display means, resonance point display means, articulation point display means, vocal vocal cord display means, muscle tension display means ( 116), etc.
  • the oral cavity image information processing module 1200 obtains selection information on the pronunciation support visualization means (S2-31), obtains oral image information corresponding to the pronunciation support visualization means (S2-32), and Disclosed is an inventive concept of providing oral image information corresponding to pronunciation support visualization means (S2-33).
  • the oral cavity image data 1212-1 by the speech support visualization means may separately include the oral image data by the speech support visualization means.
  • the data of the oral cavity image data 1212-1 by the speech support visualization means includes a layer by the pronunciation support visualization means and a layer by the pronunciation support visualization means when the oral image information is provided through a plurality of layers. This is particularly useful when presented to the user as a visual output of. In this case, highlighting may be provided for the particular layer. For example, if the airflow display layer is independent, a strong color is applied to the airflow display, and if the outline of the airflow is dark, the airflow display layer is combined and appears to the user as vocal oral image information. Becomes more clear.
  • FIG. 36 is a view illustrating an inventive concept in which the user input-based oral image processor 1230 receives control information for providing an oral image (S2-21) and provides oral image information corresponding to the control information (S2-22). Doing.
  • the control information may include a speed control, a transmission request excluding preparation oral image information or subsequent oral image information, a request for a special pronunciation support visualization means, a selection of a tone, and the like.
  • the oral cavity image information processing module 1200 may use a layer, or may be manufactured using a layer, but generates a single image in which an image is emphasized but the layer is removed from an image provided to the user terminal 2000. You can do it.
  • the oral cavity image providing module 1220 provides the image information to the user terminal 2000.
  • the oral cavity image combination providing unit 1221 performs a function of combining and providing the prepared oral image information, the vocal oral image information, and subsequent oral image information, and the integrated oral image providing unit 1222 is previously integrated. It performs the function of providing oral image information.
  • the oral cavity image information processing module 1200 obtains selection information on the layers of the articulation organs (S2-41), and provides the oral image information on the layers of the selected articulation organs (S2-42). Disclosed is an inventive concept for layered oral image information.
  • the oral cavity image information processing module 1200 is supported by a resonance point generating unit 1710, a location display information processing unit 1730, and the like to correct a pronunciation from the user terminal 2000.
  • Obtain the user's voice information (S2-51) generate user resonance point information from the user's voice information (S2-52), process the user resonance point information to be included in the oral cavity image (S2-53),
  • FIG. 55 it can be seen that the user's resonance point (image shown in a star shape) is located in the vocal oral image information. The user can correct the pronunciation more precisely and precisely by comparing the exact recommended resonance point with his own resonance point. It becomes possible.
  • the articulation of the articulator's muscles is contracted, that is, the direction in which the force enters, thereby making it easier for learners to understand the position of the articulator that gives power when learning the sound.
  • 56 to 59 are exemplary embodiments of the image in which the muscle tension display unit 116 is reflected among the vocal composition image information.
  • 56 to 57 show a part of a moving picture composition image in which tension and relaxation of the jaw muscles are occurring. Muscle tension can also be indicated by arrows and the like.
  • 58 shows a part of a moving picture composition image in which tension and relaxation of the tongue muscles are occurring.
  • the bursting sound is completely closed to the specific position (articulation point) of the oral cavity, and the air pressure that has been compressed near the sealed articulation position is blasted out as soon as the sound point is opened.
  • the audio signal is played back, the image where the position of the tongue falls away from the articulation point is played back, and the image of the arrow that has passed through the vocal cords and reached the articulation position near the articulation position blurs the contrast ratio over time and ultimately falls from the articulation point.
  • the image disappears, and the contrast ratio of the arrow image behind the articulation point is blurred, and at the same time, the air pressure of the compressed air of the compressed air in the front of the articulation point, i.e., in the position closer to and near the oral cavity. Help make it easier to understand.
  • Friction creates a narrow gap between the oral cavity's specific positions (joint points), which causes the air currents from the lungs to be slightly compressed around the articulation point, and the sound of friction caused by the resistance generated between the narrow gaps. Therefore, from the time when the tongue completely reaches the articulation position until the sound signal is played back, the same image frame with the front view and the side view of the mouth is played back, and the sound signal is played back, and only the change in the air flow through the vocal cords is changed according to the time. It is desirable to express the change in the position of the arrow.
  • the arrow image which passes through the sound point and moves out of the mouth in time, is maintained until the end of the playback audio signal, and then the contrast ratio diminishes and ultimately disappears when the audio signal ends.
  • the change in the air flow of the air at the articulation position is indicated by an arrow in accordance with the passage of time, making it easier for the learner to understand the position and the change in the airflow during the sound.
  • Ripple sound is a sound that leaks under strong pressure from the point where the air pressure is compressed at the point where the air pressure point is compressed near the tightly closed articulation position by completely sealing the specific position (articulation point) of the oral cavity. Until the point of playback, it is advisable to express only the change in the air position of the air stream passing through the vocal cords until the image frame with the same front view and the side view is reproduced and before the audio signal is played back.
  • the voice signal As the voice signal is played back, the position of the tongue drops away from the articulation point, and the moving image is played back, and the image of the arrow, which has passed through the vocal cords to reach the articulation position, becomes blurred with the passage of time, and ultimately falls off the tone point.
  • the contrast ratio of the image of the arrow that was behind the articulation point becomes blurred, and at the same time, the area of the air that is compressed in the front of the articulation point, i. It is easy for the learner to understand the changes in the airflow.
  • the arrow moving out of the mouth also diminishes, and ultimately the contrast ratio diminishes. It is lost.
  • the nasal passages are directed toward the nasal passages of the air as the specific location of the oral cavity is completely enclosed and other parts of the sound except the nasal cavities are closed and the contact area near the palate and the pharynx is opened down as the labia moves down below the nasopharynx. Since the sound continuously leaks out of the nostrils through the nasal cavity until the vocalization is completed, the voice signal is played back when all the images before and after the voice signal are played back and the tongue reaches the articulation position. When the image is synchronized, only the front image and the side view of the oral cavity are reproduced, the same image frame is played back, and the audio signal is played back, passing through the vocal cords and passing through the nasal passages. To express a given change in the positions indicated by arrows in time is preferred.
  • the arrow image which passes through the sound point and moves out of the mouth in time, is maintained until the end of the playback audio signal, and then the contrast ratio diminishes and ultimately disappears when the audio signal ends.
  • the change in the air flow of the air at the articulation position is indicated by an arrow in accordance with the passage of time, making it easier for the learner to understand the position and the change in the airflow during the sound.
  • resonant sounds such as [w, j] are not only images of changes in the position of the articulation and the flow of airflow, but also change the position at which the resonance occurs and the position depending on the flow of time. It is preferable to use a radial image at the same time.
  • mapping pronunciation learning support module 1300 of the pronunciation learning support system 1000 of the present invention will be described in more detail.
  • the pronunciation of [i] in Korean and [i] in English is that most people cannot distinguish between the two, despite the differences in tongue location and resonance. I have a problem.
  • the [yi] pronunciation of Korean is correct, only the exact difference between the [i] pronunciation of the Korean and [i] pronunciation of the English will be able to pronounce the [i] pronunciation of the English more accurately.
  • phonemes that have similar phonemes in two or more languages they can be deciphered for accurate pronunciation, but they can be helpful.
  • the mapping pronunciation learning support module 1300 provides comparative image information about a phoneme that is substantially different from or similar to the target language and the reference language, thereby helping to achieve accurate pronunciation education of the target language.
  • FIG. 60 illustrates an exemplary configuration of the mapping pronunciation learning support module 1300.
  • the mapping language image information DB 1310 stores the target language pronunciation-corresponding oral image information data 1311 storing the oral image information of the pronunciation target for the target language, and the reference language storing the oral image information of the pronunciation target for the reference language.
  • the pronunciation-corresponding oral image information data 1312 and the target-reference comparison information data 1313 storing comparison information for the target language and the reference language.
  • the target language pronunciation-corresponding oral image information data 1311, the reference language pronunciation-corresponding oral image information data 1312 and the target-reference comparison information data 1313 may exist as respective independent image files, It can also exist as one integrated digital file. In the latter case, such an integrated digital file may be stored in the integrated mapping language image information data 1314.
  • Table 2 below shows an exemplary mapping management information structure of the multiple language mapping processing module 1320.
  • the multilingual mapping processing unit 1321 of the multilingual mapping processing module 1320 processes a mapping relationship between a target language and a reference language, and the mapping relationship is stored in the multilingual mapping relationship information data 1322 for each pronunciation object. .
  • the English short vowel [u] which is pronounced in the vowels of the book, does not exist in Korean as a separate phoneme, but if you shorten the Korean language, it is very similar. Therefore, when learning the English [u] by providing a video to quickly pronounce the pronunciation of the Korean Ur can support the user to effectively pronounce [u] by imitating it.
  • FIG. 61 is an illustration of an exemplary information processing method of the mapping pronunciation learning support module 1300 of the present invention.
  • the mapping pronunciation learning support module 1300 provides reference language pronunciation corresponding oral image information about a reference language pronunciation target (S3-11), and provides target language pronunciation corresponding oral image information about a target language pronunciation target (S3-). 12) and provides target-reference comparison image information, which is comparison information on the reference language pronunciation target and the target language pronunciation target (S3-13).
  • the mapping pronunciation learning support module 1300 obtains target language pronunciation target information from the user terminal 2000 (S3-21), and retrieves reference language pronunciation target information mapped to the obtained target language pronunciation target information. (S3-22).
  • the user input-based 3D image processor 1130 of the mapping pronunciation learning support module 1300 obtains target language pronunciation target information from [i], which is the pronunciation target of the target language, from the user terminal 2000.
  • the mapping relationship information data 1322 between the plurality of languages for each pronunciation target, such as 2, is queried to obtain [i], which is the reference language pronunciation target information.
  • a plurality of target languages may be mapped to the reference language [language].
  • the plurality of language mapping processing module 1320 obtains the plurality of reference language mapping information (S3-31), and controls information for providing comparison information for the mapped plurality of reference languages. It obtains (S3-32), and provides reference language pronunciation corresponding oral image information, target language pronunciation corresponding oral image information and target-reference comparison information with reference to the control information (S3-33).
  • 65 shows reference language pronunciation corresponding oral image information of a reference language pronunciation target for a reference language [i] corresponding to a target language [i]. While the oral imaging information for [yi] is shown, supporting information for clarifying reference language pronunciation such as "Korean-yi" is displayed as text.
  • the oral image information displayed on the user terminal 2000 includes oral images of Korean [to], and highlights the position, shape, and outline of the tongue (highlighting the outline of the tongue for the reference language pronunciation target). (131)) and the like, and as important information, the recommended resonance point 133 ((dot shown on the tongue) for the Korean [yi] pronunciation appears.
  • comparison information about the target language and the reference language is displayed.
  • the display of the position, shape, and outline of the tongue corresponding to the target language [i] is highlighted (target language pronunciation target).
  • a highlighting (132) of the outline of the tongue for < RTI ID 0.0 >), < / RTI > important information between the recommended resonance point 134 corresponding to the target language pronunciation [i] and the recommended resonance point of the reference language and the recommended resonance point of the target language.
  • Representation means 135 (such as an indication of an arrow from the recommended resonance point 132 of the reference language to the recommended resonance point 134 of the target language) indicating the positional difference is shown. Meanwhile, in FIGS. 65 and 66, vowel squares are displayed in the oral cavity, so that the relative positions on the vowel squares of the recommended resonance points of the target language and the reference language can be identified.
  • mapping pronunciation learning support module 1300 provides comparison information with pronunciation for [word] as a reference language in order to support pronunciation education for [ ⁇ ] or pronunciation education for [:].
  • FIG. 67 is an exemplary image of oral cavity image information for [ ⁇ ], which is a target pronunciation of a target language. All the information about the target pronunciation [ ⁇ ] shows that it is treated as a rhombus square.
  • FIG. 68 exemplarily shows that oral image information processed in a circular form with respect to the reference pronunciation of the reference language is superimposed on the oral image information for the target pronunciation [ ⁇ ] of the target language.
  • the oral image information of the reference pronunciation of [language] of the reference language appears first, and then the oral image information of the target pronunciation of [ ⁇ ] of the target language may be provided as comparison information.
  • FIG. 67 is an exemplary image of oral cavity image information for [ ⁇ ], which is a target pronunciation of a target language. All the information about the target pronunciation [ ⁇ ] shows that it is treated as a rhombus square.
  • FIG. 68 exemplarily shows that oral image information processed in a circular form with respect to the reference pronunciation of the reference language is superimposed on the oral image information for the target pronunciation [ ⁇ ] of the target
  • 69 is a diagram illustrating an oral image of oral image information processed in a triangular shape for [:], which is a target pronunciation of a target language, in circular form with oral image information of a target pronunciation [ ⁇ ] of a target language processed into a rhombus rectangle. It is shown that oral imaging information for the reference pronunciation [word] of the processed reference language is compared and provided.
  • a plurality of target pronunciations of the target language may correspond to the reference pronunciation of one reference language, or a plurality of reference pronunciations of the reference language may correspond to the target pronunciation of one target language.
  • the order in which the oral cavity image information regarding the plurality of reference pronunciations or the oral cavity image information regarding the plurality of target pronunciations is displayed may be arbitrarily determined or may be determined by reflecting the user's selection information through the user input-based mapping language image processor 1340.
  • oral image information for each singular / plural target pronunciation and / or oral image information for each singular / plural reference pronunciation are individually displayed, and then oral image information for the target pronunciation and reference pronunciation is displayed.
  • Sequential provisioning may be employed, such as the way in which the target-referenced comparison image information to compare is provided.
  • the image information for the singular or plural reference pronunciations or the image information for the singular or plural target pronunciations is displayed previously while maintaining the previously shown oral image information when these information appear. It may be provided in an overlapping manner to distinguish the oral cavity image information.
  • Such a sequential providing method or overlapping providing method may vary according to a user's selection obtained by the user input-based mapping language image processing unit 1340 or an initial setting value for the providing method of the mapping pronunciation learning support module 1300. do. However, no matter how it is provided, the target-reference comparison information data 1313 may be necessarily provided.
  • the oral cavity image information of the target pronunciation or the oral image of the reference pronunciation and the target-reference comparison oral image information exist in a separate digital file, and may be transmitted to the user terminal 2000 in the calling order.
  • the oral image information of the target pronunciation or the oral image of the reference pronunciation and the target-reference comparison oral image information coexist in one integrated file.
  • the user input-based mapping language image processor 1340 may obtain user voice information from the user terminal 2000, process the user voice information, and generate resonance point information. Generation of resonance point information is as described above. As described above, the generated resonance point may be reflected in the oral image information of the target pronunciation or the oral image of the reference pronunciation and the target-reference comparison oral image information. 64 discloses the inventive concept of maximizing pronunciation learning effects by processing such user voice information information.
  • the mapping pronunciation learning support module 1300 obtains the user's voice information on the pronunciation target (S3-41), generates user resonance point information from the user's voice information (S3-42), and then the user resonance point information. Is included in the target-reference comparison information to generate the user-target-reference comparison information (S3-43), and the user-target-reference comparison image information including the user-target-reference comparison information is provided (S3-44).
  • FIG. 70 to 73 are diagrams illustrating an exemplary embodiment in which the present invention is applied to consonants.
  • FIG. 70 is oral image information of a Korean [ ⁇ ] pronunciation as a reference pronunciation
  • FIG. 71 is an oral image diagram in which the reference pronunciation and the target pronunciation are compared.
  • FIG. 72 is vocal cord image information of a Korean [ ⁇ ] pronunciation as a reference pronunciation
  • FIG. 73 is a vocal cord image shape of a target pronunciation [h].
  • the pronunciation of [h] is narrower than the Korean [ ⁇ ] pronunciation.
  • the target language is illustrated in English pronunciation and the reference language is illustrated in Korean pronunciation.
  • this is only an example, and it will be obvious to those skilled in the art that the present invention is applicable to any language combination if the target language and the reference language have only a mapping relationship.
  • a plurality of reference languages may correspond to one target language.
  • the present invention can be widely used in the education industry, in particular, foreign language education industry and language correction-related industry.

Abstract

본 발명의 발음 학습 지원 시스템은 발음 대상별로 해당 발음에 대한 발성 시 구강 내부의 공간을 통해 흐르는 기류의 정보를 포함하는 권장 기류 정보 데이터 및 공명이 발생하는 조음 기관 상의 위치 정보를 포함하는 권장 공명점 정보 데이터 중 적어도 일부를 획득하는 단계; 및 특정 발음 대상에 대응되는 특정 권장 기류 정보 데이터를 제1 투시 방향을 기준으로 제공되는 영상 내의 구강 내부의 공간에 표시하는 프로세스 및 상기 특정 발음 대상에 대응되는 특정 권장 공명점 정보 데이터를 조음 기관 상의 특정 위치에 표시하는 프로세스 중 적어도 하나를 처리하여 영상을 제공하는 단계;를 포함하는 것이 특징이다.

Description

3차원 멀티미디어 활용 발음 학습 지원 시스템 및 그 시스템의 발음 학습 지원 방법
본 발명은 3차원 멀티미디어 활용 발음 학습 지원 시스템 및 그 시스템의 발음 학습 지원 방법에 관한 것으로 더욱 더 상세하게는 조음 기관 내부의 3차원 영상 이미지 상에서의 정확하고 효율적인 발음 학습을 위한 발음 학습 지원 수단을 포함하는 3차원 멀티미디어 활용 발음 학습 지원 시스템 및 그 시스템의 발음 학습 지원 방법에 관한 것이다.
최근 들어 산업의 전문화와 국제화의 추세에 따라 각 분야별로 필요한 외국어 학습에 대한 중요성이 날로 커지고 있고, 이러한 중요성에 따라 많은 사람들이 외국어 학습에 많은 시간을 할애하고 있으며, 이에 발맞추어 다양한 온-오프라인 외국어 강좌들이 개설되고 있다.
외국어 학습의 다양한 영역 중에 문법 및 어휘학습의 경우는 모국어와 외국어에 정확한 의미 및 구조상의 차이를 문서화 된 서적 등을 통해서 이해하기가 용의하지만 의사소통의 가장 기본적인 수단 중 하나인 발음 학습의 경우에는 학습하는 외국어의 특정 발음들이 모국어에 존재 하지 않으면 정확하게 모방하여 말하기가 어렵고 또한 영어의 경우에는 영어를 모국어로 하는 각 국가 마다 특정 음소들은 발음하는 방식에 차이가 있고 또한 철자를 소리내는 규칙(phonics)에도 차이가 존재하기 때문에 문서화된 학습 자료가 어떠한 국가의 영어 발음으로 표기가 되었고 기술되었느냐에 따라서 내용이 상이할 수가 있다. 영어가 모국어라고 할 지라도 이러한 각 국가별 발음 차이 및 출신지 역 특유의 방언(dilect) 및 액센트(accent)의 차이를 정확하게 이해하지 못하고 학습하게 되면 대화 시에 정확한 정보를 전달하고 이해하는데 어려움이 있을 수 있다. 이러한 이유로 인하여 영어 발음 학습의 경우는 초기 학습 때부터 전세계적으로 사용빈도가 가장 높은 북미식 또는 영국식 발음 등을 정확한 표준 영어 발음으로 학습하는 것이 학습 효율성을 배가시키는데 중요시 되고 있으며 그러한 이유로 학령전 유아기 때부터 이러한 정확한 외국어의 input과 output 능력을 형성하기 위하여 영어 유치원, 영어 학원 및 재택 방문 1:1 파닉스(Phonics) 학습 등을 통해서 막대한 지출이 소요되는 실정이다.
또한 국제화 정책의 일환 인하여 국내의 외국인 거주자 및 이민자의 수도 지속적으로 증가하고 있는 추세이며 이에 따라서 대한민국 국적을 취득하거나 취득하려고 하는 외국인들의 수도 지속적으로 증가하고 있다. 하지만 이러한 외국인들이 한국어를 학습할 때도 마찬가지로 한국어의 소리 체계와 각 외국인들의 모국에의 소리체계의 차이에 대한 이해가 필요하며 한국어에 있는 특정한 발음들이 한국어를 학습하는 외국인의 모국어에 비슷한 소리가 존재 하지 않는다면 그들 또한 한국어 발음학습 및 한국어로의 의사소통에 어려움을 겪을 수 있다. 이러한 한국어 발음 학습 시의 어려움은 국내에 거주하는 성인 외국인 거주자 및 이민자 뿐만 아니라 이러한 이민자수의 증가에 따라 지속적으로 증가하고 있는 국제 결혼율 및 국제 결혼을 통한 한국 국적의 2세 자녀들이 모국어로 한국어를 배울때도 어려움을 겪고 있다. 하지만 이러한 언어학습시의 어려움을 극복하기 위하여 양성되는 언어 전문가의 인력은 지극히 제한되어 있고 언어학습을 위한 비용 지출은 저소득층 외국인 이민자 가족들에게는 큰 부담이 될 수 있으며 이에 따라 이러한 외국인 언어 학습자들이 저렴한 비용으로 효율적으로 표준 한국어 발음을 학습하기 위한 수단 및 매체의 개발이 시급한 실정이다.
또한 일반적으로 발음이나 발음에 대한 교정은 외국인 강사와의 1:1 지도방식에 의해 이루어지고 있는데, 이 경우 영어 학습에 많은 비용이 소요된다는 문제점이 있으며, 특별히 정해진 시간에 교육이 이루어지기 때문에 직장인 등과 같은 바쁜 일상생활을 영위하는 사람들에게는 그 학습에의 참여가 극히 제한적이라는 문제점이 있었다.
따라서 유휴 시간에 혼자서도 효과적으로 영어에 대한 발음이나 발성 등을 학습하고, 원어민의 발음과 비교 평가하는 프로그램 등을 필요로 하게 되었다.
이러한 요구에 부응하기 위하여 현재에는 음성 인식 또는 음성 파형분석을 이용한 다양한 어학용 프로그램들을 탑재한 어학용 학습기가 개발되어 보급되고 있다.
상기와 같은 어학용 학습기의 영어 발음 평가방법은 음성 신호 처리기술을 이용한 발음 비교방법에 의하며, 여기에는 은닉 마코브 모델(Hidden Markov Model, 이하 HMM 이라 함)을 이용하여 학습자의 발음을 인식한 후, 이를 원어민의 음성과 비교하여 그 결과를 알려주는 프로그램들을 이용하여 실시하고 있다.
하지만, 상기와 같은 프로그램을 탑재한 학습기들은 입력된 학습자의 음성을 상기 프로그램에 의해 원어민의 발음과 단순히 비교 평가하여 그 결과를 점수로 학습자에게 제공하는 것이 대부분이었다.
또한, 학습자는 표시된 점수로 자신의 발음이 얼마나 정확한지를 개략적으로 알 수 있지만, 모음/자음 발음, 강세, 억양에 대한 각 분야별로 비교할 수 있는 수단이 없어 자신의 모음/자음 발음, 강세, 억양이 원음과 얼마나 다르며, 어디가 틀렸는지 정확히 인식할 수 없다.
따라서 발음교정이 비효율적으로 진행되는 결과를 초래하고, 학습자가 영어를 정확하게 발음하도록 유도하는데 어려움이 있으며, 이로 인해 발음교정에 한계가 있는 등 영어 발음을 교정하는데 상당한 노력과 투자가 요구되는 문제점이 있다.
또한 학습하고자 하는 제2 언어의 원어민의 음성과 학습자의 음성의 파형을 비교 분석 하는 경우에도 두 파형 자체 비교로는 발성과 조음시점에 대한 두 파형의 정확한 시간적 동기화가 어렵고 각 음성 파형의 강도 (intensity) 및 음높이(pitch)의 운율(prosody) 변화와 같은 초분절적인(supra segmental aspect of speech) 요소들이 음성신호의 구현에 영향을 미치기 때문에 이러한 초분절적인 요소들이 학습자의 음성신호와 비교대상 원어민 음성신호에 차이가 없을 때만이 정확한 비교 분석이 가능하다. 그렇기 때문에 실제로 이러한 음성파형 비교 분석시에 제 2외국어의 발음과 학습자의 제2 외국어 발음 상(segmental aspect of speech)의 차이를 정확하게 평가하기 위해서는 기 녹음된 제 2언어 원어민의 음성파일과 비교대상인 학습자의 음성신호의 파형의 평균적인 피크 값의 크기 및 파형이 재생되는 길이 및 발성기관인 성대의 1초당 총 진동 회수를 기준으로한 기본진동수 (fundamental frequency: F0)의 값이 유사하여야 한다는 제한이 있다.
또한, 음성인식 또는 음성 파형 비교 분석의 경우는 기 녹음되어 있는 원음과 학습자의 비교대상 음성을 녹음 및 분석을 위한 디지털 신호처리 과정에서 다양한 왜곡요소가 생길 수 있다. 음성 녹음시 신호대 잡음비(signal to noise ratio) 및 음성신호 녹음시 강도의 과부하에 따른 왜곡 및 이러한 과부하에 따른 왜곡을 방지하기 위한 신호의 강도에 따른 압축에 대한 압축비율(compression ratio) 밑 음성신호 강도의 압축 개시 임계점(threshold) 설정 값에 따른 음성 신호의 변화 및 디지털 신호로의 변화시에 표본화 주파수(sampling frequency rate) 설정 및 양자화 (qualtatization) bit 계수 설정에 따라서 음성신호가 구현되는 값은 다양하게 변할 수 있다. 따라서 두 비교대상 음원의 녹음 및 디지털 신호 처리과정에서의 상기 명시한 신호처리 방식의 차이가 상이 할 경우에는 정확한 차이를 비교분석해서 평가하는데 어려움이 따를 수 있다.
이러한 이유로 초기 발음학습은 강세, 리듬, 연음, 억양, 유창성 등 다양한 요소가 소리의 변화에 영향을 미치는 단어, 문장, 단락 등의 발화수준에서 음소발음의 원리를 터득하는 하향식 발음 학습 (Top-down processing) 보다는 각 발음기호(음소)의 정확한 표준 발음을 숙지한 상태에서 강세(stress) 및 동시조음(coarticulation)에 따른 소리의 변화를 이해하며 단어에 적용시고 연음, 억양, 리듬에 다양한 규칙을 학습하면서 문장으로 확장하여 적용하는 상향식 학습법 (bottom-up processing) 이 더욱 효율적인 학습법으로 인정받고 있고 이에 따라 특정언어의 음소단계 즉 각 발음기호의 정확산 발음학습의 중요성이 대두 되고 있다.
기존의 음소단위의 발음학습 도구 및 장치의 경우는 단순히 인체 외부에서 보이는 안면근육 및 구강 밖에서 안쪽으로 바라본 혀의 정면도를 이미지화 하여 보여주고 있으며 또한 실제로 구강 및 비강내에 조음, 발성기관의 움직임을 시뮬레이션한 이미지의 경우도 혀의 위치 및 움직임의 변화 정도를 보여줄 뿐 및 발성 공명의 위치 및 원리 발음시의 공기 기류의 흐름의 변화등 원어민의 발음을 모방하여 학습하기에는 한계가 있는 경우가 많았다.
이에, 인체 외부에서는 확인하기 어려운 구강내부에서의 특정발음시의 모든 조음기관의 움직임은 물론 공기 기류의 흐름 및 조음위치 및 공명점을 표기하고 다양한 각도에서 조음, 발성, 공명이 일어난느 위치를 표시함으로서 학습자가 발음을 이해하는데 용의하도록 설계할 필요가 요청되어 왔다.
본 발명은 상기 문제점을 해결하기 위한 것으로, 본 발명의 일 실시예에 따른 발음 학습 지원 시스템이 소정의 사용자 단말 장치 또는 서버에 포함될 수 있으며, 상기 발음 학습 지원 시스템에 포함되거나 연동되는 영상 센서가 상기 발음 학습 지원 시스템을 이용하는 사용자의 시선 방향을 인식하거나 얼굴의 방향을 인식하면, 인식된 방향을 참조로 하여 결정된 제1 투시 방향에서 바라본 상태의 발음 학습 관련 영상을 제공할 수 있도록 상기 발음 학습 지원 시스템에 포함되거나 연동되는 이미지 프로세싱 장치가 이미지 프로세싱 작업을 처리하도록 함으로써, 사용자가 간편하게 언어 학습의 전문적인 데이터 내용을 다양한 각도의 영상을 통해 제공 받을 수 있는 사용자 편의적인 유저 인터페이스를 구현할 수 있다.
또한, 상기 발음 학습 지원 시스템은 자신이 포함하거나 접근 가능한 데이터베이스를 관리할 수 있는데, 상기 데이터베이스에는 발음 대상별로 해당 발음에 대한 발성 시 구강 내부의 공간을 통해 흐르는 기류의 세기 및 방향 정보를 포함하는 권장 기류 정보 데이터 및 해당 발음에 대한 발성 시 공명이 발생하는 조음 기관 상의 위치 정보를 포함하는 권장 공명점 정보 데이터 중 적어도 일부가 기록될 수 있으며, 상기 발음 학습 지원 시스템은 상기 데이터베이스에 기록된 권장 기류 정보 데이터 및 권장 공명점 정보 데이터 중 적어도 일부를 소정 조건에 따라 상기 데이터베이스로부터 획득하고 이미지 프로세싱 장치를 통해 이를 영상에 표시하여 제공함으로써, 상기 발음 학습 지원 시스템의 사용자가 보다 편리하게 각종 언어에 대한 발음 학습을 매우 체계적이고 전문적으로 익힐 수 있도록 지원할 수 있다.
또한, 상기 발음 학습 지원 시스템은 복수의 피험자를 대상으로 발음 대상별로 발성 정보를 획득하고 상기 발성 정보별로 획득한 발성 정보에 대하여 주파수 분석을 수행하거나 이를 지원할 수 있는데, 이와 같은 주파수 분석을 수행하기 위하여 상기 발음 학습 지원 시스템은 오디오 센서의 일종인 주파수 분석 장치를 포함하거나 이와 연동될 수 있을 것이며, 상기 주파수 분석 장치는 포먼트 주파수 중 가장 낮은 두 개의 주파수인 F1 및 F2를 추출해낼 수 있으며 이와 같이 추출된 F1 및 F2 주파수 값을 참조로 하여 상기 권장 공명점 정보 데이터를 발성 정보별로 획득하고 이와 같이 획득된 데이터가 상기 데이터베이스 상에 기록되도록 함으로써, 상기 발음 학습 지원 시스템을 이용하는 사용자가 매우 합리적이고 정확한 발성 정보를 발음 대상별로 시청할 수 있도록 지원할 수 있다.
상기 발음 학습 지원 시스템은 사용자의 특정 발음 대상에 대한 발성을 감지하기 위하여 오디오 센서를 포함하거나 이와 연동될 수 있으며, 상기 오디오 센서를 사용하여 사용자의 상기 특정 발음 대상에 대한 실제 공명점 정보 데이터를 획득할 수 있는데, 상기 실제 공명점 정보 데이터를 제1 투시 방향을 기준으로 제공되는 영상 내의 조음 기관 상의 해당 위치에 표시할 때 이미지 프로세싱 장치가 동작되도록 함으로써 상기 데이터베이스에 기록된 특정 권장 공명점 정보 데이터를 상기 제1 투시 방향을 기준으로 제공되는 영상 내의 조음 기관 상의 해당 위치에 구별하여 표시함으로써, 사용자가 자신의 발음에 따른 실제 공명점 정보와 데이터베이스에 기록되어 있는 권장 공명점 정보를 한 눈에 간편하게 비교해 볼 수 있도록 지원할 수 있다.
또한, 상기 이미지 프로세싱 장치는 상기 조음 기관 중 적어도 일부를 서로 다른 레이어로 처리되도록 하기 위하여 메타데이터를 참조할 수 있으며, 상기 메타데이터는 이미지 프로세싱 장치가 직접 포함하여 관리하고 있거나 소정의 데이터베이스에 접근하여 획득하여 참조할 수 있도록 함으로써, 상기 발음 학습 지원 시스템의 사용자가 본인이 발음하는 특정 발음 대상의 발성에 사용되는 조음 기관만을 활성화시켜 영상에 포함되도록 하여 사용자의 흥미와 언어 학습의 효과를 증진시킬 수 있다.
또한, 본 발명은 상기 문제점을 해결하기 위한 것으로, 본 발명의 다른 실시예에 따른 발음 학습 지원 시스템이 소정의 사용자 단말 장치 또는 서버에 포함될 수 있으며, 상기 발음 학습 지원 시스템에 포함되거나 연동되는 이미지 프로세싱 장치가 (i) 특정 발음 대상에 대응되어 있는 특정 준비 데이터에 포함되어 있는 구강 내부의 공간의 상태 및 조음 기관의 상태에 대한 정보를 표시하여 준비 구강 영상 정보를 제공하는 프로세스, (ii) 상기 특정 발음 대상에 대응되어 있는 특정 권장 기류 정보 데이터 및 특정 권장 공명점 정보 데이터 중 적어도 일부를 구강 내부의 공간 및 조음 기관 상의 적어도 일부의 위치에 표시하여 발성 구강 영상 정보를 제공하는 프로세스, (iii) 상기 특정 발음 대상에 대응되어 있는 특정 후속 데이터에 포함되어 있는 구강 내부의 공간의 상태 및 조음 기관의 상태에 대한 정보를 표시하여 후속 구강 영상 정보를 제공하는 프로세스를 처리하여 영상을 제공함으로써, 사용자로 하여금 특정 발음 대상에 대한 준비 과정부터 본 과정, 후속 과정에 이르기까지 정확한 발음 학습을 할 수 있도록 지원할 수 있다.
상기 발음 학습 지원 시스템은 (i) 발음 대상별로 해당 발음 대상이 발성되기 전의 구강 내부의 공간의 상태 및 조음 기관의 상태에 대한 정보를 포함하는 준비 데이터 중 적어도 일부를 획득하고, (ii) 해당 발음에 대한 발성 시 상기 구강 내부의 공간을 통해 흐르는 기류의 세기 및 방향 정보를 포함하는 권장 기류 정보 데이터 및 해당 발음에 대한 발성 시 공명이 발생하는 조음 기관 상의 위치 정보를 포함하는 권장 공명점 정보 데이터 중 적어도 일부를 획득하고, (iii) 해당 발음 대상이 발성된 후의 상기 구강 내부의 공간의 상태 및 상기 조음 기관의 상태에 대한 정보를 포함하는 후속 데이터 중 적어도 일부를 획득하기 위하여, 각 언어별, 사람의 성별, 연령별로 모음 발음 시에 구강 내에 공명이 일어날 수 있는 범위를 계산하기 위한 오디오 센서를 포함하거나 이와 연동될 수 있는데, 상기 오디오 센서는 상기 계산된 공명이 일어날 수 있는 범위의 평균값을 계산할 수 있고, 상기 계산된 평균값을 참조로 하여 소정의 구획이 설정되도록 함으로써, 이미지 프로세싱 장치가 상기 구획 정보를 바탕으로 하여 모음 사각도를 생성하여 이를 영상에 포함시켜 제공할 수 있도록 지원하고, 이를 통해 사용자가 공명 발생의 정확한 위치를 제공 받음으로써 언어 학습의 전문적인 정보를 정확하게 제공 받을 수 있게 할 수 있다.
또한, 상기 발음 학습 지원 시스템은 복수의 피험자를 대상으로 발음 대상별로 발성 정보를 획득하고 상기 발성 정보별로 획득한 발성 정보에 대하여 주파수 분석을 수행하거나 이를 지원할 수 있는데, 이와 같은 주파수 분석을 수행하기 위하여 상기 발음 학습 지원 시스템은 오디오 센서의 일종인 주파수 분석 장치를 포함하거나 이와 연동될 수 있을 것이며, 상기 주파수 분석 장치는 포먼트 주파수 중 가장 낮은 두 개의 주파수인 F1 및 F2를 추출해낼 수 있으며 이와 같이 추출된 F1 및 F2 주파수 값을 참조로 하여 상기 권장 공명점 정보 데이터를 발성 정보별로 획득하고 이와 같이 획득된 데이터가 상기 데이터베이스 상에 기록되도록 함으로써, 상기 발음 학습 지원 시스템을 이용하는 사용자가 매우 합리적이고 정확한 발성 정보를 발음 대상별로 시청 및 청취할 수 있도록 지원할 수 있다.
상기 발음 학습 지원 시스템은 사용자의 특정 발음 대상에 대한 발성을 감지하기 위하여 오디오 센서를 포함하거나 이와 연동될 수 있으며, 상기 오디오 센서를 사용하여 사용자의 상기 특정 발음 대상에 대한 실제 공명점 정보 데이터를 획득할 수 있는데, 상기 실제 공명점 정보 데이터를 영상 내의 조음 기관 상의 해당 위치에 표시할 때 이미지 프로세싱 장치가 동작되도록 함으로써 상기 데이터베이스에 기록된 특정 권장 공명점 정보 데이터를 영상 내의 조음 기관 상의 해당 위치에 비교되도록 구별하여 표시함으로써, 사용자가 자신의 발음에 따른 실제 공명점 정보와 데이터베이스에 기록되어 있는 권장 공명점 정보를 한 눈에 간편하게 비교해 볼 수 있도록 지원할 수 있다.
또한, 상기 이미지 프로세싱 장치는 상기 조음 기관 중 적어도 일부를 서로 다른 레이어로 처리되도록 하기 위하여 메타데이터를 참조할 수 있으며, 상기 메타데이터는 이미지 프로세싱 장치가 직접 포함하여 관리하고 있거나 소정의 데이터베이스에 접근하여 획득하여 참조할 수 있도록 함으로써, 상기 발음 학습 지원 시스템의 사용자가 본인이 발음하는 특정 발음 대상의 발성에 사용되는 조음 기관만을 활성화시켜 영상에 포함되도록 하여 사용자의 흥미와 언어 학습의 효과를 증진시킬 수 있다.
또한, 본 발명은 상기 문제점을 해결하기 위한 것으로, 본 발명의 또 다른 실시예에 따른 발음 학습 지원 시스템이 소정의 사용자 단말 장치 또는 서버에 포함될 수 있으며, 상기 발음 학습 지원 시스템에 포함되거나 연동되는 이미지 프로세싱 장치가 (i) 상기 특정 목표 언어 발음 대상에 대응되는 제1 특정 권장 기류 정보 데이터를 구강 내부의 공간에 표시하는 프로세스 및 상기 특정 목표 언어 발음 대상에 대응되는 제1 특정 권장 공명점 정보 데이터를 조음 기관 상의 특정 위치에 표시하는 프로세스 중 적어도 하나를 처리하고, (ii) 상기 특정 참조 언어 발음 대상에 대응되는 제2 특정 권장 기류 정보 데이터를 구강 내부의 공간에 표시하는 프로세스 및 상기 특정 참조 언어 발음 대상에 대응되는 제2 특정 권장 공명점 정보 데이터를 조음 기관 상의 특정 위치에 표시하는 프로세스 중 적어도 하나를 처리하여 영상을 제공함으로써, 사용자가 목표 언어와 참조 언어의 발성 비교를 통하여 외국어의 발음을 정확하게 학습하도록 할 수 있다.
또한, 상기 발음 학습 지원 시스템은 복수의 피험자를 대상으로 발음 대상별로 발성 정보를 획득하고 상기 발성 정보별로 획득한 발성 정보에 대하여 주파수 분석을 수행하거나 이를 지원할 수 있는데, 이와 같은 주파수 분석을 수행하기 위하여 상기 발음 학습 지원 시스템은 오디오 센서의 일종인 주파수 분석 장치를 포함하거나 이와 연동될 수 있을 것이며, 상기 주파수 분석 장치는 포먼트 주파수 중 가장 낮은 두 개의 주파수인 F1 및 F2를 추출해낼 수 있으며 이와 같이 추출된 F1 및 F2 주파수 값을 참조로 하여 상기 권장 공명점 정보 데이터를 발성 정보별로 획득하고 이와 같이 획득된 데이터가 상기 데이터베이스 상에 기록되도록 함으로써, 상기 발음 학습 지원 시스템을 이용하는 사용자가 매우 합리적이고 정확한 발성 정보를 발음 대상별로 시청 및 청취할 수 있도록 지원할 수 있다.
상기 발음 학습 지원 시스템은 사용자의 특정 발음 대상에 대한 발성을 감지하기 위하여 오디오 센서를 포함하거나 이와 연동될 수 있으며, 상기 오디오 센서를 사용하여 사용자의 상기 특정 발음 대상에 대한 실제 공명점 정보 데이터를 획득할 수 있는데, 상기 실제 공명점 정보 데이터를 제1 투시 방향을 기준으로 제공되는 영상 내의 조음 기관 상의 해당 위치에 표시할 때 이미지 프로세싱 장치가 동작되도록 함으로써 상기 데이터베이스에 기록된 특정 권장 공명점 정보 데이터를 상기 제1 투시 방향을 기준으로 제공되는 영상 내의 조음 기관 상의 해당 위치에 비교되도록 구별하여 표시함으로써, 사용자가 자신의 발음에 따른 실제 공명점 정보와 데이터베이스에 기록되어 있는 권장 공명점 정보를 한 눈에 간편하게 비교해 볼 수 있도록 지원할 수 있다.
또한, 상기 이미지 프로세싱 장치는 상기 조음 기관 중 적어도 일부를 서로 다른 레이어로 처리되도록 하기 위하여 메타데이터를 참조할 수 있으며, 상기 메타데이터는 이미지 프로세싱 장치가 직접 포함하여 관리하고 있거나 소정의 데이터베이스에 접근하여 획득하여 참조할 수 있도록 함으로써, 상기 발음 학습 지원 시스템의 사용자가 본인이 발음하는 특정 발음 대상의 발성에 사용되는 조음 기관만을 활성화시켜 영상에 포함되도록 하여 사용자의 흥미와 언어 학습의 효과를 증진시킬 수 있다.
본 발명의 일 실시예에 따른 발음 학습 지원 시스템의 정보 처리 방법에 있어서, 상기 발음 학습 지원 시스템이 (a) 자신이 관리하고 있는 데이터베이스 또는 외부의 데이터베이스에 접근하여 발음 대상별로 해당 발음에 대한 발성 시 구강 내부의 공간을 통해 흐르는 기류의 세기 및 방향 정보를 포함하는 권장 기류 정보 데이터 및 해당 발음에 대한 발성 시 공명이 발생하는 조음 기관 상의 위치 정보를 포함하는 권장 공명점 정보 데이터 중 적어도 일부를 획득하는 단계; 및 (b) 상기 발음 대상 중 특정 발음 대상이 선택되면, 자신이 관리하고 있는 이미지 프로세싱 장치 또는 외부의 이미지 프로세싱 장치에 요청하여 상기 특정 발음 대상에 대응되는 특정 권장 기류 정보 데이터를 제1 투시 방향을 기준으로 제공되는 영상 내의 구강 내부의 공간에 표시하도록 하는 프로세스 및 상기 특정 발음 대상에 대응되는 특정 권장 공명점 정보 데이터를 상기 제1 투시 방향을 기준으로 제공되는 영상 내의 조음 기관 상의 특정 위치에 표시하도록 하는 프로세스 중 적어도 하나를 처리하여 영상을 제공하는 단계를 포함하는 발음 학습 지원 시스템의 정보 처리 방법을 개시한다.
본 발명의 일 실시예에 따르면, 상기 (b) 단계는, 오디오 센서가 사용자가 상기 특정 발음 대상을 발음한 것에 대응하여 상기 발음 학습 지원 시스템이 상기 발음된 특정 발음 대상을 식별하면, 상기 발음 학습 지원 시스템이 관리하는 이미지 프로세싱 장치 또는 외부의 이미지 프로세싱 장치에 요청하여 상기 특정 발음 대상에 대응되는 상기 특정 권장 기류 정보 데이터를 상기 제1 투시 방향을 기준으로 제공되는 영상 내의 구강 내부의 공간에 표시하는 프로세스 및 상기 특정 발음 대상에 대응되는 상기 특정 권장 공명점 정보 데이터를 상기 제1 투시 방향을 기준으로 제공되는 영상 내의 조음 기관 상의 상기 특정 위치에 표시하는 프로세스 중 적어도 하나를 수행하여 제공하는 것을 특징으로 한다.
본 발명의 일 실시예에 따르면, 발음 학습 지원 시스템이 관리하는 영상 센서 또는 외부의 영상 센서에 요청하여 상기 발음 학습 지원 시스템을 이용하는 사용자의 시선 인식 기술 또는 상기 사용자의 얼굴에 대한 인식 기술에 따라 상기 사용자가 화면을 바라보는 방향 정보가 제1 방향으로서 식별되면, 이를 참조로 하여 상기 제1 투시 방향이 결정되는 것을 특징으로 한다.
본 발명의 일 실시예에 따르면, 상기 (b) 단계는, 상기 제1 투시 방향으로 제공하는 상태에서 상기 사용자가 상기 화면을 바라보는 방향 정보가 제2 방향으로 변경되었음이 식별되면, 상기 제1 투시 방향 기준으로 처리된 영상 및 상기 제2 방향과 대응하는 것으로 저장된 제2 투시 방향 기준으로 처리된 영상을 제공하는 것을 특징으로 한다.
본 발명의 일 실시예에 따르면, 상기 (a) 단계는, 발음 학습 지원 시스템이 관리하는 오디오 센서 또는 외부의 오디오 센서에 요청하여 (a1) 복수의 피험자를 대상으로 발음 대상별로 발성 정보를 획득하는 단계; (a2) 상기 발성 정보별로 획득한 발성 정보에 대하여 주파수 분석을 수행하는 단계; 및 (a3) 상기 주파수 분석을 참조로 하여, 포먼트 주파수 중 가장 낮은 두 개의 주파수인 F1 및 F2를 참조로 하여 상기 권장 공명점 정보 데이터를 발성 정보별로 획득하는 단계를 포함하는 것을 특징으로 한다.
본 발명의 일 실시예에 따르면, 상기 발음 학습 지원 시스템의 사용자로부터 특정 발음 대상에 대한 발성이 상기의 오디오 센서 등을 통하여 감지되면, 상기 (b) 단계는, (b1) 상기 감지된 발성으로부터 상기 사용자의 상기 특정 발음 대상에 대한 실제 공명점 정보 데이터를 획득하는 단계; 및 (b2) 상기 특정 발음 대상에 대응되어 저장되어 있는 상기 특정 권장 공명점 정보 데이터 및 상기 실제 공명점 정보 데이터를 상기 제1 투시 방향을 기준으로 제공되는 영상 내의 조음 기관 상의 해당 위치에 각각 표시하는 프로세스를 처리하여 영상을 제공하는 단계를 포함하는 것을 특징으로 한다.
본 발명의 일 실시예에 따르면, 상기 조음 기관은 n 개이며, 상기 조음 기관 중 적어도 일부는 서로 다른 레이어로 처리되도록 하기 위한 메타데이터가 저장되어 있고, 상기 발음 학습 지원 시스템의 사용자에 의해 상기 특정 발음 대상이 선택되면, 상기의 이미지 프로세싱 장치는 상기 특정 발음 대상에 대응되는 적어도 하나의 특정 조음 기관에 해당되는 레이어를 활성화하여 영상을 제공하는 것을 특징으로 한다.
본 발명의 다른 실시예에 따른 발음 학습 지원 시스템의 정보 처리 방법에 있어서, 상기 발음 학습 지원 시스템이 자신이 관리하고 있는 데이터베이스 또는 외부의 데이터베이스에 접근하여 (a) (i) 발음 대상별로 해당 발음 대상이 발성되기 전의 구강 내부의 공간의 상태 및 조음 기관의 상태에 대한 정보를 포함하는 준비 데이터 중 적어도 일부를 획득하고, (ii) 해당 발음에 대한 발성 시 상기 구강 내부의 공간을 통해 흐르는 기류의 세기 및 방향 정보를 포함하는 권장 기류 정보 데이터 및 해당 발음에 대한 발성 시 공명이 발생하는 조음 기관 상의 위치 정보를 포함하는 권장 공명점 정보 데이터 중 적어도 일부를 획득하고, (iii) 해당 발음 대상이 발성된 후의 상기 구강 내부의 공간의 상태 및 상기 조음 기관의 상태에 대한 정보를 포함하는 후속 데이터 중 적어도 일부를 획득하는 단계; 및 (b) 상기 발음 대상 중 특정 발음 대상이 선택되면, 자신에 포함되거나 연동 가능한 이미지 프로세싱 장치를 사용하여 (i) 상기 특정 발음 대상에 대응되어 있는 특정 준비 데이터에 포함되어 있는 구강 내부의 공간의 상태 및 조음 기관의 상태에 대한 정보를 표시하여 준비 구강 영상 정보를 제공하는 프로세스, (ii) 상기 특정 발음 대상에 대응되어 있는 특정 권장 기류 정보 데이터 및 특정 권장 공명점 정보 데이터 중 적어도 일부를 구강 내부의 공간 및 조음 기관 상의 적어도 일부의 위치에 표시하여 발성 구강 영상 정보를 제공하는 프로세스, (iii) 상기 특정 발음 대상에 대응되어 있는 특정 후속 데이터에 포함되어 있는 구강 내부의 공간의 상태 및 조음 기관의 상태에 대한 정보를 표시하여 후속 구강 영상 정보를 제공하는 프로세스를 처리하여 영상을 제공하는 단계를 포함하는 발음 학습 지원 시스템의 정보 처리 방법을 개시한다.
본 발명의 다른 실시예에 따르면, 상기 (a) 단계에서, 상기 발음 학습 지원 시스템이 관리하고 있는 오디오 센서 또는 이와 연동되는 오디오 센서는 1) 각 언어별, 사람의 성별, 연령별로 모음 발음 시에 구강 내에 공명이 일어날 수 있는 범위를 계산하는 단계; (a2) 상기 계산된 공명이 일어날 수 있는 범위의 평균값을 계산하는 단계; 및 (a3) 상기 계산된 평균값을 참조로 하여 구획을 설정하는 단계를 포함하는 프로세스를 통하여 모음 사각도에 대한 정보를 추가로 획득할 수 있고, 상기 (b) 단계에서, 상기 선택된 특정 발음 대상에 모음이 포함된 경우, 상기 이미지 프로세싱 장치는 상기 준비 구강 영상 정보, 상기 발성 구강 영상 정보, 상기 후속 구강 영상 정보 중 적어도 일부에는 상기 특정 발음 대상에 대응되는 모음 사각도를 삽입하여 제공할 수 있는 것을 특징으로 한다.
본 발명의 다른 실시예에 따르면, 상기 (a) 단계는, 상기 오디오 센서 등의 주파수 분석 장치를 사용하여 (a1) 복수의 피험자를 대상으로 발음 대상별로 발성 정보를 획득하는 단계; (a2) 상기 발성 정보별로 획득한 발성 정보에 대하여 주파수 분석을 수행하는 단계; 및 (a3) 상기 주파수 분석을 참조로 하여, 포먼트 주파수 중 가장 낮은 두 개의 주파수인 F1 및 F2를 참조로 하여 상기 권장 공명점 정보 데이터를 발성 정보별로 획득하는 단계를 포함하는 것을 특징으로 한다.
본 발명의 다른 실시예에 따르면, 상기 발음 학습 지원 시스템의 사용자로부터 특정 발음 대상에 대한 발성이 상기 오디오 센서 등에 의해 감지되면, 상기 (b) 단계는, (b1) 상기 감지된 발성으로부터 상기 사용자의 상기 특정 발음 대상에 대한 실제 공명점 정보 데이터를 획득하는 단계; 및 (b2) 상기 특정 발음 대상에 대응되어 저장되어 있는 상기 특정 권장 공명점 정보 데이터 및 상기 실제 공명점 정보 데이터를 상기 이미지 프로세싱 장치를 사용하여 조음 기관 상의 해당 위치에 각각 표시하여 상기 발성 구강 영상 정보를 제공하는 프로세스를 처리하여 영상을 제공하는 단계를 포함하는 것을 특징으로 한다.
본 발명의 다른 실시예에 따르면, 상기 조음 기관은 n 개이며, 상기 조음 기관 중 적어도 일부는 서로 다른 레이어로 처리되도록 하기 위한 메타데이터가 저장되어 있고, 상기 발음 학습 지원 시스템의 사용자에 의해 상기 특정 발음 대상이 선택되면, 상기 특정 발음 대상에 대응되는 적어도 하나의 특정 조음 기관에 해당되는 레이어를 활성화하여 영상을 제공하는 것을 특징으로 한다.
본 발명의 또 다른 실시예에 따른 발음 학습 지원 시스템의 정보 처리 방법에 있어서, 상기 발음 학습 지원 시스템이 자신이 관리하고 있는 데이터베이스 또는 외부의 데이터베이스에 접근하여 (a) 목표 언어의 발음 대상 및 상기 목표 언어의 발음 대상에 대응되는 참조 언어의 발음 대상에 대한 발성 시 구강 내부의 공간을 통해 흐르는 기류의 세기 및 방향 정보를 포함하는 권장 기류 정보 데이터 및 해당 발음에 대한 발성 시 공명이 발생하는 조음 기관 상의 위치 정보를 포함하는 권장 공명점 정보 데이터 중 적어도 일부를 획득하는 단계; 및 (b) 상기 목표 언어 중 특정 목표 언어가 선택되고 상기 참조 언어 중 특정 참조 언어가 선택되며, 상기 특정 목표 언어의 발음 대상 중 특정 목표 언어 발음 대상이 선택되고 상기 특정 참조 언어의 발음 대상 중 특정 참조 언어 발음 대상이 선택되면, (i) 상기 특정 목표 언어 발음 대상에 대응되는 제1 특정 권장 기류 정보 데이터를 구강 내부의 공간에 표시하는 프로세스 및 상기 특정 목표 언어 발음 대상에 대응되는 제1 특정 권장 공명점 정보 데이터를 조음 기관 상의 특정 위치에 표시하는 프로세스 중 적어도 하나를 이미지 프로세싱 장치를 사용하여 처리하고, (ii) 상기 특정 참조 언어 발음 대상에 대응되는 제2 특정 권장 기류 정보 데이터를 구강 내부의 공간에 표시하는 프로세스 및 상기 특정 참조 언어 발음 대상에 대응되는 제2 특정 권장 공명점 정보 데이터를 조음 기관 상의 특정 위치에 표시하는 프로세스 중 적어도 하나를 처리하여 상기 이미지 프로세싱 장치를 사용하여 영상을 제공하는 단계를 포함하는 발음 학습 지원 시스템의 정보 처리 방법을 개시한다.
본 발명의 또 다른 실시예에 따르면, 상기 (b) 단계는, (b1) 오디오 센서를 사용하여 상기 발음 학습 지원 시스템의 사용자의 발성으로부터 음성 데이터를 획득하는 단계; (b2) 상기 획득된 음성 데이터를 분석하여 상기 참조 언어의 종류를 획득하는 단계; 및 (b3) 상기 획득된 참조 언어의 종류에 대응되어 있는 적어도 하나의 목표 언어 중 상기 발음 학습 지원 시스템을 사용했던 복수의 피험자들이 상기 획득된 참조 언어의 종류에 대한 페어(pair)로서 가장 많이 선택했던 상위 n 개의 목표 언어의 종류를 제공하여 선택을 지원하는 단계를 포함하는 것을 특징으로 한다.
본 발명의 또 다른 실시예에 따르면, 상기 (b) 단계는, (b1) 상기 발음 학습 지원 시스템의 사용자의 발성으로부터 오디오 센서를 사용하여 음성 데이터를 획득하는 단계; (b2) 상기 획득된 음성 데이터를 분석하여 상기 목표 언어의 종류를 획득하는 단계; 및 (b3) 상기 획득된 목표 언어의 종류에 대응되어 있는 적어도 하나의 참조 언어 중 상기 발음 학습 지원 시스템을 사용했던 복수의 피험자들이 상기 획득된 목표 언어의 종류에 대한 페어(pair)로서 가장 많이 선택했던 상위 n 개의 참조 언어의 종류를 제공하여 선택을 지원하는 단계를 포함하는 것을 특징으로 한다.
본 발명의 또 다른 실시예에 따르면, 상기 (a) 단계는, (a1) 복수의 피험자를 대상으로 상기 목표 언어의 발음 대상별로 발성 정보를 획득하고 상기 참조 언어의 발음 대상별로 발성 정보를 획득하는 단계; (a2) 상기 목표 언어 및 상기 참조 언어의 발성 정보별로 획득한 발성 정보에 대하여 주파수 분석을 각각 수행하는 단계; 및 (a3) 상기 주파수 분석을 참조로 하여, 포먼트 주파수 중 가장 낮은 두 개의 주파수인 F1 및 F2를 참조로 하여 상기 권장 공명점 정보 데이터를 상기 목표 언어 및 상기 참조 언어의 발성 정보별로 획득하는 단계를 포함하는 것을 특징으로 한다.
본 발명의 또 다른 실시예에 따르면, 상기 발음 학습 지원 시스템의 사용자로부터의 특정 발음 대상에 대한 발성이 상기 특정 목표 언어 또는 상기 특정 참조 언어의 발성으로서 감지되면, 상기 (b) 단계는, (b1) 상기 감지된 발성으로부터 상기 사용자의 상기 특정 발음 대상에 대한 실제 공명점 정보 데이터를 획득하는 단계; 및 (b2) 상기 특정 발음 대상에 대응되어 저장되어 있는 상기 제1 특정 권장 공명점 정보 데이터 및 상기 제2 특정 권장 공명점 정보 데이터 중 적어도 하나와 상기 실제 공명점 정보 데이터를 이미지 프로세싱 장치를 사용하여 조음 기관 상의 해당 위치에 각각 표시하는 프로세스를 처리하여 영상을 제공하는 단계를 포함하는 것을 특징으로 한다.
본 발명의 또 다른 실시예에 따르면, 상기 조음 기관은 n 개이며, 상기 조음 기관 중 적어도 일부는 서로 다른 레이어로 처리되도록 하기 위한 메타데이터가 저장되어 있고, 상기 발음 학습 지원 시스템의 사용자에 의해 상기 특정 목표 언어 발음 대상 또는 상기 특정 참조 언어 발음 대상이 선택되면, 상기 특정 목표 언어 발음 대상 또는 상기 특정 참조 언어 발음 대상에 대응되는 적어도 하나의 특정 조음 기관에 해당되는 레이어를 이미지 프로세싱 장치를 사용하여 활성화하여 영상을 제공하는 것을 특징으로 한다.
본 발명의 일 실시예에 따른 발음 학습 지원 시스템은 자신에 포함되거나 연동되는 영상 센서가 상기 발음 학습 지원 시스템을 이용하는 사용자의 시선 방향을 인식하거나 얼굴의 방향을 인식하면, 인식된 방향을 참조로 하여 결정된 제1 투시 방향에서 바라본 상태의 발음 학습 관련 영상을 제공할 수 있도록 상기 발음 학습 지원 시스템에 포함되거나 연동되는 이미지 프로세싱 장치가 이미지 프로세싱 작업을 처리하도록 함으로써, 사용자가 간편하게 언어 학습의 전문적인 데이터 내용을 다양한 각도의 영상을 통해 제공 받을 수 있는 사용자 편의적인 유저 인터페이스를 구현할 수 있다는 효과가 있다.
또한, 상기 발음 학습 지원 시스템은 자신이 포함하거나 접근 가능한 데이터베이스를 관리할 수 있는데, 상기 데이터베이스에는 발음 대상별로 해당 발음에 대한 발성 시 구강 내부의 공간을 통해 흐르는 기류의 세기 및 방향 정보를 포함하는 권장 기류 정보 데이터 및 해당 발음에 대한 발성 시 공명이 발생하는 조음 기관 상의 위치 정보를 포함하는 권장 공명점 정보 데이터 중 적어도 일부가 기록될 수 있으며, 상기 발음 학습 지원 시스템은 상기 데이터베이스에 기록된 권장 기류 정보 데이터 및 권장 공명점 정보 데이터 중 적어도 일부를 소정 조건에 따라 상기 데이터베이스로부터 획득하고 이미지 프로세싱 장치를 통해 이를 영상에 표시하여 제공함으로써, 상기 발음 학습 지원 시스템의 사용자가 보다 편리하게 각종 언어에 대한 발음 학습을 매우 체계적이고 전문적으로 익힐 수 있도록 지원할 수 있다는 효과가 있다.
또한, 상기 발음 학습 지원 시스템은 복수의 피험자를 대상으로 발음 대상별로 발성 정보를 획득하고 상기 발성 정보별로 획득한 발성 정보에 대하여 주파수 분석을 수행하거나 이를 지원할 수 있는데, 이와 같은 주파수 분석을 수행하기 위하여 상기 발음 학습 지원 시스템은 오디오 센서의 일종인 주파수 분석 장치를 포함하거나 이와 연동될 수 있을 것이며, 상기 주파수 분석 장치는 포먼트 주파수 중 가장 낮은 두 개의 주파수인 F1 및 F2를 추출해낼 수 있으며 이와 같이 추출된 F1 및 F2 주파수 값을 참조로 하여 상기 권장 공명점 정보 데이터를 발성 정보별로 획득하고 이와 같이 획득된 데이터가 상기 데이터베이스 상에 기록되도록 함으로써, 상기 발음 학습 지원 시스템을 이용하는 사용자가 매우 합리적이고 정확한 발성 정보를 발음 대상별로 시청할 수 있도록 지원할 수 있다는 효과가 있다.
또한, 상기 발음 학습 지원 시스템은 사용자의 특정 발음 대상에 대한 발성을 감지하기 위하여 오디오 센서를 포함하거나 이와 연동될 수 있으며, 상기 오디오 센서를 사용하여 사용자의 상기 특정 발음 대상에 대한 실제 공명점 정보 데이터를 획득할 수 있는데, 상기 실제 공명점 정보 데이터를 제1 투시 방향을 기준으로 제공되는 영상 내의 조음 기관 상의 해당 위치에 표시할 때 이미지 프로세싱 장치가 동작되도록 함으로써 상기 데이터베이스에 기록된 특정 권장 공명점 정보 데이터를 상기 제1 투시 방향을 기준으로 제공되는 영상 내의 조음 기관 상의 해당 위치에 구별하여 표시할 수 있고, 이를 통해 사용자가 자신의 발음에 따른 실제 공명점 정보와 데이터베이스에 기록되어 있는 권장 공명점 정보를 한 눈에 간편하게 비교해 볼 수 있도록 지원할 수 있다는 효과가 있다.
또한, 상기 이미지 프로세싱 장치는 상기 조음 기관 중 적어도 일부를 서로 다른 레이어로 처리되도록 하기 위하여 메타데이터를 참조할 수 있으며, 상기 메타데이터는 이미지 프로세싱 장치가 직접 포함하여 관리하고 있거나 소정의 데이터베이스에 접근하여 획득하여 참조할 수 있도록 함으로써, 상기 발음 학습 지원 시스템의 사용자가 본인이 발음하는 특정 발음 대상의 발성에 사용되는 조음 기관만을 활성화시켜 영상에 포함되도록 하여 사용자의 흥미와 언어 학습의 효과를 증진시킬 수 있다는 효과가 있다.
또한, 본 발명의 다른 실시예에 따른 발음 학습 지원 시스템에 포함되거나 연동되는 이미지 프로세싱 장치가 (i) 특정 발음 대상에 대응되어 있는 특정 준비 데이터에 포함되어 있는 구강 내부의 공간의 상태 및 조음 기관의 상태에 대한 정보를 표시하여 준비 구강 영상 정보를 제공하는 프로세스, (ii) 상기 특정 발음 대상에 대응되어 있는 특정 권장 기류 정보 데이터 및 특정 권장 공명점 정보 데이터 중 적어도 일부를 구강 내부의 공간 및 조음 기관 상의 적어도 일부의 위치에 표시하여 발성 구강 영상 정보를 제공하는 프로세스, (iii) 상기 특정 발음 대상에 대응되어 있는 특정 후속 데이터에 포함되어 있는 구강 내부의 공간의 상태 및 조음 기관의 상태에 대한 정보를 표시하여 후속 구강 영상 정보를 제공하는 프로세스를 처리하여 영상을 제공함으로써, 사용자로 하여금 특정 발음 대상에 대한 준비 과정부터 본 과정, 후속 과정에 이르기까지 정확한 발음 학습을 할 수 있다는 효과가 있다.
상기 발음 학습 지원 시스템은 자신에 포함되거나 접근 가능한 데이터베이스로부터 (i) 발음 대상별로 해당 발음 대상이 발성되기 전의 구강 내부의 공간의 상태 및 조음 기관의 상태에 대한 정보를 포함하는 준비 데이터 중 적어도 일부를 획득하고, (ii) 해당 발음에 대한 발성 시 상기 구강 내부의 공간을 통해 흐르는 기류의 세기 및 방향 정보를 포함하는 권장 기류 정보 데이터 및 해당 발음에 대한 발성 시 공명이 발생하는 조음 기관 상의 위치 정보를 포함하는 권장 공명점 정보 데이터 중 적어도 일부를 획득하고, (iii) 해당 발음 대상이 발성된 후의 상기 구강 내부의 공간의 상태 및 상기 조음 기관의 상태에 대한 정보를 포함하는 후속 데이터 중 적어도 일부를 획득하기 위하여, 각 언어별, 사람의 성별, 연령별로 모음 발음 시에 구강 내에 공명이 일어날 수 있는 범위를 계산하기 위한 오디오 센서를 포함하거나 이와 연동될 수 있는데, 상기 오디오 센서는 상기 계산된 공명이 일어날 수 있는 범위의 평균값을 계산할 수 있고, 상기 계산된 평균값을 참조로 하여 소정의 구획이 설정되도록 함으로써, 이미지 프로세싱 장치가 상기 구획 정보를 바탕으로 하여 모음 사각도를 생성하여 이를 영상에 포함시켜 제공할 수 있도록 지원하고, 이를 통해 사용자가 공명 발생의 정확한 위치를 제공 받음으로써 언어 학습의 전문적인 정보를 정확하게 제공 받을 수 있다는 효과가 있다.
또한, 상기 발음 학습 지원 시스템은 복수의 피험자를 대상으로 발음 대상별로 발성 정보를 획득하고 상기 발성 정보별로 획득한 발성 정보에 대하여 주파수 분석을 수행하거나 이를 지원할 수 있는데, 이와 같은 주파수 분석을 수행하기 위하여 상기 발음 학습 지원 시스템은 오디오 센서의 일종인 주파수 분석 장치를 포함하거나 이와 연동될 수 있을 것이며, 상기 주파수 분석 장치는 포먼트 주파수 중 가장 낮은 두 개의 주파수인 F1 및 F2를 추출해낼 수 있으며 이와 같이 추출된 F1 및 F2 주파수 값을 참조로 하여 상기 권장 공명점 정보 데이터를 발성 정보별로 획득하고 이와 같이 획득된 데이터가 상기 데이터베이스 상에 기록되도록 함으로써, 상기 발음 학습 지원 시스템을 이용하는 사용자가 매우 합리적이고 정확한 발성 정보를 발음 대상별로 시청 및 청취할 수 있다는 효과가 있다.
상기 발음 학습 지원 시스템은 사용자의 특정 발음 대상에 대한 발성을 감지하기 위하여 오디오 센서를 포함하거나 이와 연동될 수 있으며, 상기 오디오 센서를 사용하여 사용자의 상기 특정 발음 대상에 대한 실제 공명점 정보 데이터를 획득할 수 있는데, 상기 실제 공명점 정보 데이터를 영상 내의 조음 기관 상의 해당 위치에 표시할 때 이미지 프로세싱 장치가 동작되도록 함으로써 상기 데이터베이스에 기록된 특정 권장 공명점 정보 데이터를 영상 내의 조음 기관 상의 해당 위치에 비교되도록 구별하여 표시함으로써, 사용자가 자신의 발음에 따른 실제 공명점 정보와 데이터베이스에 기록되어 있는 권장 공명점 정보를 한 눈에 간편하게 비교해 볼 수 있도록 지원할 수 있다는 효과가 있다.
또한, 상기 이미지 프로세싱 장치는 상기 조음 기관 중 적어도 일부를 서로 다른 레이어로 처리되도록 하기 위하여 메타데이터를 참조할 수 있으며, 상기 메타데이터는 이미지 프로세싱 장치가 직접 포함하여 관리하고 있거나 소정의 데이터베이스에 접근하여 획득하여 참조할 수 있도록 함으로써, 상기 발음 학습 지원 시스템의 사용자가 본인이 발음하는 특정 발음 대상의 발성에 사용되는 조음 기관만을 활성화시켜 영상에 포함되도록 하여 사용자의 흥미와 언어 학습의 효과를 증진시킬 수 있다는 효과가 있다.
또한, 본 발명의 또 다른 실시예에 따른 발음 학습 지원 시스템에 포함되거나 연동되는 이미지 프로세싱 장치가 (i) 상기 특정 목표 언어 발음 대상에 대응되는 제1 특정 권장 기류 정보 데이터를 구강 내부의 공간에 표시하는 프로세스 및 상기 특정 목표 언어 발음 대상에 대응되는 제1 특정 권장 공명점 정보 데이터를 조음 기관 상의 특정 위치에 표시하는 프로세스 중 적어도 하나를 처리하고, (ii) 상기 특정 참조 언어 발음 대상에 대응되는 제2 특정 권장 기류 정보 데이터를 구강 내부의 공간에 표시하는 프로세스 및 상기 특정 참조 언어 발음 대상에 대응되는 제2 특정 권장 공명점 정보 데이터를 조음 기관 상의 특정 위치에 표시하는 프로세스 중 적어도 하나를 처리하여 영상을 제공함으로써, 사용자가 목표 언어와 참조 언어의 발성 비교를 통하여 외국어의 발음을 정확하게 학습하도록 할 수 있다는 효과가 있다.
또한, 상기 발음 학습 지원 시스템은 복수의 피험자를 대상으로 발음 대상별로 발성 정보를 획득하고 상기 발성 정보별로 획득한 발성 정보에 대하여 주파수 분석을 수행하거나 이를 지원할 수 있는데, 이와 같은 주파수 분석을 수행하기 위하여 상기 발음 학습 지원 시스템은 오디오 센서의 일종인 주파수 분석 장치를 포함하거나 이와 연동될 수 있을 것이며, 상기 주파수 분석 장치는 포먼트 주파수 중 가장 낮은 두 개의 주파수인 F1 및 F2를 추출해낼 수 있으며 이와 같이 추출된 F1 및 F2 주파수 값을 참조로 하여 상기 권장 공명점 정보 데이터를 발성 정보별로 획득하고 이와 같이 획득된 데이터가 상기 데이터베이스 상에 기록되도록 함으로써, 상기 발음 학습 지원 시스템을 이용하는 사용자가 매우 합리적이고 정확한 발성 정보를 발음 대상별로 시청 및 청취할 수 있도록 지원할 수 있다는 효과가 있다.
상기 발음 학습 지원 시스템은 사용자의 특정 발음 대상에 대한 발성을 감지하기 위하여 오디오 센서를 포함하거나 이와 연동될 수 있으며, 상기 오디오 센서를 사용하여 사용자의 상기 특정 발음 대상에 대한 실제 공명점 정보 데이터를 획득할 수 있는데, 상기 실제 공명점 정보 데이터를 제1 투시 방향을 기준으로 제공되는 영상 내의 조음 기관 상의 해당 위치에 표시할 때 이미지 프로세싱 장치가 동작되도록 함으로써 상기 데이터베이스에 기록된 특정 권장 공명점 정보 데이터를 상기 제1 투시 방향을 기준으로 제공되는 영상 내의 조음 기관 상의 해당 위치에 비교되도록 구별하여 표시함으로써, 사용자가 자신의 발음에 따른 실제 공명점 정보와 데이터베이스에 기록되어 있는 권장 공명점 정보를 한 눈에 간편하게 비교해 볼 수 있도록 지원할 수 있다는 효과가 있다.
또한, 상기 이미지 프로세싱 장치는 상기 조음 기관 중 적어도 일부를 서로 다른 레이어로 처리되도록 하기 위하여 메타데이터를 참조할 수 있으며, 상기 메타데이터는 이미지 프로세싱 장치가 직접 포함하여 관리하고 있거나 소정의 데이터베이스에 접근하여 획득하여 참조할 수 있도록 함으로써, 상기 발음 학습 지원 시스템의 사용자가 본인이 발음하는 특정 발음 대상의 발성에 사용되는 조음 기관만을 활성화시켜 영상에 포함되도록 하여 사용자의 흥미와 언어 학습의 효과를 증진시킬 수 있다는 효과가 있다.
도 1은 본 발명의 발음 학습 지원 시스템의 일 실시예적 구성에 관한 도면이다.
도 2는 본 발명의 발음 학습 지원 시스템의 다른 일 실시예적 구성에 관한 도면이다.
도 3은 본 발명의 발음 학습 지원 시스템의 발음 학습 지원 DB부의 일 실시예적 구성에 관한 도면이다.
도 4은 본 발명의 발음 학습 지원 시스템의 3차원 영상 정보 처리 모듈의 일 실시예적 정보 처리 방법에 관한 도면이다.
도 5는 제1 및 제2 3차원 영상 정보를 제공하는 본 발명의 발음 학습 지원 시스템의 3차원 영상 정보 처리 모듈의 일 실시예적 정보 처리 방법에 관한 도면이다.
도 6은 제어 정보를 입수 받고 제어 정보에 대응되는 3차원 영상 정보를 제공하는 본 발명의 발음 학습 지원 시스템의 3차원 영상 정보 처리 모듈의 일 실시예적 정보 처리 방법에 관한 도면이다.
도 7은 투시 방향 선택 정보를 입수 받고, 투시 방향에 대응되는 3차원 영상 정보를 제공하는 본 발명의 발음 학습 지원 시스템의 3차원 영상 정보 처리 모듈의 일 실시예적 정보 처리 방법에 관한 도면이다.
도 8은 조음 기관별 레이어 선택 정보를 입수 받고, 조음 기관별 레이어에 대응되는 3차원 영상 정보를 제공하는 본 발명의 발음 학습 지원 시스템의 3차원 영상 정보 처리 모듈의 일 실시예적 정보 처리 방법에 관한 도면이다.
도 9는 사용자로부터 입수한 음성 정보를 처리하는 본 발명의 발음 학습 지원 시스템의 3차원 영상 정보 처리 모듈의 일 실시예적 정보 처리 방법에 관한 도면이다.
도 10 내지 도 12는 [p]에 대하여 예시적인 제1 투시 방향을 기준으로 제공되는 한 본 발명의 제1 3차원 영상 정보를 구성하는데 포함된 일 실시예적 이미지들이다.
도 13 내지 도 14는 투시되는 방향이 연속적으로 변동하고 있음을 보여주는 제1 3차원 영상 제공과 제2 3차원 영상 제공의 중간 단계를 보여 주는 도면이다.
도 15 내지 도 17는 [p]에 대하여 예시적인 제2 투시 방향을 기준으로 제공되는 본 발명의 제2 3차원 영상 정보를 구성하는데 포함된 일 실시예적 이미지들이다.
도 18 내지 도 20는 [p]에 대하여 예시적인 제3 투시 방향을 기준으로 제공되는 본 발명의 다른 제2 3차원 영상 정보를 구성하는데 포함된 일 실시예적 이미지들이다.
도 21 내지 도 23는 [p]에 대하여 예시적인 제4 투시 방향을 기준으로 제공되는 본 발명의 또다른 제2 3차원 영상 정보를 구성하는데 포함된 일 실시예적 이미지들이다.
도 24 내지 도 26는 [p]에 대하여 예시적인 4개의 투시 방향을 기준으로 통합적으로 제공되는 본 발명의 3차원 영상 정보를 구성하는데 포함된 일 실시예적 이미지들이다.
도 27 내지 도 29는 반모듬 [w]에 대하여 예시적인 제1 투시 방향을 기준으로 제공되는 한 본 발명의 제1 3차원 영상 정보를 구성하는데 포함된 일 실시예적 이미지들이다.
도 30 내지 도 32는 반모음 [w]에 대하여 예시적인 제2 투시 방향을 기준으로 제공되는 본 발명의 제2 3차원 영상 정보를 구성하는데 포함된 일 실시예적 이미지들이다.
도 33 내지 도 34는 본 발명의 공명점 정보 및 권장 공명점 정보가 비교되어 제공되는 본 발명의 발음 학습 지원 시스템의 3차원 영상 정보 처리 모듈의 일 실시예적 정보 처리 결과에 관한 도면이다.
도 35는 구강 영상 정보를 제공하는 본 발명의 발음 학습 지원 시스템의 구강 영상 정보 처리 모듈의 일 실시예적 구성에 관한 도면이다.
도 36은 발음 대상에 대한 구강 영상 정보를 제공하는 본 발명의 발음 학습 지원 시스템의 구강 영상 정보 처리 모듈의 일 실시예적 정보 처리 방법에 관한 도면이다.
도 37은 입수 받은 구강 영상에 대한 제어 정보에 대응하는 구강 영상 정보를 제공하는 본 발명의 발음 학습 지원 시스템의 구강 영상 정보 처리 모듈의 일 실시예적 정보 처리 방법에 관한 도면이다.
도 38은 입수 받은 발음 지원 시각화 수단에 대응하는 구강 영상 정보를 제공하는 본 발명의 발음 학습 지원 시스템의 구강 영상 정보 처리 모듈의 일 실시예적 정보 처리 방법에 관한 도면이다.
도 39는 입수 받은 조음 기관별 레이어 선택 정보에 대응하는 구강 영상 정보를 제공하는 본 발명의 발음 학습 지원 시스템의 구강 영상 정보 처리 모듈의 일 실시예적 정보 처리 방법에 관한 도면이다.
도 40은 사용자로부터 입수한 음성 정보를 처리하는 본 발명의 발음 학습 지원 시스템의 구강 영상 정보 처리 모듈의 일 실시예적 정보 처리 방법에 관한 도면이다.
도 41은 음소[ch]에 대한 구강 영상 정보의 제공을 요청 받았을 경우, 상기 마찰음에 대하여 준비 구강 영상 정보로 제공하는 본 발명의 발음 학습 지원 시스템의 구강 영상 정보 처리 모듈의 일 실시예적 결과에 관한 도면이다.
도 42 내지 도 45는 음소[ch]에 대한 구강 영상 정보의 제공을 요청 받았을 경우, 상기 마찰음에 대하여 발성 구강 영상 정보로 제공하는 본 발명의 발음 학습 지원 시스템의 구강 영상 정보 처리 모듈의 일 실시예적 결과에 관한 도면이다.
도 46은 음소[ch]에 대한 구강 영상 정보의 제공을 요청 받았을 경우, 상기 마찰음에 대하여 후속 구강 영상 정보로 제공하는 본 발명의 발음 학습 지원 시스템의 구강 영상 정보 처리 모듈의 일 실시예적 결과에 관한 도면이다.
도 47은 음소[ei]에 대한 구강 영상 정보의 제공을 요청 받았을 경우, 상기 음소에 대하여 준비 구강 영상 정보로 제공하는 본 발명의 발음 학습 지원 시스템의 구강 영상 정보 처리 모듈의 일 실시예적 결과에 관한 도면이다.
도 48 내지 도 50는 음소[ei]에 대한 구강 영상 정보의 제공을 요청 받았을 경우, 상기 음소에 대하여 발성 구강 영상 정보로 제공하는 본 발명의 발음 학습 지원 시스템의 구강 영상 정보 처리 모듈의 일 실시예적 결과에 관한 도면이다.
도 51은 음소[ei]에 대한 구강 영상 정보의 제공을 요청 받았을 경우, 상기 음소에 대하여 후속 구강 영상 정보로 제공하는 본 발명의 발음 학습 지원 시스템의 구강 영상 정보 처리 모듈의 일 실시예적 결과에 관한 도면이다.
도 52는 성대 울림이 있는 경우, 성대 쪽에 울림을 의미하는 표시하는 성대 울림 이미지 데이터(1481)와 파형 이미지가 추가적으로 제공되는 본 발명 사상이 적용되는 발성 구강 영상 정보의 일 실시예적 이미지이다.
도 53은 모음 사각도 이미지가 포함되어 있는 본 발명의 발음 학습 지원 시스템의 구강 영상 정보 처리 모듈의 준비 구강 영상 정보 처리에 대한 일 실시예적 결과에 관한 도면이다.
도 54는 모음 사각도 이미지가 포함되어 있는 본 발명의 발음 학습 지원 시스템의 구강 영상 정보 처리 모듈의 발성 구강 영상 정보 처리에 대한 일 실시예적 결과에 관한 도면이다.
도 55는 사용자 발성 정보를 입력받아서, 사용자 발성 정보의 F1 및 F2를 처리하여 사용자 발성 공명점 정보(별표 모양)가 표시되어 있는 본 발명의 발음 학습 지원 시스템의 구강 영상 정보 처리 모듈의 발성 구강 영상 정보 처리에 대한 일 실시예적 결과에 관한 도면이다.
도 56 내지 도 59는 발성 구성 영상 정보 중 근육 긴장 표시 수단이 반영되어 표시되어 있는 본 발명의 발음 학습 지원 시스템의 구강 영상 정보 처리 모듈의 발성 구강 영상 정보 처리에 대한 일 실시예적 결과에 관한 도면이다.
도 60은 참조 언어의 발음과 비교하여 목표 언어의 발음에 대한 학습을 지원하는 본 발명의 발음 학습 지원 시스템의 맵핑 발음 학습 지원 모듈의 일 실시예적 구성에 관한 도면이다.
도 61은는 참조 언어의 발음과 비교하여 목표 언어의 발음에 대한 학습을 지원하는 본 발명의 발음 학습 지원 시스템의 맵핑 발음 학습 지원 모듈의 일 실시예적 정보 처리 방법에 관한 도면이다.
도 62는 입수한 목표 언어 발음 대상 정보와 맵핑되는 참조 언어 발음 대상 정보를 조회 처리하는 본 발명의 발음 학습 지원 시스템의 맵핑 발음 학습 지원 모듈의 일 실시예적 정보 처리 방법에 관한 도면이다.
도 63은 제어 정보를 참조하여 참조 언어 발음 대응 구강 영상 정보, 목표 언어 발음 대응 구강 영상 정보 및 목표-참조 비교 정보를 제공하는 본 발명의 발음 학습 지원 시스템의 맵핑 발음 학습 지원 모듈의 일 실시예적 정보 처리 방법에 관한 도면이다.
도 64는 사용자-목표-참조 비교 정보가 포함된 사용자-목표-참조 비교 영상 정보 제공하는 본 발명의 발음 학습 지원 시스템의 맵핑 발음 학습 지원 모듈의 일 실시예적 정보 처리 방법에 관한 도면이다.
도 65는 목표 언어 [i]에 대응되는 참조 언어 [이]에 대한 참조 언어 발음 대상에 대한 참조 언어 발음 대응 구강 영상 정보가 표시되는 본 발명의 발음 학습 지원 시스템의 복수 언어간 맵핑 처리 모듈의 정보 처리에 대한 일 실시예적 결과에 관한 도면이다.
도 66은 목표 언어 [i]에 대한 발음 대상 대응 구강 영상 정보와 목표 언어 [i]에 대응되는 참조 언어 [이]에 대한 참조 언어 발음 대응 구강 영상 정보가 함께 표시되는 본 발명의 발음 학습 지원 시스템의 복수 언어간 맵핑 처리 모듈의 정보 처리에 대한 일 실시예적 결과에 관한 도면이다.
도 67는 목표 언어 [^]과 [:] 에 대응되는 참조 언어 [어]에 대한 참조 언어 발음 대상에 대한 참조 언어 발음 대응 구강 영상 정보가 표시되는 본 발명의 발음 학습 지원 시스템의 복수 언어간 맵핑 처리 모듈의 정보 처리에 대한 일 실시예적 결과에 관한 도면이다.
도 68은 목표 언어 [^]에 대한 발음 대상 대응 구강 영상 정보와 목표 언어 [^]에 대응되는 참조 언어 [어]에 대한 참조 언어 발음 대응 구강 영상 정보가 함께 표시되는 본 발명의 발음 학습 지원 시스템의 복수 언어간 맵핑 처리 모듈의 정보 처리에 대한 일 실시예적 결과에 관한 도면이다.
도 69은 목표 언어 [^] 및 [:]에 대한 발음 대상 대응 구강 영상 정보와 목표 언어 [^] 및 [:]에 대응되는 참조 언어 [어]에 대한 참조 언어 발음 대응 구강 영상 정보가 모두 함께 표시되는 본 발명의 발음 학습 지원 시스템의 복수 언어간 맵핑 처리 모듈의 정보 처리에 대한 일 실시예적 결과에 관한 도면이다.
도 70 내지 도 73은 자음에 대한 본 발명 사상을 적용한 본 발명의 발음 학습 지원 시스템의 복수 언어간 맵핑 처리 모듈의 정보 처리에 대한 일 실시예적 결과에 관한 도면이다.
이하, 도면을 참조하면서 더욱 더 상세하게 설명한다.
도 1에서 예시되어 있듯이, 본 발명의 발음 학습 지원 시스템(1000)은 유무선 네트워크(5000)를 통하여 적어도 하나 이상의 사용자 단말기(2000)와 정보를 주고 받으며, 사용자에게 발음 학습을 지원할 수 있다. 상기 사용자 단말기(2000)는 상기 발음 학습 지원 시스템(1000)의 입장에서 상기 발음 학습 지원 시스템(1000)의 기능과 서비스를 주고 받는 대상으로, 본 발명에서는 상기 사용자 단말기(2000)에 PC, 스마트 폰, 휴대용 컴퓨터 등과 개인용 단말기 뿐만 아니라, 제3의 시스템도 배제되지 않는다. 상기 제3의 시스템은 본 발명의 발음 학습 지원 시스템(1000)에게 정보를 받아서, 자신의 서비스를 받는 자의 단말기에 전송하여 줄 수 있음은 물론일 것이다. 한편, 사용자 단말기(2000)에 전용 프로그램 또는 특정한 소프트웨어가 설치되어 있고, 상기 전용 프로그램 또는 소프트웨어가 상기 발음 학습 지원 시스템(1000)과 정보 교환하면서 본 발명 사상을 실행할 수 있음은 물론일 것이다. 한편, 도 2에서 예시되듯이 상기 발음 학습 지원 시스템(1000)은 사용자 단말기(2000) 내에서 구동될 수도 있음은 물론일 것이다. 상기 발음 학습 지원 시스템(1000)은 상기 발음 학습 지원 시스템(1000)을 위한 전용 단말기 또는 상기 발음 학습 지원 시스템(1000)에 설치되는 전용 프로그램 또는 특정한 소프트웨어 내에서 실행될 수 있을 것이다. 물론, 상기 전용 프로그램 또는 특정한 소프트웨어가 유무선 네트워크(5000)를 통하여 상기 발음 학습 지원 시스템(1000)으로부터 최신 서비스나 갱신된 콘텐츠를 업데이트 받을 수 있음도 물론일 것이다.
상기 발음 학습 지원 시스템(1000)은 발음 학습을 위한 3차원 파노라마 영상 정보를 처리하는 3차원 영상 정보 처리 모듈(1100), 구강 영상 정보를 처리하는 구강 영상 정보 처리 모듈(1200), 이종 언어를 사용하여 발음 학습을 지원하는 맵핑 발음 학습 지원 모듈(1300) 중 어느 하나 이상을 포함하고 있을 수 있다. 한편, 상기 발음 학습 지원 시스템(1000)은 발음 학습을 지원하기 위한 각종 DB 및 데이터를 포함하고 있는 발음 학습 지원 DB부(1400)를 포함하고 있을 수 있다. 한편, 상기 발음 학습 지원 DB부(1400)는 유무선 네트워크(5000)로 연결된 사용자 단말기(2000) 또는 제3의 시스템과 정보를 주고 받는 기능을 수행하는 입출력부(1600) 및 물리적인 통신 기능을 담당하는 통신 지원부(1800)를 포함하고 있으며, 서버나 기타 통상적인 컴퓨팅 기능을 제공하기 위한 물리적 장치와의 통상적인 정보 처리를 위한 각종 기능 모듈을 포함하고 있다. 그리고, 상기 발음 학습 지원 시스템(1000)은 단위 영상 또는 영상을 구성하는 이미지를 결합하여 결합 영상을 생성하는 열결부 및 특화된 정보를 처리하는 특화 정보 처리부(1700)를 포함하고 있을 수 있다.
상기 3차원 영상 정보 처리 모듈(1100)은 3차원 영상 정보 데이터를 포함하고 있는 3차원 영상 정보 DB(1110), 3차원 영상 맵핑을 처리하는 3차원 영상 맵핑 처리 모듈(1120), 사용자 입력 기반 3차원 영상 정보를 처리하는 사용자 입력 기반 3차원 영상 처리부(1130) 및 사용자 단말기(2000) 또는 사용자 단말기(2000)의 디스플레이 장치에 파노라마 영상을 제공하는 파노라마 영상 제공 모듈(1140)을 포함하고 있을 수 있다. 상기 3차원 영상 정보 DB(1110)는 발음 대상별 3차원 영상 정보 데이터(1111), 발음 대상별 투시 방향별 3차원 영상 정보 데이터(1112) 및/또는 통합 3차원 영상 정보 데이터(1113) 등을 포함하고 있을 수 있다. 한편, 3차원 영상 맵핑 처리 모듈(1120)은 발음 대상별 3차원 영상 정보를 맵핑 처리하는 3차원 영상 맵핑 처리부(1121) 및 발음 대상별 3차원 영상 맵핑 관계 정보 데이터(1122)를 포함하고 있을 수 있다.
상기 구강 영상 정보 처리 모듈(1200)은 구강 영상 정보를 제공하고 있는 구강 영상 정보 DB(1210), 구강 영상 정보를 제공하는 구강 영상 제공 모듈(1220), 사용자의 입력을 받아서 구강 영상 정보를 처리하는 사용자 입력 기반 구강 영상 처리부(1230) 및 구강 영상 정보를 제공하는 구강 영상 정보 제공 모듈(1240)을 포함하고 있을 수 있다. 상기 구강 영상 정보 DB(1210)는 발음 대상별 준비 구강 영상 정보 데이터(1211), 발음 대상별 발성 구강 영상 정보 데이터(1212), 발음 대상별 후속 구강 영상 정보 데이터(1213) 및/또는 발음 대상별 통합 구강 영상 정보 데이터(1214) 중 어느 하나 이상을 포함하고 있을 수 있다. 상기 구강 영상 제공 모듈(1220)은 구강 영상 결합 제공부(1221) 또는 통합 구강 영상 제공부(1222) 중 어느 하나 이상을 포함하고 있을 수 있다.
상기 맵핑 발음 학습 지원 모듈(1300)은 발음 학습을 위한 이종 언어간의 맵핑 언어 영상 정보를 저장하고 있는 맵핑 언어 영상 정보 DB(1310), 복수 언어간 맵핑 처리 기능을 수행하는 복수 언어간 맵핑 처리 모듈(1320), 맵핑 언어 영상 정보의 제공을 제어하는 맵핑 언어 영상 정보 제공 제어부(1330) 및 사용자가 입력하는 정보에 기반하여 맵핑 언어 영상 정보를 처리하는 사용자 입력 기반 맵핑 언어 영상 처리부(1340)를 포함하고 있을 수 있다. 상기 맵핑 언어 영상 정보 DB(1310)는 목표 언어 발음 대응 구강 영상 정보 데이터(1311), 참조 언어 발음 대응 구강 영상 정보 데이터(1312), 목표-참조 비교 정보 데이터(1313) 및 통합 맵핑 언어 영상 정보 데이터(1314) 중 어느 하나 이상을 포함하고 있을 수 있다. 상기 복수 언어간 맵핑 처리 모듈(1320)은 복수 언어 간의 맵핑 정보를 처리하는 복수 언어 맵핑 처리부(1321) 및 발음 대상별 복수 언어간의 맵핑 정보를 저장하고 있는 발음 대상별 복수 언어간 맵핑 관계 정보 데이터(1322) 중 어느 하나 이상을 포함하고 있을 수 있다.
상기 발음 학습 지원 DB부(1400)는 본 발명 사상의 발음 학습을 지원하기 위한 각종 데이터를 포함하고 있다. 상기 발음 학습 지원 DB부(1400)에는 발음 학습 대상을 저장하고 있는 발음 학습 대상 데이터(1410), 조음 기관의 이미지를 저장하고 있는 조음 기관 이미지 데이터(1420), 기류 표시 이미지를 저장하고 있는 기류 표시 이미지 데이터(1430), 안면 이미지 정보를 저장하고 있는 안면 이미지 데이터(1440), 발음 대상별 청각 정보를 저장하고 있는 발음 대상별 청각 정보 데이터(1450), 공명정 정보를 저장하고 있는 공명점 정보 데이터(1460), 조음 위치 정보를 저장하고 있는 조음 위치 정보 데이터(1470), 성대 울림 이미지 정보를 저장하고 있는 성대 울림 이미지 데이터(1481), 모음 사각도 이미지 정보를 저장하고 있는 모음 사각도 이미지 데이터(1482), 접촉부 대응 이미지 정보를 저장하고 있는 접촉부 대응 이미지 데이터(1483), 근육 긴장 표시 이미지 데이터(1484)를 저장하고 있는 근육 긴장 표시 이미지 데이터(1484) 중 어느 하나 이상을 포함하고 있을 수 있다.
상기 발음 학습 대상 데이터(1410)에는 발음 학습의 대상이 되는 음소, 음절, 단어 및 단어열에 대한 정보를 포함한다. 음소에는 발음 학습의 대상이 되는 언어와 관련되는 발음 기호뿐만 아니라, 발음 학습을 위한 참조의 대상이 되는 언어와 관련되는 발음 기호를 포함할 수 있다. 음절은 상기 음소가 1개 이상 사용되어 형성되며, 상기 단어나 단어열도 음소의 선형적인 결합을 통해서 준비될 수 있다. 한편, 상기 음소, 음절에는 발음 학습의 대상이 되는 언어의 철자 또는 스펠링이 대응될 수도 있으며, 이러한 대응되는 철자 또는 스펠링도 상기 발음 학습 대상 데이터(1410)의 정보를 이룬다. 한편, 단어 및 단어열(구, 절 및 문장)은 철자 및 발음 기호가 대응될 수 있으므로, 철자 및 대응되는 발음 기호 또는 발음 기호열도 상기 발음 학습 대상 데이터(1410)의 중요한 구성 요소가 될 수 있다.
상기 조음 기관 이미지 데이터(1420)는 조음 기관의 이미지 데이터를 포함한다. 조음 기관의 이미지는 크게 3가지가 있을 수 있다. 첫째는 특정한 발음 대상을 위한 조음 기관별 이미지 데이터이다. 조음 기관에는 혀, 입술, 구강, 치아, 성대, 코 등이 있는데, 특정한 발음을 할 때, 이들 조음 기관 중에서 어느 하나 이상이 형태(시각적으로 인지되는 모양, 긴장, 근육의 움직임 등)이 변할 수 있다. 이때, 상기 조음 기관별 이미지 데이터는 특정한 발음을 위한 조음 기관의 움직임이 일어나는 시계열적 이미지(동영상적 이미지)를 말한다. 이러한 조음 기관별 이미지 데이터는 조음 기관별로 레이어 처리가 되어, 특정한 발음을 위해 각 레이어별로 겹쳐서 사용자에게 제공될 수 있다. 정확한 발음을 학습하기 위해 조음 기관별 심화 학습을 위해 사용자가 혀 등과 같은 특정한 조음 기관의 움직임만을 집중적으로 파악하고자 할 수 있다. 이 때, 레이어 처리가 되어 있어야 혀의 움직임과 관련된 레이어만을 사용자에게 제공할 수도 있고, 다른 레이어도 함께 제공하되, 혀에 대해서만 특별한 처리(확연히 구분되는 색깔, 경계선, 또는 기타 강조 처리)를 수행하고, 특별한 처리가 된 레이어를 기존의 다른 레이어와 결합하여 사용자 단말기(2000)로 제공해 줄 수 있게 된다. 레이어별 정보 처리는 본 발명의 영상 결합부(1500)의 레이어 처리부(1510)가 수행한다. 레이어 처리가 될 때 다른 조음 기관 이미지들과의 동기화 처리가 중요한데, 이러한 동기화 처리는 동기화 처리부(1520)가 수행한다. 한편, 이렇게 특별한 처리가 되었거나, 또는 조음 기관별 이미지가 결합되어 하나의 단일 영상(비 레이어 또는 단일 레이어로 구성)으로 생성될 수도 있는데, 이러한 처리는 본 발명의 단일 영상 생성부(1530)가 수행한다. 발음 대상별로 상기 단일 영상으로 된 영상에는 상기 발음 대상의 발음을 위한 모든 조음 기관 또는 시각적으로 제공할 필요가 있는 필수 또는 필요 조음 기관이 표시되는 이미지 영상이 포함된다. 한편, 1개의 조음 기관에 대해서도 적어도 1개 이상의 조음 기관 이미지 데이터(1420)가 포함될 수 있음을 당연할 것이다. 특히, 후술하는 파노라마 영상으로 발음 대상의 영상 이미지를 제공할 때는 더욱 더 그러하다. 상기 조음 기관 이미지 데이터(1420)는 발음 대상별로 맵핑되어 저장될 수 있다.
상기 기류 표시 이미지 데이터(1430)는 발음 학습을 위하여 조음 기관 내에서 발생하는 공기의 흐름, 강약, 압축과 해제 등에 대응되는 기류의 변화에 대응되는 이미지를 포함하고 있다. 상기 기류 표시 이미지 데이터(1430)는 발음 대상별로 다를 수도 있으며, 발음 대상별로 특정한 기류 표시 이미지 데이터(1430)를 공유할 수도 있다. 상기 기류 표시 이미지 데이터(1430)는 발음 대상별로 맵핑되어 저장될 수 있다.
상기 안면 이미지 데이터(1440)는 발음 대상별로 발음이 진행될 때, 안면 이미지를 제공하는데 필요한 데이터이다. 상기 안면 이미지 데이터(1440)는 발음이 진행되면서 구강의 열림과 닫힘, 안면 근육의 변화 등 안면에서 발생되는 각종 변화를 제공하여, 정확하고 효율적인 발음 학습을 돕는데 활용된다. 상기 안면 이미지 데이터(1440)는 특정한 발음 학습이 진행될 때, 독자적으로도 제공 가능하지만, 다른 영상과 부수적, 병렬적 또는 선후차적으로 제공될 수도 있다.
발음 대상별 청각 정보 데이터(1450)는 발음 대상별로 청각적으로 인지될 수 있는 소리 또는 발성 데이터이다. 이러한 소리 또는 발성은 1개의 발성 대상에 대하여 다수 개가 맵핑될 수 있다. 발음 대상의 발성음에는 음색, 남녀, 나이 등에 따라 사용자들에게 다르게 들릴 수 있기 때문에, 사용자에게 친숙하게 들리게 하기 위해서는 발음 대상 1개에 복수개의 발성음이 맵핑되어 있는 것이 바람직하다. 이때, 상기 사용자는 자신이 원하는 특성(예, 여자, 변성기 이전, 맑은 음색)에 대한 선택 정보를 상기 발음 학습 지원 시스템(1000)에 전송할 수 있고(이를 위해서는 상기 발음 학습 지원 시스템(1000)의 사용자 선택 정보 제공 요청부(1610)는 사용자 단말기(2000)에 상기 발음 학습 지원 시스템(1000)이 제공 가능한 발성음의 특성 정보를 제공하는 것이 바람직할 것이다.), 상기 발음 학습 지원 시스템(1000)은 이러한 특성에 부합하는 발성음으로 발음 학습을 진행할 수 있을 것이다. 이때, 상기 발성음과 발음 대상과 맵핑되어 있는 영상과는 동기화가 필요하며, 이는 본 발명의 동기화 처리부(1520)가 수행한다. 물론, 상기 발성음은 상기 발음 대상과 맵핑되어 있는 영상에 결합되어 존재할 수도 있을 것이다. 이때도, 상기 발음 대상과 맵핑되어 있는 영상을 선택 가능한 발성음의 특성의 가능한 조합별로 생성해 놓으면, 사용자가 선택하는 특성에 부합하는 발성음을 제공해 줄 수 있을 것이다.
발음 대상의 정확한 발음을 위해서는 정확한 위치에서 공명(모음 또는 반모음/반자음 일부에서 등)이 발생하는 것이 중요하다. 본 발명의 상기 공명점 정보 데이터(1460)에는 공명이 발생하는 발음 대상에 대하여 공명점 정보를 저장하고 있다. 공명점 정보에는 공명이 발생하는 조음 기관 내에서의 공명점 위치 정보 및 공명점을 시각적으로 인지할 수 있는 공명점 표시 이미지 데이터(1461)가 포함된다. 공명점 위치 정보는 구강 이미지에 따라서 시각적으로 인지되는 위치 좌표가 달라질 수 있으므로, 구강 이미지별로 절대적 위치 정보가 확보되거나, 상대적 위치 정보가 저장된다. 한편, 발음의 진행에 따라 공명점의 위치가 변동될 수 있는데(연속되는 모음 또는 단어 등의 발음 등에서) 이 경우 발음의 진행과 더불어 변동되는 공명점의 위치 변동은 동기화가 될 필요가 있다. 상기 영상 결합부(1500)는 발음 대상별로 발성 시간의 경과에 따른 공명점 위치 정보가 저장되어 있는 경우, 공명점 위치 정보의 변동을 구강 이미지에 결합하는 기능을 수행할 수 있다. 물론, 공명점의 변동은 공명점의 표시를 위한 독립된 레이어 상에서 처리될 수도 있으며, 이 경우 레이어 처리는 본 발명의 레이어 처리부(1510)가 수행하고, 동기화는 본 발명의 동기화 처리부(1520)가 수행한다. 한편, 공명은 발성이 진행되는 동안 일정 시간 이상 발생할 수 있기 때문에, 발음 대상의 영상 정보 제공 시에는 공명이 발생하는 동안 공명점에서는 공명점 표시 이미지 데이터(1461)를 사용하는 지속적인 공명 표시가 시각적으로 인지 될 수 있도록 유지되는 것이 바람직할 것이다. 한편, 공명이 발생하는 발음 대상에 대한 공명점 표시 이미지 데이터(1461)가 사용되는 공명 표시가 포함된 단일 영상이 생성될 수 있을 것이다. 사용자 단말기(2000)를 통하여 생성된 단일 영상 제공되는 동안 공명점 표시 이미지 데이터(1461)가 사용자에게 시각적으로 인지될 수 있을 것이다.
성대에서 일어난 발성으로 인하여 생성된 음성 에너지가 구강을 통과하면서 구강 내에서의 공진 주파수에 진폭이 최대치가 되는, 즉 공명이 일어 나고 있는 시점 또는 시간대 동안 동영상을 구성하는 이미지에 공명 표시 수단을 통해서 표시될 수 있다. 발음 지원 시각화 수단 중 가장 중요한 수단 중의 하나인 공명 표시 수단이 삽입되어 표시되면, 사용자들이 동영상 재생 시 음성 신호 및 각 음소 발음 시의 혀의 위치와 동기화 하여 구강 내 공명이 일어나고 있는 순간과 혀의 위치를 시각적으로 인지할 수 있게 되어  학습자가 구강 내에서의 위치 뿐 아니라 혀가 울리는 부분(공명이 일어나고 있는 위치)을 인식 및 예측할 수 있게 된다.
공명음(sonorants) 이란 구강(oral cavity)이나 비강(nasal cavity)을 통해 공기가 흐르면서 울리는 소리를 말한다. 장애음(obstruents) 에 상대하여 이르는 말로 대표적으로 각 언어의 모음, 반모음[w, j, 등], 유음 [l , r 등] 비음 [m, n, ng] 을 이른다. 이러한 공명음 중 반모음을 제외한 대다수의 공명음들은 (모음, 비음, 유음) 단어 내에서 독립적인 음절(의미를 만드는 말이 되는 최소한의 소리 덩어리)을 구성할 수 있기 때문에 언어 학습에서 이러한 공명음의 부정확한 발음은 특정 음운의 왜곡(distortion), 동화 (assimilation), 이화(substitution), 생략(omission) 같은 인지 상에 오류를 유발할 수 있기 때문에 각 음소별 정확한 발음 기관의 위치 조절 및 정확한 발성에 의한 안정적인 공명이 발생하였을 때 명확하게 의미를 전달할 수 있다.
일반적으로 F1 F2 포먼트 주파수의 공명점은 각 언어별 모든 모음과 한국어 와웨위야여유요예, 영어의 [w, j], 또는 프랑스어의 반모음(semivowel), 그리고 유음중 dark'l' (모음 역할을 하는 l 발음, 모음 뒤에 나오거나 'little' 처럼 자음의 뒤에 쓰여 하나의 독립된 음절을 형성할 수 있음) 의 경우에는 비교적 F1, F2 의 비율로 산정된 구강 내에서의 공명점의 위치의 변동값을 학습자가 시각적으로 인지할 수 있을 정도로 정확한 표시가 가능할 정도로 안정적인(steady) 값을 가지고 있다. 또한 공명점의 위치가 각 음소 발음 시에 특정위치에서의 혀의 표면과 정확하게 일치하기 때문에 시각적으로 이러한 부분을 인지하고 학습자의 음성으로 그러한 공명음류의 음소 발음을 모방할 시에 더욱 효과적인 이 가능하다.
하지만 이러한 공명음 중에서도 비음[m, n, ng] (구강뿐만 아니라 비강의 면적과 모양의 차이로 공명점을 찾는 소리) 나 유음중 자음역할 을 하는 light 'l' 발음 ('lead' 처럼 앞에 모음 없이 단독으로 위치하거나 'blade' 처럼 자음과 하나의 자음군(consonant clusters)을 형성하는 'l', [ r] 과 같은 공명음들은 발성되는 소리의 길이가 상대적으로 짧아서 정확한 공명점을 시각적으로 확인하기에는 어려움이 있고 또한 특정 공명음 음소 발음에서의 혀의 고정된 위치에서의 혀의 표면과 F1 F2의 공명점의 값이 전혀 일치 하지 않는 경우가 더 많기 때문에 이러한 공명음들은 공명점을 보여주기보다는 조음 위치와 발성, 발음 원리를 시간의 흐름에 따라 기호화 하여 표시하기로 한다. 즉, 이러한 소리들은 공명점으로 표기하지 않고 다른 자음들과 마찬가지 방식으로 조음 중심으로 풀어나가는 것이 바람직하다.
각 모음 발음별 공명점에 표시는 포먼트(formant) 주파수중 가장 낮은 주파수를 F1, F2라고 할 때 이 두 주파수 값의 비율을 분석한 기존 연구 논문들을 기반으로 분석하여 언어별 각 모음 발음 시에 공명이 일어나는 위치를 예측할  기 제작한 3D 시뮬레이션 영상의 구강에 있는 혀의 특정 위치의 표면에 공명이 일어나는 주파수 대역의 평균치를 환산하여 그 평균값을 방사형 모양의 표식을 통하여 동영상내의 각 모음 음성 신호의 재생 시작점부터 동시에 표시될 수 있도록 동기화하여 구강 내에서 공명이 발생하는 혀의 위치에 표시한다.
발음 대상의 정확한 발음을 위해서는 정확한 조음 위치(자음 또는 반모음/반자음 일부에서 등)에서 음을 발생시키는 것이 중요하다. 본 발명의 상기 조음 위치 정보 데이터(1470)에는 발음 대상에 대하여 조음 위치 정보를 저장하고 있다. 조음 위치 정보에는 조음 기관 내에서의 조음 위치 정보 및 조음 위치를 시각적으로 인지할 수 있는 조음 위치 표시 이미지 데이터(1471)가 포함된다. 조음 위치 정보는 구강 이미지에 따라서 시각적으로 인지되는 위치 좌표가 달라질 수 있으므로, 구강 이미지별로 절대적 위치 정보가 확보되거나, 상대적 위치 정보가 저장된다. 한편, 발음의 진행에 따라 조음 위치가 변동될 수 있는데(연속되는 자음 또는 단어 등의 발음 등에서) 이 경우 발음의 진행과 더불어 변동되는 조음 위치 변동은 동기화가 될 필요가 있다. 상기 영상 결합부(1500)는 발음 대상별로 발성 시간의 경과에 따른 조음 위치 정보가 저장되어 있는 경우, 조음 위치 정보의 변동을 구강 이미지에 결합하는 기능을 수행할 수 있다. 물론, 조음 위치의 변동은 조음 위치의 표시를 위한 독립된 레이어 상에서 처리될 수도 있으며, 이 경우 레이어 처리는 본 발명의 레이어 처리부(1510)가 수행하고, 동기화는 본 발명의 동기화 처리부(1520)가 수행한다. 한편, 조음 위치의 유지나 변동은 발성이 진행되는 동안 일정 시간 이상 발생할 수 있기 때문에, 발음 대상의 영상 정보 제공 시에는 조음 위치에서는 조음 위치 표시 이미지 데이터(1471)를 사용하는 지속적인 조음 위치 표시가 시각적으로 인지 될 수 있도록 유지되는 것이 바람직할 것이다. 한편, 발음 대상에 대한 조음 위치 표시 이미지 데이터(1471)가 사용되는 조음 위치 표시가 포함된 단일 영상이 생성될 수 있을 것이다. 사용자 단말기(2000)를 통하여 생성된 단일 영상 제공되는 동안 조음 위치 표시 이미지 데이터(1471)가 사용자에게 시각적으로 인지될 수 있을 것이다.
이어, 본 발명의 3차원 영상 정보 처리 모듈(1100) 및 3차원 영상 정보 처리 모듈(1100)의 정보 처리 방법을 도 4 내지 도 34를 참조하면서 더욱 더 상세하게 설명한다.
도 5에서 예시되듯이, 상기 3차원 영상 정보 처리 모듈(1100)은 상기 발음 대상에 대한 3차원 영상 정보의 제공을 요청 받고(S1-11), 제1 3차원 영상 정보를 제공(S1-12)하고, 적어도 하나 이상의 제2 3차원 영상 정보를 제공(S1-13)하는 기능을 수행한다.
제1 3차원 영상 정보와 상기 제2 3차원 영상 정보 모두 동적으로 변동되는 영상(동영상이 예가 되며, 이러한 변동은 일정한 시간 단위로의 계단적 변화나 변동 또는 동영상과 같은 스무드(smooth)한 연속적 변동을 포함한다.)이며, 상기 동영상에는 발음 대상과 관련있는 조음 기관 표시, 공명점 표시나 조음 위치 표시, 기류 변화 표시, 성대 울림 표시, 접촉 부위 표시 등이 포함되어 있으며, 이들 각종 표시 중 일부 또는 전부는 발성의 진행에 따라 형상이나 크기나 모양 등 시각적으로 인지될 수 있는 형태가 변동될 수 있다.
제1 3차원 영상 정보와 상기 제2 3차원 영상 정보를 구분 짓는 것은 투시 방향(시점, 앵글 등과 같이 조음 기관을 투시하는 방향)이다. 제1 3차원 영상 정보는 1개의 발성 대상에 대하여 발성의 준비, 개시 및 종료까지의 1개의 투시 방향과 관련된 3차원 영상 정보를 제공한다. 투시 방향은 전후, 좌우 등과 같은 평면각일 수도 있지만, 입체각(상하를 포함하며, 입체 좌표 상에서 (1,1,1)에서 원점을 바라보는 투시각 또는 (1,2/3, 1/3)에서 원점을 바라보는 투시각 등이 입체각의 예시가 될 수 있다.)인 것이 더욱 더 바람직할 것이다.
도 10 내지 도 12는 [p]에 대하여 특정한 제1 입체각에서 본 발명의 제1 3차원 영상 정보가 제공되는 모습을 보인 것이다. 제1 3차원 영상 정보는 스무드한 동영상으로 제공되는 것이 바람직한 것이나, 본 발명의 명세서에서는 기술(description)의 한계상 계단식 또는 단계식으로 표현하나 이는 스무드한 연속적 변화로 제공될 수도 있다는 것으로 이해되어야 할 것이다.
도 10은 [p]발음을 개시하려 할 때의 최초로 제공되는 이미지이다. 도 10에서 알 수 있듯이, 본 발명에서는 [p]발음에 활용되는 조음 기관인 입술, 혀, 및 구개만이 3차원적으로 사용될 수 있으며, 무관한 다른 조음 기관은 제외되고 있음을 알 수 있다. 또한, 본 발명 사상의 큰 특징인 혀나 입술 안쪽 등과 같은 조음 기관의 내부 이미지가 사용되고 있음을 확인할 수 있다. 이러한 것은 평면적 2차원적 이미지의 표시로는 달성할 수 없는 것이다.
한편, 도 10에서는 혀와 내부 입술 사이에 작은 화살표가 있음을 알 수 있는데, 이 작은 화살표는 기류 변화에 대응되는 이미지 표시 수단이다. 도 11에서는 동일한 영상에서 기류 변화에 대응되는 이미지 표시 수단의 크기가 크다는 점을 발견할 수 있다. 도 12에서는 입술이 열리면서 방사형으로 향하는 3개의 작은 화살표로 기류 변화에 대응되는 이미지 표시 수단이 표시되고 있음을 볼 수 있다. 이와 같이 본 발명에서는 파열음인 [p]를 정확히 발음하기 위하여, 기류 변화의 이미지로 공기를 서서히 압축한 다음, 입술이 열리면서 공기가 방사형으로 발산해야 함을 직관적으로 인지할 수 있도록 시각적으로 제공한다. 특정한 발음을 할 때의 기류의 시간적 변화에 따른 화살표의 크기의 변화(구강 내에서의 공기압의 변화) 및 방향의 변화(공기의 기류의 변화)를 통하여 시간의 흐름에 따라 실제 발음을 할 때의 변화와 동일성이 시각적으로 최대한 인지될 수 있는 시뮬레이션이 제공될 수 있게 된다.
한편, 혀의 입술의 모양도 3차원적으로, 특히 조음 기관의 내부 이미지를 활용하여 어떤 형상(혀의 끝을 아래쪽으로 굽히게끔 유지하고, 혀의 중앙부분은 평평하게 유지해야)을 갖추어야만 정확하게 파열음 [p]를 발성할 수 있는 지를 확인할 수 있다.
도 13 내지 도 14는 투시되는 방향이 연속적으로 변동하고 있음을 보여주는 제1 3차원 영상 제공과 제2 3차원 영상 제공의 중간 단계를 보여 주는 도면이다.
이어, 도 15 내지 도 17은 다른 투시 방향(측면 방향)에서 [p]발음을 위한 조음 기관의 운동과 기류의 흐름이나 변동을 보여주고 있다. 특히, 도 16에서는 혀의 움직임은 변동 없는 상태에서 기류 표시 이미지(111)가 가장 커지면서 입술은 굳게 다물어지는 것을 보여 주는데, 이는 [[p]발음을 파열시키는 방식으로 터트리기 전에 공기를 압축함을 잘 보여 주고 있다. 이러한 것이 발음 학습에서 본 발명의 내부 조음 기관의 3차원 이미지와 기류 표시 이미지(111)의 결합 효과를 잘 보여주는 예라 할 것이다.
그리고, 도 18 내지 도 20은 또 다른 투시 방향(도 10 내지 도 12와 90도 각도를 이루는 다른 측면 방향)에서 [p]발음을 위한 조음 기관의 운동과 기류의 흐름이나 변동을 보여주고 있다. 특히, 도 19 및 도 20은 외부에서 관찰되는 외부 조음 기관의 이미지 부분은 전혀 없이 내부 조음 기관의 3차원 이미지만 나타나는 것으로, 본 발명의 내부 조음 기관의 3차원 이미지와 기류 표시 이미지(111)의 결합 효과를 잘 보여주는 다른 예라 할 것이다. 도 19 내지 도 20에서와 같이 본 발명은 특정한 발음을 발성하기 위하여 구강 내에서 일어나는 현상 또는 일어나야 하는 현상을 3차원 이미지와 기류 흐름 표시 이미지를 통하여 효과적으로 제시하고 있다.
마지막으로, 도 21 내지 도 23는 다른 투시 방향(후면 방향)에서 [p]발음을 위한 조음 기관의 운동과 기류의 흐름이나 변동을 보여주고 있다.
한편, 상기 발음 학습 지원 시스템(1000)은 선택적으로 제공되었던 제1 3차원 영상에서 제n 3차원 영상까지 n(n >1, n은 자연수)개의 영상을 한 개의 화면에 나타나도록 합쳐서 종합적으로 [p]발음을 위한 조음 기관의 운동을 확인할 수 있도록 n개의 3차원 영상을 한꺼번에 제공할 수 있다. 도 24 내지 도 26에서 n개의 3차원 영상을 한꺼번에 제공되는 것을 확인할 수 있다.
본 발명의 발음 학습 지원 시스템(1000)은 상기 도 10 내지 도 23 또는 도 10 내지 도 26까지의 영상을 순차적으로 제공하기 위해서 통합적인 1개의 3차원 영상 파일로 생성하여 통합 3차원 영상 정보 데이터(1113)에 저장한 다음, 사용자 단말기(2000)로 제공할 수도 있을 것이다. 한편, 상기 3차원 영상 정보 처리 모듈(1100)은 각 투시 방향에서 제공되는 제n 3차원 영상 각각을 n개의 영상 파일로 분리하여 저장한 다음, 순차적으로 또는 사용자의 선택에 따라 선택에 부합하는 3차원 영상 정보만을 제공할 수도 있을 것이다.
한편, 상기 발음 학습 지원 시스템(1000)은 도 6 내지 도 8에서 예시되듯이, 다수 개의 투시 방향에 대한 3차원 영상 정보를 생성한 다음 발음 대상별 투시 방향별 3차원 영상 정보 데이터(1112)에 이러한 3차원 영상 정보를 저장해 놓은 다음, 사용자 단말기(2000)로부터 제어 정보를 입수 받고, 제어 정보에 대응되는 3차원 영상 정보를 제공해 줄 수도 있을 것이다. 상기 3차원 영상 정보 처리 모듈(1100)은 3차원 영상 제공에 대한 제어 정보를 입수 받고(S1-21), 제어 정보에 대응되는 3차원 영상 정보를 제공(S1-22)할 수 있다. 제어 정보에는 투시 방향, 재생 속도(정상 속도, 1/n배속, n배속 등, n은 자연수), 나타나야 할 조음 기관의 선택이나 강조되어야 할 조음 기관의 선택, 공명점이나 조음 위치의 표시, 기류의 표시 유무나 표시 방법, 발음 대상(음소, 음절, 단어 및/또는 단어열) 등이 될 것이다. 상기 입출력부(1600)의 사용자 선택 정보 제공 요청부(1610)는 사용자 단말기(2000)에 선택 가능한 제어 정보의 목록을 제시하고, 사용자 선택 정보 입수부(1620)를 통하여 사용자의 제어 선택 정보를 입수한 다음, 사용자의 제어 선택 정보에 부합하는 3차원 영상 정보를 입수하여 제공할 수 있다.
대표적인 제어 정보로는 투시 방향이 될 것이며, 이는 도 7에서 잘 나타나 있다. 도 7에서 예시되듯이, 상기 3차원 영상 정보 처리 모듈(1100)은 사용자 단말기(2000)로부터 자신이 원하는 적어도 하나 이상의 투시 방향에 대한 선택 정보를 입수(S1-31)하고, 투시 방향에 대응되는 3차원 영상 정보 입수(S1-32)하고, 투시 방향에 대응되는 3차원 영상 정보 제공(S1-33)할 수 있다.
한편, 조음 기관별로 레이어 처리가 되어 있을 경우, 도 8에서 예시되듯이, 상기 3차원 영상 정보 처리 모듈(1100)은 조음 기관별 레이어에 대한 선택 정보를 입수(S1-41)하고, 선택된 조음 기관별 레이어에 대한 3차원 영상 정보를 제공(S1-42)할 수 있을 것이다.
도 27 내지 도 29는 반모음 [w]에 대한 제1 3차원 영상 정보에 대한 것이며, 도 30 내지 도 32는 제2 3차원 영상 정보에 대한 것이다. 도 26 내지 도 32에서는 공명점에 대한 표시, 기류 흐름 표시 및 접촉부 표시가 있음을 볼 수 있다. 도 26 및 도 30에서 반모음을 발성하기 위하여 기류가 목젖 쪽에서부터 올라와야 한다는 것이 나타나 있고, 도 28 및 도 31에서는 혀의 중간에 공명점이 표시되어 있고, 기류 표시가 공명점의 주위를 지나서 양 옆으로 흩어진다는 것과 혀의 맨 앞이 구개 천장에 붙어야 한다는 것이 나타나 있다. 도 28 및 도 31에서 알 수 있듯이, 구개와 붙는 부분(구개 접촉 부위 표시 이미지(114))은 혀의 다른 부위와는 달리 음영(짙은 색깔)로 처리되어 있어(음영 처리되는 부분이 구개 접촉 부위 표시 이미지(114)가 된다.) 반모음의 발음에서 혀가 구개와 접촉해야 함을 직관적으로 이해할 수 있도록 이미지화되어 있다. 한편, 도 28 내지 도 29, 도 31 내지 도 32에서 볼 수 있듯이, 공명점 대응 이미지(공명점은 원형의 점으로 표시되고, 퍼져 나가는 울림 표시가 공명점의 주위에 있음)가 공명이 발생하는 동안에 계속하여 유지되고 있음을 볼 수 있다. 본 발명 사상에서는 정확한 발성을 위한 공명점 표시 이미지와 기류 표시 이미지(111)가 발성의 진행에 따른 정확한 동기화된 유지를 효과적으로 학습할 수 있도록 지원되고 있다.
상기 3차원 영상 정보 처리 모듈(1100)의 파노라마 영상 제공 모듈(1140)은 사용자 단말기(2000)에 상기 도 10 내지 도 32와 같은 3차원 영상을 투시 방향을 변경해 가면서 파노라마처럼 제공해 주는 기능을 수행한다.
한편, 본 발명의 3차원 영상 정보 처리 모듈(1100)은 사용자로부터 동일한 발음 대상에 대한 발성 정보를 입수하고, 입수한 발성 정보로부터 공점점에 대한 위치 정보를 도출할 수 있다. 사용자 입력 발성에 대한 공명점 위치 정보를 도출하는 것은 본원 특허 출원인의 선행 기술인 국내공개특허공보 제10-2012-0040174호에 잘 나타나 있다. 상기 선행 기술에서는 사용자의 발성 정보에 대한 주파수 분석을 수행하여 포먼트 주파수 중 가장 낮은 두 개의 주파수인 F1, F2를 사용하여 F1을 y 좌표로 하고, F2를 x 좌표로 처리한 (F2, F1)를 공명점의 위치로 결정할 수 있다는 것을 보여 주고 있다.
사용자 발성 정보에 기반한 사용자 (발성) 공명점의 위치를 정하게 되면 상기 사용자 (발성) 공명점과 정확한 발성을 위한 권장 공명점에 대한 비교 위치 정보를 생성할 수 있게 된다. 도 9에서 예시되듯이, 상기 3차원 영상 정보 처리 모듈(1100)은 발음 대상에 대한 사용자의 음성/발성 정보를 입수(S1-51)하고, 사용자의 음성/발성 정보에서 사용자 공명점 정보(공명점의 위치 정보 및 공명 유지 시간 정보 등)를 생성(S1-52)하고, 사용자 공명점 정보를 3차원 영상에 포함되게 처리(S1-53)하고, 사용자 (발성) 공명점 정보 및 권장 공명점 정보가 포함된 3차원 영상 정보 제공(S1-54)하는 과정을 수행한다. 공명점 정보의 생성은 본 발명의 공명점 생성부(1710)가 수행하게 된다.
도 33과 도 34는 본 발명의 공명점 정보 및 권장 공명점 정보가 비교되어 나타나는 것을 예시하고 있다. 도 33에서는 상기 공명점 생성부(1710)가 생성해 놓은 공명점 정보가 3차원 영상에 별 모양으로 반영되어 있음을 볼 수 있다. 도 33에서 사용자 공명점은 권장 공명점보다 좌 상향되어 위치하고 있다는 것이 시각적으로 제시되어 사용자의 발음 교정 직관적으로 기여하게 된다. 아울러, 도 34에서는 사용자 공명점은 사라져 버리고 권장 공명점만 유지되고 있음을 보여 주고 있다. 도 34를 통해서 사용자에게 사용자 공명점이 지속적으로 유지되지 않음을 보여 주어, 사용자는 정확한 발음을 위해서 공명 유지 시간을 지속시켜야 한다는 학습 포인트를 직관적으로 느낄 수 있게 된다.
도 4는 본 발명의 3차원 영상 정보 처리 모듈(1100)에 대한 일 실시예적 구성에 관한 도면이다. 상기 설명에서 알 수 있듯이, 상기 3차원 영상 정보 DB(1110)의 발음 대상별 3차원 영상 정보 데이터(1111)에는 발음 대상별로 3차원 영상 정보 데이터가 포함되어 있으며, 발음 대상별 3차원 영상 정보 데이터(1111)에 포함되어 있는 3차원 영상 정보는 모든 투시 방향의 3차원 영상 정보가 함께 포함되어 있다. 발음 대상별 투시 방향별 3차원 영상 정보 데이터(1112)에 포함된 3차원 영상 정보는 투시 방향별로 별도의 3차원 영상 정보가 포함되어 있다. 사용자로부터 특정한 투시 방향에 대한 선택 정보를 입수 받는 경우에는 발음 대상별 투시 방향별 3차원 영상 정보 데이터(1112)에 포함된 3차원 영상 정보가 활용된다. 통합 3차원 영상 정보 데이터(1113)에 포함되어 있는 3차원 영상 정보는 발음 대상별로 여러 가지 3차원 영상(투시 방향별 통합, 음색별 통합, 조음 기관별로의 통합, 재생 속도별 통합 등)이 통합되어 존재하는 것이 특징이다.
한편, 상기 3차원 영상 정보 처리 모듈(1100)은 상기 사용자로부터 재생 속도에 대한 선택 정보를 입수 받고, 상기 3차원 영상의 제공 속도를 조절하여 제공할 수도 있을 것이다.
한편, 상기 3차원 영상 맵핑 처리 모듈(1120)은 발음 대상별로 3차원 영상 정보를 관리하고, 외부로부터의 발음 대상(및 투시 방향)에 대한 요청이 있는 경우 발음 대상별 3차원 영상 맵핑 관계 정보 데이터(1122)의 데이터를 제공한다. 발음 대상별 3차원 영상 맵핑 관계 정보 데이터(1122)의 데이터는 하기 표 1과 같을 수 있다.
표 1
음소 식별자 투시 방향 파일명 비고
음소i (1, 0, 0) 음소i_100.avi 측면
음소i (1, 1, 0) 음소i_110.avi 45도 우회전
음소i (0, 1, 0) 음소i_010.avi 후면
음소i .. ..
음소i (1, 1, 1) 음소i_111.avi 우 하향
음소i 통합 음소i.avi 모든 투시 방향 통합
음소j (1, 0, 0) 음소j_100.avi 측면
.. ..
이어, 도 도 35 내지 도 59를 참조하면서 본 발명의 구강 영상 정보 처리 모듈(1200)의 정보 처리 방법을 더욱 더 상세하게 설명한다.
상기 구강 영상 정보 처리 모듈(1200)은 발음 대상에 대한 구강 영상 정보의 제공을 요청 받는(S2-11) 경우, 준비 구강 영상 정보를 제공(S2-12)하고, 이어, 발성 구강 영상 정보를 제공(S2-13)한다. 선택적으로, 구강 영상 정보 처리 모듈(1200)은 후속 구강 영상 정보를 제공(S2-14)하기도 한다.
도 41은 사용자 단말기(2000)로부터 음소[ch]에 대한 구강 영상 정보의 제공을 요청 받았을 경우, 상기 마찰음에 대하여 준비 구강 영상 정보로 제공하는 동영상의 한 예시적 이미지를 제공하고 있다.
도 41에서는 우측에는 조음 기관의 3차원(혀 등과 같은 주요 조음 기관이 단순한 2차원적 평면 이미지가 아니라 입체감 있는 3차원적 이미지로 되어 있음)적으로 구성되는 단면 이미지가 준비 구강 영상 정보로서의 동영상 구성 이미지로 나타나 있으며, 좌측에는 안면 이미지가 나타나 있다. 본 발명에서 좌측의 안면 이미지는 선택적일 수 있다. 도 41에서 예시되는 준비 구강 영상 정보에서는 혀의 준비 위치, 성대에서 기류의 발생 준비 및 조음 위치(혀가 구개와 맞닿는 부분이 표시되는 원이 조음 위치를 나타냄)가 나타나 있음을 알 수 있다. 준비 구강 영상 정보에서는 발성이 준비될 뿐 실제 발성은 시작되지 않는 것이며, 이에 따라 청각적으로 인지될 수 있는 발성음도 대응되지 않는다. 사용자는 도 41과 같은 준비 구강 영상 정보를 통하여, 발음 학습이 필요한 발음 대상에 대하여 발성을 하기 전에 어떤 준비를 해야 하는지를 시각적으로 이해할 수 있게 된다.
도 42 내지 도 45는 발성 구강 영상 정보를 구성하는 동영상의 일부인 이미지를 보여 주고 있다. 도 42 및 도 45에서 알 수 있듯이, 발성 구강 영상 정보에는 기류 표시 이미지 등과 같이 발성이 존재할 때에 나타나는 각종 이미지가 포함되어 있음을 알 수 있다. 사용자는 발성 구강 영상 정보에 포함된 도 42와 같은 이미지를 통해서 성대 쪽으로부터 기류가 올라오고 있음을 파악할 수 있으며, 도 43과 같은 이미지를 통해서 기류가 혀가 구개와 맞닿은 곳에 이를 때까지 혀와 구개의 접촉이 분리되어서는 아니 됨을 알 수 있고, 도 44와 같은 이미지를 통해서 혀와 구개가 미약하게 벌어지면서 기류가 벌어진 틈을 통해서 나오는데, 이 때 혀의 중앙부까지가 굽혀져야 하고, 입술과 치아는 벌어져야 함을 알 수 있으며, 도 45를 통해서 기류가 서서히 소멸되고 있고 이 때에도 구개의 맞닿는 위치 및 혀의 모양은 변동이 없어야 함을 직관적으로 이해할 수 있다. 특히, 도 44에서도 도 45에서는 기류를 나타내는 색의 진하기가 달라지는데, 진하기나 색깔의 채도 등의 변화를 통해서 기류의 강약의 변동을 반영할 수 있다.
도 46은 후속 구강 영상 정보에 대응되는 동영상에 포함되는 일 실시예적 이미지를 보여주고 있다. 도 46에서 알 수 있듯이, 기류는 소멸되었으나 치아와 입술은 열려 있으며, 혀와 구개의 맞닿는 위치는 변동이 없음을 알 수 있다. 후속 구강 영상 정보를 선택적으로 제공함으로써, 발음의 마무리를 확실하게 처리할 수 있게 된다. 마무리(종결)이 정확하게 유지되어야 종결 직전의 과정 또한 정확하게 모사될 수 있기 때문에, 후속 구강 영상 정보의 제공은 정확한 발음 교육을 위한 본 발명 사상에서 중요한 부분을 구성한다.
도 47 내지 도 50은 [ei] 발음에 대한 본 발명 사상이 구현되는 일 실시예적 구성이다. 도 47은 [ei] 음소에 대한 준비 구강 영상 정보의 일 실시예적 구성 이미지를 나타낸다. 도 48 내지 도 50은 [ei] 음소에 대한 발성 구강 영상 정보의 일 실시예적 구성 이미지의 예시들이다. 사용자는 도 48에서는 혀는 낮은 위치에 존재하면서 혀 위에는 공명점이 존재함을 알 수 있다. 사용자는 도 49에서는 혀와 떨어진 구강 내 공간에서 공명점이 있음을 알 수 있으며, 도 50에서는 구개와 가까운 혀의 위치에 공명점이 존재하며 공명 표시 이미지(113)에 좌우로 확산되는 표시가 있음을 통해서 공명이 지속됨을 알 수 있다. 도 51은 [ei] 음소에 대한 후속 구강 영상 정보의 일 실시예적 구성 이미지가 나타나 있다. 사용자는 도 51과 같은 본 발명 사상이 적용되는 후속 구강 영상 정보를 통하여 공명은 사라지고 없으며, 구강에서의 혀의 위치와 상태는 발성 구강 영상 정보의 최종적인 위치와 상태를 상당히 유지하고 있음을 알 수 있다.
도 52는 성대 울림이 있는 경우, 성대 쪽에 울림을 의미하는 표시하는 성대 울림 이미지 데이터(1481)가 표시되어 있는 본 발명 사상이 적용되는 발성 구강 영상 정보의 일 실시예적 이미지이다. 도 52에서 알 수 있듯이, 성대 울림이 있는 경우에는 성대 울림과 관련성 있는 파형 이미지가 추가적으로 제공될 수도 있다. 성대의 울림의 유무 를 영상 이미지의 성대의 위치에 표기하여 무성음이면 아무런 표기가 없고 유성음이면 동영상의 음성 신호에서 성대에서 발성이 일어나는 시점에만 지 때 늘 지그재그 형태의 발성이 일어난다는 표식이 예시적으로 삽입될 수 있다.
도 53은 모음 사각도 이미지(121)가 포함되어 있는 본 발명의 준비 구강 영상 정보의 일 실시예적 이미지이며, 도 54는 모음 사각도 이미지(121)가 포함되어 있는 본 발명의 발성 구강 영상 정보의 일 실시예적 이미지이다. 구강 이미지 안에 각 언어별 성인 남성, 성인 여성, 변성기 이전 아동의 모음 발음 시에 구강 내에서 공명이 일어날 수 있는 범위의 평균값을 계산하여 설정된 사다리꼴 모양의 모음 사각도 (vowel quadrillateral: 구강 내에서 특정 언어의 모든 모음 중에 공명이 일어 날 수 있는 한계 범위) 삽입되면, 학습자가 모음 발음 시 구강 내에서 혀가 울리는 부분을 예측할 때 이해를 용이하게 되는 장점이 있다. 본원 발명의 이미지에서는 회색으로 보이는 사다리꼴 모양의 모음 사각도를 의미한다.
도 35는 본 발명의 구강 영상 정보 처리 모듈(1200)의 일 실시예적 구성에 관한 도면이다. 상기 발음 대상별 준비 구강 영상 정보 데이터(1211)는 준비 구강 영상 정보 데이터를, 발음 대상별 발성 구강 영상 정보 데이터(1212)는 발성 구강 영상 정보를, 발음 대상별 후속 구강 영상 정보 데이터(1213)는 후속 구강 영상 정보를 발음 대상별로 저장해 놓고 있다. 한편, 상기 준비 구강 영상 정보, 상기 발성 구강 영상 정보 및 후속 구강 영상 정보가 1개의 통합된 디지털 파일로 존재하는 경우, 발음 대상별 통합 구강 영상 정보 데이터(1214)는 이러한 통합된 디지털 파일을 발음 대상별로 저장하고 있다.
한편, 상기 발음 대상별 발성 구강 영상 정보 데이터(1212)가 저장하고 있는 발성 구강 영상 정보에는 발음 지원 시각화 수단(기류 표시 수단, 공명점 표시 수단, 조음점 표시 수단, 성대 울림 표시 수단, 근육 긴장 표시 수단(116) 등)이 포함되어 있다. 도 38에서는 상기 구강 영상 정보 처리 모듈(1200)이 발음 지원 시각화 수단에 대한 선택 정보를 입수(S2-31)하고, 발음 지원 시각화 수단에 대응되는 구강 영상 정보를 입수(S2-32)한 다음, 발음 지원 시각화 수단에 대응되는 구강 영상 정보를 제공(S2-33)하는 본 발명의 발명 사상을 개시하고 있다.
발성 지원 시각화 수단별 구강 영상 데이터(1212-1)에는 이러한 발음 지원 시각화 수단별 발성 구강 영상 데이터가 별도로 포함되어 있을 수 있다. 발성 지원 시각화 수단별 구강 영상 데이터(1212-1)의 데이터는 발성 구강 영상 정보가 다수 개의 레이어를 통해서 제공될 때, 발음 지원 시각화 수단별 레이어가 존재하고, 발음 지원 시각화 수단별 레이어가 포개져서 하나의 시각적 결과물로 사용자에게 제공될 때 특히 유용하다. 이렇게 될 경우, 상기 특별한 레이어에 대해서 강조 표시가 제공될 수가 있을 것이다. 예를 들면 기류 표시 레이어가 독립되어 있을 경우, 기류 표시에 대해서 강력한 칼라가 적용되고, 기류의 외곽선이 진하게 표시되 있는 경우, 이러한 기류 표시 레이어가 결합되어 발성 구강 영상 정보로 사용자에게 나타날 때는 기류 표시가 더욱 더 선명하게 부각되게 된다.
물론, 상기 사용자 입력 기반 구강 영상 처리부(1230)가 사용자 단말기(2000)로부터 기류 표시에 대한 강조 선택 정보를 입수 받는 경우에는 더욱 더 레이어 방식이 효과적일 수 있다. 도 36은 상기 사용자 입력 기반 구강 영상 처리부(1230)가 구강 영상 제공에 대한 제어 정보를 입수 받고(S2-21), 제어 정보에 대응되는 구강 영상 정보를 제공(S2-22)하는 발명 사상을 제시하고 있다. 제어 정보에는 속도 제어, 준비 구강 영상 정보나 후속 구강 영상 정보를 제외한 전송 요청, 특별한 발음 지원 시각화 수단에 대한 요청, 음색 등의 선택 등이 있을 수 있다.
한편, 상기 구강 영상 정보 처리 모듈(1200)은 레이어를 사용하지 않거나, 레이어를 사용하여 제작하되, 최종적으로 사용자 단말기(2000)에 제공되는 영상에는 레이어가 제거되었지만, 기류 표시가 강조된 단일 영상을 생성해 놓을 수 있다. 사용자 단말기(2000)로부터 기류 표시 강조에 대한 선택 정보가 입수되는 경우, 기류 표시가 강조된 단일 영상을 제공해 줄 수 있음은 물론일 것이다. 이러한 사용자 단말기(2000)로의 영상 정보의 제공은 구강 영상 제공 모듈(1220)이 수행한다. 구강 영상 결합 제공부(1221)는 상기 준비 구강 영상 정보, 상기 발성 구강 영상 정보 및 후속 구강 영상 정보를 결합하여 제공하는 기능을 수행하며, 통합 구강 영상 제공부(1222)는 사전에 결합되어 있는 통합 구강 영상 정보를 제공하는 기능을 수행한다.
한편, 도 39에서는 상기 구강 영상 정보 처리 모듈(1200)이 조음 기관별 레이어에 대한 선택 정보를 입수(S2-41)하고, 선택된 조음 기관별 레이어에 대한 구강 영상 정보를 제공(S2-42)하는 조음 기관별 레이어 처리된 구강 영상 정보에 대한 발명 사상이 개시되어 있다.
도 40에서는 발음 교정을 위하여, 상기 구강 영상 정보 처리 모듈(1200)이 공명점 생성부(1710), 위치 표시 정보 처리부(1730) 등의 지원을 받아, 상기 사용자 단말기(2000)로부터 발음 대상에 대한 사용자의 음성 정보를 입수(S2-51)하고, 사용자의 음성 정보에서 사용자 공명점 정보를 생성(S2-52)하며, 사용자 공명점 정보를 구강 영상 영상에 포함되게 처리(S2-53)하고, 사용자 공명점 정보 및 권장 공명점 정보가 포함된 구강 영상 정보 제공(S2-54)하는 발명 사상이 개시되어 있다. 도 55에서는 발성 구강 영상 정보에 사용자의 공명점(별 모양으로 표시한 이미지)가 위치해 있음을 알 수 있다) 사용자는 정확한 권장 공명점와 자신의 공명점을 비교함으로써 발음을 좀더 정확하고 정교하게 교정할 수 있게 된다.
한편, 특정 자음 발음 중에 구강 내에서의 안면 근육 또는 혀 근육에 급격한 수축을 통하여 특정 조음 위치를 폐쇄하고 발음하는 파열음[p,b,t,d,k,g]과 파찰음 [tS, ts, d3, ㅊ, ㅈ] 소리들의 경우에는 조음 기관의 근육이 수축되는 즉 힘이 들어가는 방향을 표기함으로서 학습자들이 소리를 학습할 때 힘을 주는 조음 기관의 위치를 이해가기 용이하게 하는 효과가 있다. 도 56 내지 도 59는 발성 구성 영상 정보 중 근육 긴장 표시 수단(116)이 반영된 일 실시예적 구성 이미지이다. 도 56 내지 도 57은 턱 근육의 긴장과 이완이 발생하고 있는 동영상 구성 이미지의 일부를 보여 주고 있다. 근육의 긴장도 화살표 등으로 표시될 수 있다. 도 58은 혀 근육의 긴장과 이완이 발생하고 있는 동영상 구성 이미지의 일부를 보여 주고 있다.
이어, 각 음소의 특징별로 동영상에 표기되는 바람직한 방식에 대한 예시 설명을 부가한다.
파열음은 구강의 특정위치(조음점)을 완전히 밀폐시켜 밀폐된 조음 위치 근처에서 압축되었던 공기압이 조음점이 개방되는 시점에 단번에 폭발하듯이 쏟아져 나오는 소리이기 때문에 혀가 조음 위치에 접촉된 시점부터 음성 신호가 재생되는 시점 전까지는 앞모습과 구강 옆모습 이지미가 동일한 이미지 프레임이 재생되고 음성 신호가 재생되기 전까지 성대를 통과한 공기 기류의 흐름의 변화만을 시간에 따른 화살표 위치의 변화를 주어 표현되는 것이 바람직하다. 음성신호가 재생되면서 혀의 위치가 조음점에서 떨어지는 이미지가 재생되고 또한 성대를 통과하여 조음 위치에 근처에 도달하였던 화살표의 이미지는 시간의 흐름에 따라 명암비를 흐려지게 하고 궁극적으로 조음점에서 떨어진 혀의 움짐임이 완전히 멈추게 된 시점에는 사라지게 되고, 조음점 뒤에 있던 화살표의 이미지의 명암비가 흐려지면서 동시에 조음점 앞부분 즉, 구강 바깥쪽과 더 가까운 위치에서는 압축되었던 공기압의 파열음화를 보여주는 화살표를 표기하여 기류의 변화를 학습자가 이해하기 용이하게 될 수 있도록 지원한다.
마찰음은 구강의 특정위치(조음점)사이에 비좁은 틈을 만들어 폐에서 올라온 공기의 기류가 조음점 근처에서 약간 압축되게 되고 비좁은 틈 사이에서 생긴 저항에 의해서 마찰(Friction)된 소리가 지속적으로 새어 나오는 소리이기 때문에 혀가 조음 위치에 완벽히 도달하는 시점부터 음성신호가 재생되는 시점 전까지는 앞모습과 구강 옆모습 이지미가 동일한 이미지 프레임이 재생되고 음성신호가 재생되면서 성대를 통과한 공기 기류의 흐름의 변화만을 시간에 따른 화살표 위치의 변화를 주어 표현하는 것이 바람직하다. 음성신호가 재생되면서 조음점을 통과하여 시간에 흐름에 연계하여 구강바깥쪽으로 이동하는 화살표 이미지는 재생되는 음성신호가 종료되는 시점까지 유지되다가 음성신호의 재생이 종료되면 명암비를 흐려지게 되며 궁극적으는 사라지게 되며, 시간의 흐름에 따라서 조음 위치에서의 공기의 기류의 흐름의 변화를 화살표로 표기하여 학습자가 발음 시 기류의 위치 및 변화를 이해하기 용이하게 한다.
파찰음은 구강의 특정위치(조음점)을 완전히 밀폐시켜 밀폐된 조음 위치 근처에서 압축되었던 공기압이 조음점이 개방되는 시점에서 강한 압력으로 새어 나오는 나오는 소리이기 때문에 혀가 조음 위치에 접촉된 시점부터 음성신호가 재생되는 시점 전까지는 앞모습과 구강 옆모습 이지미가 동일한 이미지 프레임이 재생되고 음성신호가 재생되기 전까지 성대를 통과한 공기 기류의 흐름의 변화만을 시간에 따른 화살표 위치의 변화를 주어 표현하는 것이 바람직하다.
음성신호가 재생되면서 혀의 위치가 조음점에서 떨어지면서 이동하는 이미지가 재생되고 또한 성대를 통과하여 조음 위치에 근처에 도달하였던 화살표의 이미지는 시간의 흐름에 따라 명암비를 흐려지게 하고 궁극적으로 조음점에서 떨어진 혀의 움짐임이 완전히 멈추게 된 시점에는 사라지게 되며, 조음점 뒤에 있던 화살표의 이미지의 명암비가 흐려지면서 동시에 조음점 앞부분 즉, 구강 바깥쪽과 더 가까운 위치에서는 압축되었던 기류의 빠른 흐름의 변화를 보여주는 화살표를 표기하여 기류의 변화를 학습자가 이해하기 용이하게 한다.음성신호의 재생이 종료되면 구강 바깥으로 이동하던 화살표도 명암비가 흐려지면서 궁극적으로는 사라지게 된다.
비음은 구강의 특정위치가 완전히 밀폐되고 비음을 제외한 다른 발음들에서는 폐쇄되었던 구개수 근처의 연구와 인두에 접촉되었던 부분이 연구개가 아래로 내려가면서 개방되면서 공기의 기류의 흐름이 비강으로 향하게 되어 성대의 발성이 완료 될 때까지 소리가 지속적으로 비강을 통하여 콧구멍 밖으로 새어 나오는 소리이기 때문에 음성신호 재생 전후의 모든 이미지에서 연구개가 아래로 개방이 되어있고 혀가 조음 위치 도달할 때와 음성신호가 재생되는 시점이 동기화 되며 이후 앞모습과 구강 옆모습 이지미가 동일한 이미지 프레임이 재생되고 음성신호가 재생되면서 성대를 통과하여 비강을 통과하는 공기 기류의 흐름의 변화만을 시간에 따른 화살표 위치의 변화를 주어 표현하는 것이 바람직하다. 
음성신호가 재생되면서 조음점을 통과하여 시간에 흐름에 연계하여 구강바깥쪽으로 이동하는 화살표 이미지는 재생되는 음성신호가 종료되는 시점까지 유지되다가 음성신호의 재생이 종료되면 명암비를 흐려지게 되며 궁극적으는 사라지게 되며, 시간의 흐름에 따라서 조음 위치에서의 공기의 기류의 흐름의 변화를 화살표로 표기하여 학습자가 발음 시 기류의 위치 및 변화를 이해하기 용이하게 한다.
자음 중에 [w, j] 같은 공명음 소리들은 조음 위치 및 기류의 흐름의 변화에 대한 이미지뿐 아라 공명이 일어나는 위치와 시간의 흐름에 따른 위치의 변화를 음성신호의 재생 시작점부터 동기화 하여 그 변화를 방사형 이미지를 활용하여 동시에 표기하는 것이 바람직하다.
이어, 본 발명의 발음 학습 지원 시스템(1000)의 맵핑 발음 학습 지원 모듈(1300)의 정보 처리 방법에 대해서 더욱 더 상세하게 설명한다. 한국어의 [이] 발음과 영어의 [i] 발음은 혀의 위치 및 공명점이 다름에도 불구하고 대부분의 사람들은 양자를 구분하지 못하고, 영어의 [i] 발음을 한국어의 [이] 발음처럼 발음하는 문제를 안고 있다. 한편, 한국어의 [이] 발음이 정확한 사람의 경우에는 한어의 [이] 발음과 영어의 [i] 발음의 정확한 차이만 알게 영어의 [i] 발음을 더욱 더 정확하게 발음할 수 있게 된다. 이처럼 2개 국어 이상에서 유사한 음가를 가지를 음소의 경우에는 정확한 발음을 위해서는 해독도 되지만, 도움도 될 수 있는 양면성을 가진다. 상기 맵핑 발음 학습 지원 모듈(1300)은 목표 언어와 참조 언어에 본질적으로 상이하나 유사한 음가를 가지는 음소에 대한 비교 영상 정보를 제공하여, 목표 언어의 정확한 발음 교육을 성취하도록 지원한다.
도 60은 맵핑 발음 학습 지원 모듈(1300)의 일 실시예적 구성을 제시하고 있다. 상기 맵핑 언어 영상 정보 DB(1310)는 목표 언어에 대한 발음 대상별 구강 영상 정보를 저장하고 있는 목표 언어 발음 대응 구강 영상 정보 데이터(1311), 참조 언어에 대한 발음 대상별 구강 영상 정보를 저장하고 있는 참조 언어 발음 대응 구강 영상 정보 데이터(1312), 목표 언어와 참조 언어에 대한 비교 정보를 저장하고 있는 목표-참조 비교 정보 데이터(1313)를 포함하고 있다. 상기 목표 언어 발음 대응 구강 영상 정보 데이터(1311), 참조 언어 발음 대응 구강 영상 정보 데이터(1312) 및 목표-참조 비교 정보 데이터(1313)는 각각의 독립된 영상 파일로 존재할 수도 있지만, 목표 언어의 발성 대상별로 1개의 통합적인 디지털 파일로 존재할 수도 있다. 후자의 경우 이러한 통합적인 디지털 파일은 통합 맵핑 언어 영상 정보 데이터(1314)에 저장되어 있을 수 있다.
하기 표 2는 복수 언어간 맵핑 처리 모듈(1320)의 일 실시예적 맵핑 관리 정보 구조를 나타내고 있다. 상기 복수 언어간 맵핑 처리 모듈(1320)의 복수 언어 맵핑 처리부(1321)는 목표 언어와 참조 언어의 맵핑 관계를 처리하고, 이러한 맵핑 관계는 발음 대상별 복수 언어간 맵핑 관계 정보 데이터(1322)에 저장된다.
표 2
목표 언어 참조 언어 파일 정보
[i] [이] 목표_i.avi
[i] [이] 참조_이.avi
[i] [이] 비교_i_이.avi
[i] [이] 통합_i-이_avi
[^]/[:] [어] 목표_^.avi
[^]/[:] [어] 목표_
[^]/[:] [어] 참조_어.avi
[^]/[:] [어] 비교_^__어.avi
[^]/[:] [어] 통합_^__어.avi
.. .. ..
한편, 목표 발음 1개를 정확히 발성하기 위하여 참조 발음 n개를 빠르게 연이어서 발성하면 효과적인 경우가 있다. 예를 들면, book의 모음에서 발음되는 영어의 단모음 [u]는 독립된 음소로는 한국어말에는 존재하지 않는 소리이지만 우리말 우으어를 힘을 빼고 짧게 발음하면 매우 유사한 소리가 된다. 따라서 영어의 [u] 학습할 때 우리말 우으어를 발음하는 영상을 빠르게 재생하여 제공하면 사용자가 이를 모방하여 효과적으로 [u] 발음할 수 있도록 지원할 수 있다.
도 61은 본 발명의 맵핑 발음 학습 지원 모듈(1300)의 일 실시예적 정보 처리 방법에 대한 예시이다. 상기 맵핑 발음 학습 지원 모듈(1300)은 참조 언어 발음 대상에 대한 참조 언어 발음 대응 구강 영상 정보를 제공(S3-11)하고, 목표 언어 발음 대상에 대한 목표 언어 발음 대응 구강 영상 정보를 제공(S3-12)하며, 참조 언어 발음 대상 및 목표 언어 발음 대상에 대한 비교 정보인 목표-참조 비교 영상 정보 제공(S3-13)한다.
한편, 상기 맵핑 발음 학습 지원 모듈(1300)은 상기 사용자 단말기(2000)로부터 목표 언어 발음 대상 정보를 입수(S3-21)하고, 입수한 목표 언어 발음 대상 정보와 맵핑되는 참조 언어 발음 대상 정보를 조회(S3-22)한다. 예를 들어, 상기 맵핑 발음 학습 지원 모듈(1300)의 사용자 입력 기반 3차원 영상 처리부(1130)는 사용자 단말기(2000)로부터 목표 언어의 발음 대상인 [i]를 목표 언어 발음 대상 정보를 입수하며, 표 2와 같은 발음 대상별 복수 언어간 맵핑 관계 정보 데이터(1322)를 조회하여 참조 언어 발음 대상 정보인 [이]를 입수한다.
그리고, 표 2에서 예시되듯이, 참조 언어 [어]에는 복수 개의 목표 언어가 맵핑되어 있을 수 있다. 이 때, 상기 복수 언어간 맵핑 처리 모듈(1320)은 도 63에 예시되는 바와 같이, 복수 참조 언어 맵핑 정보를 입수(S3-31)하고, 맵핑된 복수 참조 언어에 대한 비교 정보 제공에 대한 제어 정보를 입수(S3-32)하고, 제어 정보를 참조하여 참조 언어 발음 대응 구강 영상 정보, 목표 언어 발음 대응 구강 영상 정보 및 목표-참조 비교 정보를 제공(S3-33)한다.
이하, 맵핑 발음 학습 지원 모듈(1300)이 제공하는 영상 정보에 포함된 이미지를 예시하면서 설명한다. 도 65는 목표 언어 [i]에 대응되는 참조 언어 [이]에 대한 참조 언어 발음 대상에 대한 참조 언어 발음 대응 구강 영상 정보다. 상기 [이]에 대한 구강 영상 정보가 나오는 동안에 텍스트로 "한국어 - 이"와 같은 참조 언어 발음을 명확히 하는 지원 정보가 표시된다. 한편, 사용자 단말기(2000)에 나타나는 구강 영상 정보에는 한국어 [이]에 대한 구강 영상으로, 혀의 위치, 모양 및 혀의 외곽선에 대한 강조 표시(참조 언어 발음 대상에 대한 혀의 외곽선에 대한 강조 표시(131)) 등이 나타나고 중요 정보로 한국어 [이] 발음에 대한 권장 공명점(133)((혀 위에 표시되어 있는 점)이 나타난다.
이어 도 66과 같이 목표 언어와 참조 언어에 대한 비교 정보가 나타난다. 이때, 목표 언어 [i]에 대한 발음이 청각적으로 제공되면서, 도 66에서 도시되는 바와 같이 목표 언어 [i]에 대응되는 혀의 위치, 모양 및 혀의 외곽선에 대한 강조 표시(목표 언어 발음 대상에 대한 혀의 외곽선에 대한 강조 표시(132))가 나타나고, 중요 정보로서 목표 언어 발음인 [i]에 대응되는 권장 공명점(134) 및 참조 언어의 권장 공명점과 목표 언어의 권장 공명점간의 위치적 차이를 나타내는 표현 수단(135)(참조 언어의 권장 공명점(132)에서 목표 언어의 권장 공명점(134)으로의 화살표 표시 등)가 나타나 있다. 한편, 도 65와 66에서 구강 내에서는 모음 사각도가 표시되어 있어, 목표 언어와 참조 언어의 권장 공명점의 모음 사각도 상의 상대적인 위치를 파악할 수 있도록 지원한다.
도 67 내지 도 69는 1개의 참조 언어와 2개의 목표 언어가 맵핑되는 본원 발명 사상의 또 다른 실시예를 보여 주고 있다. 상기 맵핑 발음 학습 지원 모듈(1300)은 [^] 발음 교육이나 [:]에 대한 발음 교육을 지원하기 위해서 참조 언어로 [어]에 대한 발음과의 비교 정보를 제공한다.
도 67은 목표 언어의 목표 발음인 [^]에 대한 구강 영상 정보의 일 실시예적 이미지이다. 목표 발음인 [^]에 관한 모든 정보는 마름모 사각형으로 처리되고 있음을 보여 주고 있다. 도 68은 참조 언어의 참조 발음인 [어]에 대하여 원형으로 처리되는 구강 영상 정보가 목표 언어의 목표 발음인 [^]에 대한 구강 영상 정보에 겹쳐서 나타나고 있음을 예시적으로 보여 준다. 물론, 이때, 참조 언어의 참조 발음인 [어]에 대한 구강 영상 정보가 먼저 나타나고, 이어, 목표 언어의 목표 발음인 [^]에 대한 구강 영상 정보를 비교 정보로 제공될 수도 있을 것이다. 도 69는 목표 언어의 목표 발음인 [:]에 대한 삼각형 모양으로 처리된 구강 영상 정보의 일 실시예적 이미지가, 마름모 사각형으로 처리된 목표 언어의 목표 발음 [^]에 대한 구강 영상 정보와 원형으로 처리된 참조 언어의 참조 발음 [어]에 대한 구강 영상 정보가 비교되어 제공되고 있음을 보여 준다.
도 67 내지 도 69에서처럼 1개의 참조 언어의 참조 발음에 목표 언어의 복수 개의 목표 발음이 대응되거나, 1개의 목표 언어의 목표 발음에 참조 언어의 복수 개의 참조 발음이 대응될 수 있을 것이다. 이때 복수 개의 참조 발음에 대한 구강 영상 정보나 복수 개의 목표 발음에 대한 구강 영상 정보가 나타나는 순서는 임의로 정하거나, 사용자 입력 기반 맵핑 언어 영상 처리부(1340)를 통한 사용자의 선택 정보를 반영하여 정할 수 있다. 또한, 각 단수/복수 개의 목표 발음에 대한 구강 영상 정보 및/또는 각 단수/복수 개의 참조 발음에 대한 구강 영상 정보가 개별적으로 나타난 다음, 목표 발음에 대한 구강 영상 및 참조 발음에 대한 구강 영상 정보를 비교하는 목표-참조 비교 영상 정보가 제공되는 방식과 같은 순차 제공 방식이 채용될 수도 있다. 상기 도 65 내지 도 69에서 처럼, 단수 또는 복수 개의 참조 발음에 대한 영상 정보나 단수 또는 복수 개의 목표 발음에 대한 영상 정보는 이들 정보가 나타날 때, 이전에 나타난 구강 영상 정보를 유지한 채 이전에 나타난 구강 영상 정보와 구분되게 중첩적으로 제공될 수도 있을 것이다. 이러한 순차 제공 방식이나 중첩 제공 방식은 사용자 입력 기반 맵핑 언어 영상 처리부(1340)가 입수하는 사용자의 선택에 따르거나, 맵핑 발음 학습 지원 모듈(1300)의 제공 방식에 대한 초기 세팅값에 따라 달라질 수 있게 된다. 하지만, 어떠한 제공 방식을 취하든 목표-참조 비교 정보 데이터(1313)는 필수적으로 제공되는 것이 바람직할 것이다.
이때, 목표 발음의 구강 영상 정보나 참조 발음의 구강 영상 및 목표-참조 비교 구강 영상 정보는 별도의 디지털 파일로 존재하고, 호출되는 순서에 따라 사용자 단말기(2000)로 전송될 수 있을 것이다. 물론, 1개의 통합적인 파일 내에 목표 발음의 구강 영상 정보나 참조 발음의 구강 영상 및 목표-참조 비교 구강 영상 정보가 함께 존재하는 방식도 바람직할 수 있을 것이다.
한편, 상기 사용자 입력 기반 맵핑 언어 영상 처리부(1340)는 상기 사용자 단말기(2000)로부터 사용자 음성 정보를 입수하고, 상기 사용자 음성 정보를 처리하여, 공명점 정보를 생성할 수 있을 것이다. 공명점 정보의 생성은 전술한 바와 같다. 상기 생성된 공명점이 상기 목표 발음의 구강 영상 정보나 참조 발음의 구강 영상 및 목표-참조 비교 구강 영상 정보에 반영될 수 있음은 전술한 바와 같다. 도 64는 이러한 사용자 음성 정보 정보를 처리하여 발음 학습 효과를 극대화하는 본 발명 사상을 개시하고 있다. 상기 맵핑 발음 학습 지원 모듈(1300)은 발음 대상에 대한 사용자의 음성 정보를 입수(S3-41)하고, 사용자의 음성 정보에서 사용자 공명점 정보를 생성(S3-42)한 다음, 사용자 공명점 정보를 목표-참조 비교 정보에 포함시켜 사용자-목표-참조 비교 정보 생성(S3-43)하고, 사용자-목표-참조 비교 정보가 포함된 사용자-목표-참조 비교 영상 정보 제공(S3-44)한다.
도 70 내지 도 73은 자음에 대한 본 발명 사상을 적용한 일 실시예적 동영상 구성 도면이다. 도 70은 참조 발음으로서 한국어 [ㅇ] 발음에 대한 구강 영상 정보이며, 도 71은 참조 발음과 목표 발음이 비교되어 나타나는 구강 영상 도면이다. 도 72은 참조 발음으로서 한국어 [ㅎ] 발음에 대한 성대 영상 정보이며, 도 73은 목표 발음 [h]에 대한 성대 영상 모양이다. 도 72와 도 73의 비교에서 한국어 [ㅎ] 발음에 비하여 [h] 발음의 경우, 성대가 좁아져야 정확한 발음을 할 수 있다는 직관적으로 이해할 수 있다.
상기에서는 목표 언어를 영어 발음으로, 참조 언어를 한국어 발음으로 예시하였으나, 이는 예시일 뿐 목표 언어와 참조 언어는 맵핑 관계만 성립하면 어떠한 언어의 조합이라도 본원 발명 사상이 적용됨은 당업자에게 당연할 것이다. 한편, 1개의 목표 언어에 대하여 복수 개의 참조 언어가 대응될 수 있음도 당연할 것이다.
본 발명은 교육 산업, 특히 외국어 교육 산업 및 언어 교정 관련 산업에 광범위하게 활용될 수 있다.

Claims (21)

  1. 발음 학습 지원 시스템의 정보 처리 방법에 있어서,
    상기 발음 학습 지원 시스템이
    (a) 발음 대상별로 해당 발음에 대한 발성 시 구강 내부의 공간을 통해 흐르는 기류의 세기 및 방향 정보를 포함하는 권장 기류 정보 데이터 및 해당 발음에 대한 발성 시 공명이 발생하는 조음 기관 상의 위치 정보를 포함하는 권장 공명점 정보 데이터 중 적어도 일부를 획득하는 단계; 및
    (b) 상기 발음 대상 중 특정 발음 대상이 선택되면, 상기 특정 발음 대상에 대응되는 특정 권장 기류 정보 데이터를 제1 투시 방향을 기준으로 제공되는 영상 내의 구강 내부의 공간에 표시하는 프로세스 및 상기 특정 발음 대상에 대응되는 특정 권장 공명점 정보 데이터를 상기 제1 투시 방향을 기준으로 제공되는 영상 내의 조음 기관 상의 특정 위치에 표시하는 프로세스 중 적어도 하나를 처리하여 영상을 제공하는 단계
    를 포함하는 발음 학습 지원 시스템의 정보 처리 방법.
  2. 제 1항에 있어서,
    상기 (b) 단계는,
    사용자가 상기 특정 발음 대상을 발음한 것에 대응하여 상기 발음 학습 지원 시스템이 상기 발음된 특정 발음 대상을 식별하면, 상기 특정 발음 대상에 대응되는 상기 특정 권장 기류 정보 데이터를 상기 제1 투시 방향을 기준으로 제공되는 영상 내의 구강 내부의 공간에 표시하는 프로세스 및 상기 특정 발음 대상에 대응되는 상기 특정 권장 공명점 정보 데이터를 상기 제1 투시 방향을 기준으로 제공되는 영상 내의 조음 기관 상의 상기 특정 위치에 표시하는 프로세스 중 적어도 하나를 수행하여 제공하는 것을 특징으로 하는 방법.
  3. 제 1항에 있어서,
    상기 발음 학습 지원 시스템을 이용하는 사용자의 시선 인식 기술 또는 상기 사용자의 얼굴에 대한 인식 기술에 따라 상기 사용자가 화면을 바라보는 방향 정보가 제1 방향으로서 식별되면, 이를 참조로 하여 상기 제1 투시 방향이 결정되는 것을 특징으로 하는 방법.
  4. 제 3항에 있어서,
    상기 (b) 단계는,
    상기 제1 투시 방향으로 제공하는 상태에서 상기 사용자가 상기 화면을 바라보는 방향 정보가 제2 방향으로 변경되었음이 식별되면, 상기 제1 투시 방향 기준으로 처리된 영상 및 상기 제2 방향과 대응하는 것으로 저장된 제2 투시 방향 기준으로 처리된 영상을 제공하는 것을 특징으로 하는 방법.
  5. 제 1항에 있어서,
    상기 (a) 단계는,
    (a1) 복수의 피험자를 대상으로 발음 대상별로 발성 정보를 획득하는 단계;
    (a2) 상기 발성 정보별로 획득한 발성 정보에 대하여 주파수 분석을 수행하는 단계; 및
    (a3) 상기 주파수 분석을 참조로 하여, 포먼트 주파수 중 가장 낮은 두 개의 주파수인 F1 및 F2를 참조로 하여 상기 권장 공명점 정보 데이터를 발성 정보별로 획득하는 단계
    를 포함하는 것을 특징으로 하는 방법.
  6. 제 1항에 있어서,
    상기 발음 학습 지원 시스템의 사용자로부터 특정 발음 대상에 대한 발성이 감지되면,
    상기 (b) 단계는,
    (b1) 상기 감지된 발성으로부터 상기 사용자의 상기 특정 발음 대상에 대한 실제 공명점 정보 데이터를 획득하는 단계; 및
    (b2) 상기 특정 발음 대상에 대응되어 저장되어 있는 상기 특정 권장 공명점 정보 데이터 및 상기 실제 공명점 정보 데이터를 상기 제1 투시 방향을 기준으로 제공되는 영상 내의 조음 기관 상의 해당 위치에 각각 표시하는 프로세스를 처리하여 영상을 제공하는 단계
    를 포함하는 것을 특징으로 하는 방법.
  7. 제 1항에 있어서,
    상기 조음 기관은 n 개이며, 상기 조음 기관 중 적어도 일부는 서로 다른 레이어로 처리되도록 하기 위한 메타데이터가 저장되어 있고,
    상기 발음 학습 지원 시스템의 사용자에 의해 상기 특정 발음 대상이 선택되면, 상기 특정 발음 대상에 대응되는 적어도 하나의 특정 조음 기관에 해당되는 레이어를 활성화하여 영상을 제공하는 것을 특징으로 하는 방법.
  8. 제1항 내지 제7항 중 어느 한 항의 방법을 실시하며 컴퓨터가 읽을 수 있는 프로그램을 포함하는 것을 특징으로 하는 기록 매체.
  9. 발음 학습 지원 시스템의 정보 처리 방법에 있어서,
    상기 발음 학습 지원 시스템이
    (a) (i) 발음 대상별로 해당 발음 대상이 발성되기 전의 구강 내부의 공간의 상태 및 조음 기관의 상태에 대한 정보를 포함하는 준비 데이터 중 적어도 일부를 획득하고, (ii) 해당 발음에 대한 발성 시 상기 구강 내부의 공간을 통해 흐르는 기류의 세기 및 방향 정보를 포함하는 권장 기류 정보 데이터 및 해당 발음에 대한 발성 시 공명이 발생하는 조음 기관 상의 위치 정보를 포함하는 권장 공명점 정보 데이터 중 적어도 일부를 획득하고, (iii) 해당 발음 대상이 발성된 후의 상기 구강 내부의 공간의 상태 및 상기 조음 기관의 상태에 대한 정보를 포함하는 후속 데이터 중 적어도 일부를 획득하는 단계; 및
    (b) 상기 발음 대상 중 특정 발음 대상이 선택되면, (i) 상기 특정 발음 대상에 대응되어 있는 특정 준비 데이터에 포함되어 있는 구강 내부의 공간의 상태 및 조음 기관의 상태에 대한 정보를 표시하여 준비 구강 영상 정보를 제공하는 프로세스, (ii) 상기 특정 발음 대상에 대응되어 있는 특정 권장 기류 정보 데이터 및 특정 권장 공명점 정보 데이터 중 적어도 일부를 구강 내부의 공간 및 조음 기관 상의 적어도 일부의 위치에 표시하여 발성 구강 영상 정보를 제공하는 프로세스, (iii) 상기 특정 발음 대상에 대응되어 있는 특정 후속 데이터에 포함되어 있는 구강 내부의 공간의 상태 및 조음 기관의 상태에 대한 정보를 표시하여 후속 구강 영상 정보를 제공하는 프로세스를 처리하여 영상을 제공하는 단계
    를 포함하는 발음 학습 지원 시스템의 정보 처리 방법.
  10. 제 9항에 있어서,
    상기 (a) 단계에서,
    (a1) 각 언어별, 사람의 성별, 연령별로 모음 발음 시에 구강 내에 공명이 일어날 수 있는 범위를 계산하는 단계;
    (a2) 상기 계산된 공명이 일어날 수 있는 범위의 평균값을 계산하는 단계; 및
    (a3) 상기 계산된 평균값을 참조로 하여 구획을 설정하는 단계를 포함하는 프로세스를 통하여 모음 사각도에 대한 정보가 추가로 획득되고,
    상기 (b) 단계에서,
    상기 선택된 특정 발음 대상에 모음이 포함된 경우, 상기 준비 구강 영상 정보, 상기 발성 구강 영상 정보, 상기 후속 구강 영상 정보 중 적어도 일부에는 상기 특정 발음 대상에 대응되는 모음 사각도가 삽입되어 제공되는 것을 특징으로 하는 방법.
  11. 제 9항에 있어서,
    상기 (a) 단계는,
    (a1) 복수의 피험자를 대상으로 발음 대상별로 발성 정보를 획득하는 단계;
    (a2) 상기 발성 정보별로 획득한 발성 정보에 대하여 주파수 분석을 수행하는 단계; 및
    (a3) 상기 주파수 분석을 참조로 하여, 포먼트 주파수 중 가장 낮은 두 개의 주파수인 F1 및 F2를 참조로 하여 상기 권장 공명점 정보 데이터를 발성 정보별로 획득하는 단계
    를 포함하는 것을 특징으로 하는 방법.
  12. 제 9항에 있어서,
    상기 발음 학습 지원 시스템의 사용자로부터 특정 발음 대상에 대한 발성이 감지되면,
    상기 (b) 단계는,
    (b1) 상기 감지된 발성으로부터 상기 사용자의 상기 특정 발음 대상에 대한 실제 공명점 정보 데이터를 획득하는 단계; 및
    (b2) 상기 특정 발음 대상에 대응되어 저장되어 있는 상기 특정 권장 공명점 정보 데이터 및 상기 실제 공명점 정보 데이터를 조음 기관 상의 해당 위치에 각각 표시하여 상기 발성 구강 영상 정보를 제공하는 프로세스를 처리하여 영상을 제공하는 단계
    를 포함하는 것을 특징으로 하는 방법.
  13. 제 9항에 있어서,
    상기 조음 기관은 n 개이며, 상기 조음 기관 중 적어도 일부는 서로 다른 레이어로 처리되도록 하기 위한 메타데이터가 저장되어 있고,
    상기 발음 학습 지원 시스템의 사용자에 의해 상기 특정 발음 대상이 선택되면, 상기 특정 발음 대상에 대응되는 적어도 하나의 특정 조음 기관에 해당되는 레이어를 활성화하여 영상을 제공하는 것을 특징으로 하는 방법.
  14. 제9항 내지 제13항 중 어느 한 항의 방법을 실시하며 컴퓨터가 읽을 수 있는 프로그램을 포함하는 것을 특징으로 하는 기록 매체.
  15. 발음 학습 지원 시스템의 정보 처리 방법에 있어서,
    상기 발음 학습 지원 시스템이
    (a) 목표 언어의 발음 대상 및 상기 목표 언어의 발음 대상에 대응되는 참조 언어의 발음 대상에 대한 발성 시 구강 내부의 공간을 통해 흐르는 기류의 세기 및 방향 정보를 포함하는 권장 기류 정보 데이터 및 해당 발음에 대한 발성 시 공명이 발생하는 조음 기관 상의 위치 정보를 포함하는 권장 공명점 정보 데이터 중 적어도 일부를 획득하는 단계; 및
    (b) 상기 목표 언어 중 특정 목표 언어가 선택되고 상기 참조 언어 중 특정 참조 언어가 선택되며, 상기 특정 목표 언어의 발음 대상 중 특정 목표 언어 발음 대상이 선택되고 상기 특정 참조 언어의 발음 대상 중 특정 참조 언어 발음 대상이 선택되면, (i) 상기 특정 목표 언어 발음 대상에 대응되는 제1 특정 권장 기류 정보 데이터를 구강 내부의 공간에 표시하는 프로세스 및 상기 특정 목표 언어 발음 대상에 대응되는 제1 특정 권장 공명점 정보 데이터를 조음 기관 상의 특정 위치에 표시하는 프로세스 중 적어도 하나를 처리하고, (ii) 상기 특정 참조 언어 발음 대상에 대응되는 제2 특정 권장 기류 정보 데이터를 구강 내부의 공간에 표시하는 프로세스 및 상기 특정 참조 언어 발음 대상에 대응되는 제2 특정 권장 공명점 정보 데이터를 조음 기관 상의 특정 위치에 표시하는 프로세스 중 적어도 하나를 처리하여 영상을 제공하는 단계
    를 포함하는 발음 학습 지원 시스템의 정보 처리 방법.
  16. 제 15항에 있어서,
    상기 (b) 단계는,
    (b1) 상기 발음 학습 지원 시스템의 사용자의 발성으로부터 음성 데이터를 획득하는 단계;
    (b2) 상기 획득된 음성 데이터를 분석하여 상기 참조 언어의 종류를 획득하는 단계; 및
    (b3) 상기 획득된 참조 언어의 종류에 대응되어 있는 적어도 하나의 목표 언어 중 상기 발음 학습 지원 시스템을 사용했던 복수의 피험자들이 상기 획득된 참조 언어의 종류에 대한 페어(pair)로서 가장 많이 선택했던 상위 n 개의 목표 언어의 종류를 제공하여 선택을 지원하는 단계를 포함하는 것을 특징으로 하는 방법.
  17. 제 15항에 있어서,
    상기 (b) 단계는,
    (b1) 상기 발음 학습 지원 시스템의 사용자의 발성으로부터 음성 데이터를 획득하는 단계;
    (b2) 상기 획득된 음성 데이터를 분석하여 상기 목표 언어의 종류를 획득하는 단계; 및
    (b3) 상기 획득된 목표 언어의 종류에 대응되어 있는 적어도 하나의 참조 언어 중 상기 발음 학습 지원 시스템을 사용했던 복수의 피험자들이 상기 획득된 목표 언어의 종류에 대한 페어(pair)로서 가장 많이 선택했던 상위 n 개의 참조 언어의 종류를 제공하여 선택을 지원하는 단계를 포함하는 것을 특징으로 하는 방법.
  18. 제 15항에 있어서,
    상기 (a) 단계는,
    (a1) 복수의 피험자를 대상으로 상기 목표 언어의 발음 대상별로 발성 정보를 획득하고 상기 참조 언어의 발음 대상별로 발성 정보를 획득하는 단계;
    (a2) 상기 목표 언어 및 상기 참조 언어의 발성 정보별로 획득한 발성 정보에 대하여 주파수 분석을 각각 수행하는 단계; 및
    (a3) 상기 주파수 분석을 참조로 하여, 포먼트 주파수 중 가장 낮은 두 개의 주파수인 F1 및 F2를 참조로 하여 상기 권장 공명점 정보 데이터를 상기 목표 언어 및 상기 참조 언어의 발성 정보별로 획득하는 단계
    를 포함하는 것을 특징으로 하는 방법.
  19. 제 15항에 있어서,
    상기 발음 학습 지원 시스템의 사용자로부터의 특정 발음 대상에 대한 발성이 상기 특정 목표 언어 또는 상기 특정 참조 언어의 발성으로서 감지되면,
    상기 (b) 단계는,
    (b1) 상기 감지된 발성으로부터 상기 사용자의 상기 특정 발음 대상에 대한 실제 공명점 정보 데이터를 획득하는 단계; 및
    (b2) 상기 특정 발음 대상에 대응되어 저장되어 있는 상기 제1 특정 권장 공명점 정보 데이터 및 상기 제2 특정 권장 공명점 정보 데이터 중 적어도 하나와 상기 실제 공명점 정보 데이터를 조음 기관 상의 해당 위치에 각각 표시하는 프로세스를 처리하여 영상을 제공하는 단계
    를 포함하는 것을 특징으로 하는 방법.
  20. 제 15항에 있어서,
    상기 조음 기관은 n 개이며, 상기 조음 기관 중 적어도 일부는 서로 다른 레이어로 처리되도록 하기 위한 메타데이터가 저장되어 있고,
    상기 발음 학습 지원 시스템의 사용자에 의해 상기 특정 목표 언어 발음 대상 또는 상기 특정 참조 언어 발음 대상이 선택되면, 상기 특정 목표 언어 발음 대상 또는 상기 특정 참조 언어 발음 대상에 대응되는 적어도 하나의 특정 조음 기관에 해당되는 레이어를 활성화하여 영상을 제공하는 것을 특징으로 하는 방법.
  21. 제15항 내지 제20항 중 어느 한 항의 방법을 실시하며 컴퓨터가 읽을 수 있는 프로그램을 포함하는 것을 특징으로 하는 기록 매체.
PCT/KR2014/012850 2013-12-26 2014-12-24 3차원 멀티미디어 활용 발음 학습 지원 시스템 및 그 시스템의 발음 학습 지원 방법 WO2015099464A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US15/108,318 US20160321953A1 (en) 2013-12-26 2014-12-24 Pronunciation learning support system utilizing three-dimensional multimedia and pronunciation learning support method thereof

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2013-0163530 2013-12-26
KR20130163530 2013-12-26

Publications (1)

Publication Number Publication Date
WO2015099464A1 true WO2015099464A1 (ko) 2015-07-02

Family

ID=53479228

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2014/012850 WO2015099464A1 (ko) 2013-12-26 2014-12-24 3차원 멀티미디어 활용 발음 학습 지원 시스템 및 그 시스템의 발음 학습 지원 방법

Country Status (3)

Country Link
US (1) US20160321953A1 (ko)
KR (4) KR20150076125A (ko)
WO (1) WO2015099464A1 (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109756727B (zh) * 2017-08-25 2021-07-20 华为技术有限公司 信息显示方法及相关设备
US11594147B2 (en) * 2018-02-27 2023-02-28 Voixtek Vr, Llc Interactive training tool for use in vocal training
KR102655791B1 (ko) 2018-08-27 2024-04-09 삼성전자주식회사 화자 인증 방법, 화자 인증을 위한 학습 방법 및 그 장치들
KR102019613B1 (ko) 2018-12-13 2019-09-06 김대호 혀 운동성에 기반한 발음 연습 및 학습 방법
CN111047922A (zh) * 2019-12-27 2020-04-21 浙江工业大学之江学院 一种发音教学方法、装置、系统、计算机设备和存储介质
CN111445925A (zh) * 2020-03-31 2020-07-24 北京字节跳动网络技术有限公司 用于生成差异信息的方法和装置
KR102480607B1 (ko) * 2021-01-11 2022-12-23 정가영 인토네이션, 스트레스 및 리듬을 표기한 영어 말하기 학습 서비스 제공 시스템
KR102355960B1 (ko) * 2021-04-12 2022-02-08 주식회사 미카 자격조건검증 기반 한국어 교육 서비스 제공 시스템
WO2023007509A1 (en) * 2021-07-27 2023-02-02 Indian Institute Of Technology Bombay Method and system for time-scaled audiovisual feedback of speech production efforts
KR102582716B1 (ko) * 2021-12-07 2023-09-22 이수연 훈민정음 창제원리를 이용한 한국어발음교정 시스템
KR102434912B1 (ko) * 2022-01-24 2022-08-23 주식회사 하이 신경언어장애를 개선하는 방법 및 장치

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000250402A (ja) * 1999-03-01 2000-09-14 Kono Biru Kk 外国語の発音学習装置及び外国語発音学習用データを記録した記録媒体
JP2008158055A (ja) * 2006-12-21 2008-07-10 Sumitomo Cement Computers Systems Co Ltd 言語発音練習支援システム
KR20100016704A (ko) * 2008-08-05 2010-02-16 김상도 단어와 그림의 저장 방법 및 이 데이터 베이스를 이용하는인터넷 외국어 학습 방법
KR20100138654A (ko) * 2009-06-25 2010-12-31 유혜경 외국어 발음 학습 장치 및 방법
KR20110046937A (ko) * 2009-10-29 2011-05-06 강진호 음성분석기술을 이용한 시각적 영어 발음 교정시스템 및 교정법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150024180A (ko) * 2013-08-26 2015-03-06 주식회사 셀리이노베이션스 발음 교정 장치 및 방법
JP6586099B2 (ja) * 2013-10-31 2019-10-02 パウ−サン ハルタ 言語関連障害の診断及び治療のためのコンピューティング技術

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000250402A (ja) * 1999-03-01 2000-09-14 Kono Biru Kk 外国語の発音学習装置及び外国語発音学習用データを記録した記録媒体
JP2008158055A (ja) * 2006-12-21 2008-07-10 Sumitomo Cement Computers Systems Co Ltd 言語発音練習支援システム
KR20100016704A (ko) * 2008-08-05 2010-02-16 김상도 단어와 그림의 저장 방법 및 이 데이터 베이스를 이용하는인터넷 외국어 학습 방법
KR20100138654A (ko) * 2009-06-25 2010-12-31 유혜경 외국어 발음 학습 장치 및 방법
KR20110046937A (ko) * 2009-10-29 2011-05-06 강진호 음성분석기술을 이용한 시각적 영어 발음 교정시스템 및 교정법

Also Published As

Publication number Publication date
KR20150076126A (ko) 2015-07-06
KR20150076125A (ko) 2015-07-06
KR20150076128A (ko) 2015-07-06
KR20150076127A (ko) 2015-07-06
US20160321953A1 (en) 2016-11-03

Similar Documents

Publication Publication Date Title
WO2015099464A1 (ko) 3차원 멀티미디어 활용 발음 학습 지원 시스템 및 그 시스템의 발음 학습 지원 방법
US6865533B2 (en) Text to speech
KR100900085B1 (ko) 외국어 학습 제어방법
KR20150024180A (ko) 발음 교정 장치 및 방법
WO2011152575A1 (ko) 발음기관 애니메이션 생성 장치 및 방법
WO2017082447A1 (ko) 외국어 독음 및 표시장치와 그 방법, 및 이를 이용한 외국어 리듬 동작 감지 센서 기반의 운동학습장치와 운동학습방법, 이를 기록한 전자매체 및 학습교재
KR100900081B1 (ko) 외국어 학습 제어방법
Karpov et al. Multimodal synthesizer for Russian and Czech sign languages and audio-visual speech
Krivokapic et al. A kinematic analysis of prosodic structure in speech and manual gestures.
Palo et al. Effect of phonetic onset on acoustic and articulatory speech reaction times studied with tongue ultrasound
JP2844817B2 (ja) 発声練習用音声合成方式
JP2003162291A (ja) 語学学習装置
Meister et al. New speech corpora at IoC
KR20140078810A (ko) 언어 데이터 및 원어민의 발음 데이터를 이용한 리듬 패턴 학습장치 및 방법
Cox Phonetics and phonology of Australian English
WO2019054618A1 (ko) 섀도윙과 속청을 결합시켜 모국어 습득과정을 모사한 외국어 학습 방법, 장치 및 프로그램 기록매체
JPH0756494A (ja) 発音訓練装置
KR101920653B1 (ko) 비교음 생성을 통한 어학학습방법 및 어학학습프로그램
Abdo et al. Building Audio-Visual Phonetically Annotated Arabic Corpus for Expressive Text to Speech.
KR20150075502A (ko) 발음 학습 지원 시스템 및 그 시스템의 발음 학습 지원 방법
WO2012133972A1 (ko) 음가의 강세를 이용한 발음기관 애니메이션 생성 장치 및 방법
Athanasopoulos et al. King's speech: pronounce a foreign language with style
JP2006284645A (ja) 音声再生装置およびその再生プログラムならびにその再生方法
JP6900605B2 (ja) 動的発音による言語のリスニング学習システム
KR20140087950A (ko) 언어 데이터 및 원어민의 발음 데이터를 이용한 리듬 패턴 학습장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14873360

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 15108318

Country of ref document: US

122 Ep: pct application non-entry in european phase

Ref document number: 14873360

Country of ref document: EP

Kind code of ref document: A1