WO2022154217A1 - 음성 장애 환자를 위한 음성 자가 훈련 방법 및 사용자 단말 장치 - Google Patents

음성 장애 환자를 위한 음성 자가 훈련 방법 및 사용자 단말 장치 Download PDF

Info

Publication number
WO2022154217A1
WO2022154217A1 PCT/KR2021/014866 KR2021014866W WO2022154217A1 WO 2022154217 A1 WO2022154217 A1 WO 2022154217A1 KR 2021014866 W KR2021014866 W KR 2021014866W WO 2022154217 A1 WO2022154217 A1 WO 2022154217A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
training
user terminal
user
guide content
Prior art date
Application number
PCT/KR2021/014866
Other languages
English (en)
French (fr)
Inventor
임선
김철기
Original Assignee
가톨릭대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가톨릭대학교 산학협력단 filed Critical 가톨릭대학교 산학협력단
Priority to US18/251,840 priority Critical patent/US20240021096A1/en
Publication of WO2022154217A1 publication Critical patent/WO2022154217A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/02Electrically-operated educational appliances with visual presentation of the material to be studied, e.g. using film strip
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/04Speaking
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4803Speech analysis specially adapted for diagnostic purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B7/00Electrically-operated teaching apparatus or devices working with questions and answers
    • G09B7/02Electrically-operated teaching apparatus or devices working with questions and answers of the type wherein the student is expected to construct an answer to the question which is presented or wherein the machine gives an answer to the question presented by a student
    • G09B7/04Electrically-operated teaching apparatus or devices working with questions and answers of the type wherein the student is expected to construct an answer to the question which is presented or wherein the machine gives an answer to the question presented by a student characterised by modifying the teaching programme in response to a wrong answer, e.g. repeating the question, supplying a further explanation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Definitions

  • the technology described below relates to a method and apparatus for voice self-training.
  • Speech disorders can occur for a variety of reasons.
  • Voice disorders can be divided into organic disorders caused by voice abuse, trauma or inflammation, and functional disorders caused by stress or nervous system diseases. There are various methods of treating speech disorders, and basically, speech therapy through vocalization is widely used.
  • Speech therapy is a method in which medical staff provide appropriate vocal training to patients through face-to-face treatment.
  • Traditional voice therapy methods may be difficult to use universally for patients with voice disorders in that they are provided by medical staff with specialized knowledge.
  • the technology to be described below intends to provide voice self-training through a user terminal such as a smart phone using IT technology.
  • a user terminal such as a smart phone using IT technology.
  • elderly patients have a limitation in that it is difficult to accurately recognize their own vocalizations due to hearing loss.
  • the technology to be described below is intended to provide voice self-training in which elderly patients can intuitively grasp the state of their vocalizations.
  • the voice self-training method for a patient with a voice disorder comprises the steps of: outputting, by a user terminal, first guide content for voice training on a screen; analyzing and evaluating, by the user terminal, the voice, outputting, by the user terminal, second guide content according to the evaluation result on a screen, and the user terminal inputting the voice output by the user according to the second guide content includes receiving steps.
  • the voice self-training method for a patient with a voice disorder includes: outputting, by a user terminal, first guide content for voice training on a screen; Step, the user terminal receiving the evaluation result of the voice from the diagnostician terminal, outputting, by the user terminal, second guide content according to the evaluation result on a screen, and the user terminal receiving the second guide content and receiving a voice output by the user according to the input.
  • the user terminal device for voice self-training includes an input device for receiving a user's training program selection command, a storage device for storing voice training candidate programs for user voice training, and a first voice selected by the user from among the voice training candidate programs. and an arithmetic device for generating first guide content according to a training program, an output device for outputting the first guide content, and a microphone for receiving a voice output by a user according to the first guide content output to the output device.
  • the computing device selects a second voice training program from among the voice training candidate programs according to the evaluation result of the user's voice, generates second guide content according to the second voice training program, and the output device includes The second guide content is output.
  • the first guide content and the second guide content are data for outputting the content of the voice training program as a visual object according to the passage of time.
  • the technology to be described below allows a patient to easily self-train through a user terminal.
  • the technology to be described below allows an elderly patient to easily recognize his/her vocalization state (vocal strength, change in vocalization, etc.) using a visual object.
  • 1 is an example of a voice self-training system.
  • 3 is an example of a process of evaluating a user's voice and providing a voice training program.
  • 4 is an example of guide content for a voice training program.
  • 5 is another example of guide content for a voice training program.
  • 6 is another example of guide content for a voice training program.
  • 7 is an example of feedback of user output to a voice training program.
  • first, second, A, and B may be used to describe various components, but the components are not limited by the above terms, and only for the purpose of distinguishing one component from other components.
  • a first component may be named as a second component, and similarly, the second component may also be referred to as a first component without departing from the scope of the technology to be described below. and/or includes a combination of a plurality of related listed items or any of a plurality of related listed items.
  • each constituent unit is responsible for. That is, two or more components to be described below may be combined into one component, or one component may be divided into two or more for each more subdivided function.
  • each of the constituent units to be described below may additionally perform some or all of the functions of other constituent units in addition to the main function it is responsible for. Of course, it can also be performed by being dedicated to it.
  • each process constituting the method may occur differently from the specified order unless a specific order is clearly described in context. That is, each process may occur in the same order as specified, may be performed substantially simultaneously, or may be performed in the reverse order.
  • the user terminal device is a device capable of voice input, voice signal processing, and schedule information output.
  • the user terminal device may be a device such as a PC, a notebook computer, a smart phone, a smart device, a smart watch, a wearable device, or a smart TV.
  • 1 is an example of a voice self-training system 100 .
  • user A is a patient with a voice disorder.
  • the user A performs voice self-training using the user terminal device 110 .
  • the user terminal device 110 is illustrated as an example of a PC and a smart phone.
  • the user terminal device 110 provides a program for voice training (hereinafter, referred to as a voice training program).
  • the voice training program is a program for various voice self-training.
  • the program means training content.
  • the user terminal device 110 may provide a specific voice training program selected by the user.
  • the user terminal device 110 outputs the guide content according to the voice training program.
  • the guide content is information for easily delivering information such as the length, pitch, and intensity of a note that the user needs to utter over time. A detailed description of the guide content will be provided later.
  • the user may utter (output) the utterance appropriate to the current time by viewing the guide content output to the user terminal device 110 .
  • the user terminal device 110 receives a voice according to the voice training program from the user.
  • the voice uttered by the user according to the voice training program is called a training voice.
  • the user terminal device 110 may transmit the training voice to the evaluator terminal 150 .
  • the evaluator terminal 150 evaluates the training voice.
  • the evaluator terminal 150 may output a training voice and receive a result of evaluating the output training voice by the evaluator. This means the subjective evaluation of the evaluator.
  • the evaluator may be a medical staff.
  • the evaluator terminal 150 may analyze the training voice to calculate an evaluation result.
  • Various techniques may be used for analyzing the speech signal. Speech signal analysis may be performed based on characteristics in a frequency band. Speech signal analysis may be performed using a learning model (such as a deep learning model).
  • the user terminal device 110 receives feedback on the evaluation result of the training voice. Furthermore, the user terminal device 110 may analyze and evaluate the training voice using the voice evaluation model.
  • the user terminal device 110 may receive diagnostic information about the user A from the evaluator terminal 150 .
  • the user terminal device 110 may receive diagnostic information from a separate object holding the user's medical information.
  • the user terminal device 110 may receive diagnostic information from an Electronic Medical Record (EMR) of a hospital.
  • EMR Electronic Medical Record
  • the diagnostic information may be evaluation information on a cognitive function.
  • the diagnostic information may be a Mini-Mental State Examination (MMSE) score.
  • the diagnostic information is information related to a language disorder for the user (A).
  • the user terminal device 110 may select a voice training program to be provided to the user A based on the evaluation result of the training voice.
  • the user terminal device 110 may select a voice training program to be provided to the user A based on the evaluation result of the training voice and the diagnosis information.
  • the user terminal device 110 may output guide content according to the newly selected voice training program.
  • User (A) performs voice training according to a new voice training program.
  • the voice self-training system 200 corresponds to a system using a server for voice training.
  • user A is a patient with a voice disorder.
  • the service server 220 provides the voice training program to the user terminal device 210 .
  • the user terminal device 210 is exemplified by a PC and a smart phone.
  • the user terminal device 210 outputs guide content according to the voice training program.
  • the guide content is information for easily delivering information such as the length, pitch, and intensity of a note that the user needs to utter over time.
  • the user may utter (output) a utterance appropriate to the current time by viewing the guide content output to the user terminal device 210 .
  • the user terminal device 210 receives a training voice according to the voice training program from the user.
  • the user terminal device 110 may transmit the training voice to the service server 220 .
  • the service server 220 may transmit the training voice to the evaluator terminal 250 .
  • the evaluator terminal 250 may output a training voice and receive a result of evaluating the output training voice by the evaluator.
  • the evaluator may be a medical staff.
  • the evaluation of the training voice may be performed automatically.
  • the evaluator terminal 250 may analyze the training voice to calculate an evaluation result.
  • Various techniques may be used for analyzing the speech signal. Speech signal analysis may be performed based on characteristics in a frequency band. Speech signal analysis may be performed using a learning model (such as a deep learning model).
  • the service server 220 receives feedback of the evaluation result for the training voice. Furthermore, the service server 220 may analyze and evaluate the training voice using the voice evaluation model.
  • the service server 220 may receive diagnostic information about the user A from the evaluator terminal 150 .
  • the service server 220 may receive diagnostic information from a separate object holding the user's medical information.
  • the service server 220 may receive diagnostic information from an EMR of a hospital.
  • the diagnostic information may be evaluation information on a cognitive function.
  • the diagnostic information may be an MMSE score.
  • the diagnostic information is information related to a language disorder for the user (A).
  • the service server 220 may select a voice training program to be provided to the user A based on the evaluation result of the training voice.
  • the training database DB 225 stores various voice training programs.
  • the service server 220 may select a voice training program matching the evaluation result from among the voice training programs held by the training database 225 .
  • the service server 220 may select a voice training program to be provided to the user A based on the evaluation result and the diagnosis information for the training voice.
  • the service server 220 may deliver the newly selected voice training program to the user terminal device 210 .
  • the user terminal device 210 may output guide content according to a new voice training program.
  • User (A) performs voice training according to a new voice training program.
  • FIG. 3 is an example of a process of evaluating a user's voice and providing a voice training program.
  • FIG. 3 is an example of a process of providing voice training based on the user terminal device 110 of FIG. 1 .
  • the user terminal device 110 provides a voice training program.
  • the training database 115 stores various voice training programs in advance. Each voice training program has different training contents. The voice training program may have different contents depending on the type of voice disorder or the characteristics of the patient.
  • the training database 115 may store voice training programs matching the patient's disability type.
  • the training database 115 may store voice training programs matching the voice evaluation result and the type of disability.
  • the training database 115 may store voice training programs matching the voice evaluation result and diagnostic information.
  • the training database 115 of FIG. 3 shows an example of storing voice training programs matched with the voice evaluation result/diagnosis information.
  • the matching table may store a criterion defining characteristics of a patient (at least one of a disability type, a voice evaluation result, and diagnostic information) and a voice training program capable of treating a disability according to the criterion. In this case, the criteria and the voice training program matching the criteria may be determined in advance by the medical staff.
  • the user A performs voice self-training using the user terminal device 110 .
  • the user A can select a voice training program to be used for voice training (1).
  • the user A may select a voice training program based on training information provided by the user terminal device 110 .
  • the user A may select a default voice training program.
  • the selected voice training program is the first voice training program.
  • the first voice training program may be for sample collection for voice evaluation.
  • the first voice training program may be a program for voicing simple vowels ('ah', 'i', 'u', 'e', 'o') at a constant height and intensity for 2-3 seconds.
  • the user terminal device 110 outputs the first guide content according to the first voice training program on the screen (2).
  • the user terminal device 110 receives a training voice output according to the first guide content from the user A (3).
  • the user terminal device 110 may self-evaluate the training voice using a built-in evaluation model. Alternatively, the user terminal device 110 may transmit the training voice to the evaluator terminal 150 (4).
  • the evaluator terminal 150 may evaluate the training voice using the built-in evaluation model. Alternatively, the evaluator terminal 150 may output a training voice and receive an evaluation score according to a predetermined index from the evaluator.
  • the evaluator terminal 150 transmits the evaluation result for the training voice to the user terminal device 110 (5).
  • the user terminal device 110 may select a matching training program from the training database 115 based on the evaluation result. Meanwhile, the user terminal device 110 may receive diagnostic information (MMSE score, etc.) of the user A from the EMR 155 . In this case, the user terminal device 110 may select a matching training program from the training database 115 based on the evaluation result and diagnosis information. The user terminal device 110 resets the selected voice training program to the second voice training program (6).
  • diagnostic information MMSE score, etc.
  • the user terminal device 110 outputs the second guide content according to the second voice training program on the screen (7).
  • User A performs voice training according to the second guide content.
  • the user A may repeatedly perform voice training according to the method described in FIG. 3 . Through this, the user A can perform voice training that is optimal for his or her current state. For example, when the voice disorder is improved, the user A is provided with a voice training program suitable for it.
  • the evaluation technique may be any one of grade, roughness, breathiness, asthenia, and strain (GRBAS), Vocal Profile Analysis (VPA), and Consensus Auditory Perceptual Evaluation (CAPE-V).
  • GRBAS grade, roughness, breathiness, asthenia, and strain
  • VPA Vocal Profile Analysis
  • CAE-V Consensus Auditory Perceptual Evaluation
  • the GRBAS consists of five evaluation items, namely, overall love (Grade: G), roughness (Rough: R), breathy (B), strained (S), and helplessness (A).
  • the rating scale is scored in four steps: 0,1,2,3. Here, 0 is normal and 3 is the worst sound quality.
  • the user can utter simple vowels such as 'ah', 'i', 'woo', 'e', and 'o' for 2 seconds at a certain height and intensity, and evaluate it as an object.
  • Tonal tone is a sound with irregular vocal cord vibrations, which can be expressed as a rough sound and an unpleasant sound.
  • Parasitic (B) is the sound of soft air leaking due to glottal obstruction, and it is noise in the lower midrange range.
  • Asthenia (A) is a slender sound with a soft impression due to vocal tension insufficiency. There is a noise component in the high-pitched range, and the fundamental frequency or amplitude falls smoothly and the vocalization ends.
  • Effort (S) is a sound made by exerting excessive force because the vocal cords are in an abnormally hypertonic state or excessively hard, and there is an increase in noise and harmonic components in the high frequency range and high fundamental frequency.
  • the overall love rating (G) means the overall impression of love by combining the above several items.
  • the evaluator may evaluate the GRBAS score based on the training voice of the user (A). Furthermore, the user terminal device 110 , the evaluator terminals 150 and 250 , or the service server 220 may evaluate the training voice using the previously built evaluation model. As described above, each item of GRBAS can be evaluated based on characteristics for each frequency. Therefore, the evaluation model may convert the input training voice into a frequency band, and calculate a GRBAS score based on this.
  • the user terminal device 110 or the service server 220 may select a voice training program for the user A according to the evaluation result.
  • the user terminal device 110 or the service server 220 may change and provide the voice training program in a direction to increase the voice strength. Also, the user terminal devices 110 and 210 may provide information on the user's spoken voice so that the voice strength can be directly checked on the screen.
  • the user terminal device 110 or the service server 220 may provide a voice training program so that the irregularity of the sound wave is generated in a regular voice. Also, when the user A utters an irregular sound wave, the user terminal devices 110 and 210 may visually display it on the screen and provide feedback.
  • 4 is an example of guide content for a voice training program. 4 is an example of expressing a user's utterance in the form of a constant wavelength.
  • the horizontal axis represents time.
  • the number on the horizontal axis may be seconds (sec).
  • the vertical axis may represent the height of a sound.
  • the height of the sound refers to the pitch.
  • the pitch of a sound can be expressed as a frequency.
  • the guide content may be different from that of FIG. 4 .
  • the vertical axis may represent the intensity of a sound.
  • the sound intensity may be expressed as the amplitude (dB) of the sound wave.
  • the guide content 4(A) is an example of specific guide content according to a voice training program. That is, the user can watch the guide content output on the screen and train while adjusting his or her voice.
  • the line marked with L indicates the part to be uttered at the present time. With time, L moves to the right.
  • the guide content expresses the length and height of the sound to be uttered for self-training.
  • the guide content can be expressed in terms of the pitch of the sound, the degree of change in the height of the sound, and the vocalization of a certain sound. For example, in the D2 section, the pitch of the sound is sharply increased compared to the D1 section.
  • 4(B) is another example of specific guide content according to a voice training program. That is, the user can watch the guide content output on the screen and train while adjusting his or her voice.
  • the line marked with L indicates the part to be uttered at the present time. With time, L moves to the right.
  • the guide content expresses the length and height of the sound to be uttered for self-training.
  • the intensity of the sound may be indicated by the contrast or thickness of the visual object representing the sound wave shape.
  • the D2 section is expressed darker than the D1 section, which may indicate that the voice should be uttered with a stronger intensity than the D1 section in the D2 section.
  • the guide content includes a sound vocalization section, sound height, degree of change in sound height (smooth change, abrupt change, no change, etc.), change direction of sound height (low sound direction, high sound direction),
  • the intensity of the sound can be expressed.
  • the guide content is a waveform object for voice.
  • the waveform object may indicate the length and height of the voice utterance as the length and height of the waveform, respectively, and the height or intensity of the voice utterance.
  • the height or intensity of the sound may be expressed by the characteristics (shading, thickness, etc.) of the object representing the waveform.
  • FIG. 5 is another example of guide content for a voice training program.
  • FIG. 5 illustrates guide content that is a waveform object as in FIG. 4 . 5 outputs additional information on the screen.
  • FIG. 5(A) is an example of guide content additionally expressing a sound utterance method.
  • additional information is shown in area B.
  • Section D1 marks a small circle. Small circles represent the staccato method of breaking vocalizations into short sections.
  • the D2 section displays a wave shape. The wave shape represents the legato method in which the notes are elongated and sung.
  • a method of uttering a sound or an object expressing the method may be different from FIG. 5(A).
  • FIG. 5(B) is another example of guide content that additionally expresses a sound utterance method.
  • additional information is shown in area C.
  • the information displayed in the C area expresses the intensity of a sound or a slightly abstract vocalization method.
  • the D1 section displays the cloud object.
  • the cloud object may represent a way of voicing a sound softly or weakly.
  • an object displayed on the canvas or an object having scratched is displayed.
  • the object of D2 may represent a method of strongly voicing a sound.
  • a method of uttering a sound or an object expressing the method may be different from FIG. 5(B) .
  • the guide content includes a sound vocalization section, sound height, degree of change in sound height (smooth change, abrupt change, no change, etc.), change direction of sound height (low sound direction, high sound direction), The intensity of the sound can be expressed. Furthermore, the guide content of FIG. 5 may represent an additional vocalization method.
  • 6 is another example of guide content for a voice training program.
  • 6 is an example of composing guide content with other visual objects that the waveform object knows.
  • the visual object may be a figure, a character, or the like.
  • the character may be a visual object appearing in an animal, a person, an animation, or the like. 6 shows a constant figure object. However, for the guide content, a figure object different from that of FIG. 6 may be used, or a character object may be used instead of the figure object.
  • the horizontal axis is time.
  • the number on the horizontal axis may be seconds (sec).
  • 6(A) shows a rhombus-shaped object.
  • the size of the rhombus object may represent the height or intensity of a sound.
  • the user can watch the guide content output on the screen and train while adjusting his or her voice.
  • the guide content may represent a section in which a sound is output, and a height or intensity of the sound.
  • the horizontal axis is time.
  • the vertical axis may represent the height of the sound.
  • Fig. 6(B) shows a circular object.
  • the position of the circular object on the vertical axis represents the negative height.
  • the size of the circular object may indicate the strength of the sound.
  • the user can watch the guide content output on the screen and train while adjusting his or her voice.
  • the guide content may represent a section in which a sound is output, and a height or intensity of the sound.
  • guide content shown in FIG. 6 may also display additional information as shown in FIG. 5 on the screen.
  • the guide content includes a sound vocalization section, sound height, degree of change in sound height (smooth change, abrupt change, no change, etc.), change direction of sound height (low sound direction, high sound direction),
  • the intensity of the sound can be expressed.
  • the guide content is a figure object for voice.
  • the figure object may indicate the length of the voice utterance and the height or intensity of the voice utterance, respectively, as the position and size of the figure.
  • sound strength or other information may be expressed by the characteristics (shading, thickness, etc.) of the figure object.
  • FIG. 7 is an example of feedback of user output to a voice training program.
  • FIG. 7 is an example of expressing information on a voice actually uttered by a user on a screen on which the guide contents are output. The user can view information about the sound he or she has actually uttered and begin training while controlling the voice at the current time.
  • the horizontal axis represents time. The number on the horizontal axis may be seconds (sec).
  • the vertical axis may indicate the height of a sound.
  • the 7A is an example of specific guide content according to a voice training program. That is, the user can watch the guide content output on the screen and train while adjusting his or her voice.
  • the line marked with L indicates the part to be uttered at the present time. With time, L moves to the right.
  • the guide content expresses the length and height of the sound to be uttered for self-training.
  • the voice output by the user is expressed as a waveform F.
  • a visual object for the voice output by the user is called a feedback object.
  • the waveform object and the feedback object, which are guide contents, are almost the same.
  • the feedback object is output as a larger value than that of the waveform object. Accordingly, the user can see that his or her voice is uttered with a higher tone than intended by looking at the feedback object of the D2 section. After that, the user can start training while adjusting the tone so that a slightly lower tone is produced.
  • the voice output by the user is expressed as a waveform F.
  • 7(B) is an example of a case in which the user's voice is irregular.
  • the feedback object is expressed in a straight straight line to express that the user outputs a stable sound.
  • Section D2 represents a sawtooth-shaped feedback object. The jagged shape indicates that the user outputs an irregular sound. Accordingly, the user can see that his or her voice is uttered irregularly, contrary to the intention, by looking at the feedback object of the D2 section. Afterwards, the user can start training while adjusting the sound to be produced as stable as possible.
  • a feedback object of a form different from that of FIG. 7 may be used.
  • the user terminal device may output a shaking object.
  • the user terminal device 300 of FIG. 8 corresponds to the user terminal devices 110 and 210 of FIGS. 1 to 2 .
  • the user terminal device 300 may be implemented in various forms, such as a smart device, a PC, and a wearable device.
  • the user terminal device 300 may include a storage device 310 , a memory 320 , an arithmetic device 330 , an interface device 340 , a communication device 350 , a microphone 360 , and an output device 370 . have.
  • the storage device 310 stores voice training candidate programs for user voice training.
  • the storage device 310 may be a device embedded in the user terminal device 300 . Furthermore, the storage device 310 may be a separate storage medium connected to the user terminal device 300 by wire or wirelessly.
  • the voice training program includes at least two of utterance section length, utterance unit section length, note height, note height change, note height change time, sound intensity, sound intensity change, and sound intensity change time with time. It can be defined as an element.
  • the storage device 310 may store the user's training voice.
  • the storage device 310 may store an evaluation model for evaluating the training voice.
  • the storage device 310 may store an evaluation result of evaluating the training voice.
  • the memory 320 may store temporary data generated while the user terminal device 300 provides guide content according to a voice training program.
  • the interface device 340 is a device that receives a predetermined command or information from a user.
  • the interface device 340 may receive a predetermined command or data from an external input device.
  • the interface device 340 may receive a user's selection command for the voice training program.
  • the communication device 350 refers to a configuration for receiving and transmitting predetermined information through a network.
  • the communication device 350 may transmit the training voice to an external object such as an evaluator terminal. Also, the communication device 350 may receive an evaluation result for the training voice.
  • the communication device 350 may receive the user's diagnosis information (MMSE score, etc.) from an external object such as an EMR server.
  • MMSE score etc.
  • the communication device 350 or the interface device 340 are devices that receive predetermined data or commands from the outside.
  • the communication device 350 or the interface device 340 may be referred to as input devices.
  • the computing device 330 selects a specific voice training program from among the voice training candidate programs according to the user's selection, and generates guide content according to the selected voice training program.
  • the computing device 330 may select a specific voice training program from among the voice training candidate programs based on the evaluation result of the training voice, and generate guide content according to the selected voice training program.
  • the computing device 330 may select a specific voice training program from among the voice training candidate programs based on the evaluation result of the training voice and the user's diagnosis information, and may generate guide content according to the selected voice training program.
  • the computing device 330 may be a device such as a processor, an AP, or a chip embedded with a program that processes data and processes a predetermined operation.
  • the microphone 360 receives a user's voice.
  • the microphone 360 receives the training voice uttered by the user after viewing the guide content.
  • the output device 370 may output an interface screen necessary for the self-training process.
  • the output device 370 outputs guide content according to the voice training program.
  • the output device 370 may output a feedback object for the user's voice.
  • the output device 370 may output a description of the voice training program.
  • the voice self-training method and the method of operating the user terminal device as described above may be implemented as a program (or application) including an executable algorithm that can be executed in a computer.
  • the program may be provided by being stored in a temporary or non-transitory computer readable medium.
  • the non-transitory readable medium refers to a medium that stores data semi-permanently, rather than a medium that stores data for a short moment, such as a register, cache, memory, etc., and can be read by a device.
  • the various applications or programs described above are CD, DVD, hard disk, Blu-ray disk, USB, memory card, ROM (read-only memory), PROM (programmable read only memory), EPROM (Erasable PROM, EPROM)
  • ROM read-only memory
  • PROM programmable read only memory
  • EPROM Erasable PROM, EPROM
  • it may be provided while being stored in a non-transitory readable medium such as an EEPROM (Electrically EPROM) or a flash memory.
  • Temporarily readable media include: Static RAM (SRAM), Dynamic RAM (DRAM), Synchronous DRAM (SDRAM), Double Data Rate SDRAM (DDR SDRAM), Enhanced SDRAM (Enhanced) SDRAM, ESDRAM), Synchronous DRAM (Synclink DRAM, SLDRAM) and Direct Rambus RAM (Direct Rambus RAM, DRRAM) refers to a variety of RAM.

Abstract

음성 자가 훈련을 위한 사용자 단말 장치는 사용자의 훈련 프로그램 선택 명령을 입력받는 입력장치, 사용자 음성 훈련을 위한 음성 훈련 후보 프로그램들을 저장하는 저장장치, 상기 음성 훈련 후보 프로그램들 중 상기 사용자가 선택한 제1 음성 훈련 프로그램에 따른 제1 가이드 콘텐츠를 생성하는 연산장치, 상기 제1 가이드 콘텐츠를 출력하는 출력장치 및 상기 출력장치에 출력되는 제1 가이드 콘텐츠에 따라 사용자가 출력하는 음성을 입력받는 마이크를 포함한다.

Description

음성 장애 환자를 위한 음성 자가 훈련 방법 및 사용자 단말 장치
이하 설명하는 기술은 음성 자가 훈련을 위한 방법 및 장치에 관한 것이다.
음성 장애는 다양한 원인으로 발생할 수 있다. 음성 장애는 음성 남용, 외상이나 염증 등에 의한 기질적 장애와 스트레스나 신경계 질환에 의한 기능적 장애로 구분할 수 있다. 음성 장애를 치료하는 방법은 다양하며 기본적으로 음성 발성을 통한 음성 치료가 널리 사용된다.
음성 치료는 의료진이 대면 진료를 통하여 환자에게 적절한 발성 훈련을 제시하는 방식이다. 전통적인 음성 치료 방식은 전문 지식을 가진 의료진을 통해 제공된다는 점에서 음성 장애 환자가 보편적으로 이용하기 어려울 수 있다.
이하 설명하는 기술은 IT 기술을 이용하여 스마트폰과 같은 사용자 단말을 통하여 음성 자가 훈련을 제공하고자 한다. 다만, 자가 훈련 경우 고령 환자는 청력 손실로 자신의 발성을 정확하게 인지하기 어렵다는 한계가 있다. 이하 설명하는 기술은 고령 환자도 직감적으로 자신의 발성의 상태를 파악할 수 있는 음성 자가 훈련을 제공하고자 한다.
음성 장애 환자를 위한 음성 자가 훈련 방법은 사용자 단말이 음성 훈련을 위한 제1 가이드 콘텐츠를 화면에 출력하는 단계, 상기 사용자 단말이 상기 제1 가이드 콘텐츠를 따라 사용자가 출력하는 음성을 입력받는 단계, 상기 사용자 단말이 상기 음성을 분석하여 평가하는 단계, 상기 사용자 단말이 상기 평가 결과에 따른 제2 가이드 콘텐츠를 화면에 출력하는 단계 및 상기 사용자 단말이 상기 제2 가이드 콘텐츠를 따라 사용자가 출력하는 음성을 입력받는 단계를 포함한다.
다른 측면에서 음성 장애 환자를 위한 음성 자가 훈련 방법은 사용자 단말이 음성 훈련을 위한 제1 가이드 콘텐츠를 화면에 출력하는 단계, 상기 사용자 단말이 상기 제1 가이드 콘텐츠를 따라 사용자가 출력하는 음성을 입력받는 단계, 상기 사용자 단말이 상기 음성의 평가 결과를 진단자 단말로부터 수신하는 단계, 상기 사용자 단말이 상기 평가 결과에 따른 제2 가이드 콘텐츠를 화면에 출력하는 단계 및 상기 사용자 단말이 상기 제2 가이드 콘텐츠를 따라 사용자가 출력하는 음성을 입력받는 단계를 포함한다.
음성 자가 훈련을 위한 사용자 단말 장치는 사용자의 훈련 프로그램 선택 명령을 입력받는 입력장치, 사용자 음성 훈련을 위한 음성 훈련 후보 프로그램들을 저장하는 저장장치, 상기 음성 훈련 후보 프로그램들 중 상기 사용자가 선택한 제1 음성 훈련 프로그램에 따른 제1 가이드 콘텐츠를 생성하는 연산장치, 상기 제1 가이드 콘텐츠를 출력하는 출력장치 및 상기 출력장치에 출력되는 제1 가이드 콘텐츠에 따라 사용자가 출력하는 음성을 입력받는 마이크를 포함한다. 상기 연산장치는 상기 사용자의 음성에 대한 평가 결과에 따라 상기 음성 훈련 후보 프로그램들 중 제2 음성 훈련 프로그램을 선택하고, 상기 제2 음성 훈련 프로그램에 따른 제2 가이드 콘텐츠를 생성하고, 상기 출력장치는 상기 제2 가이드 콘텐츠를 출력한다.
상기 제1 가이드 콘텐츠 및 상기 제2 가이드 콘텐츠는 음성 훈련 프로그램의 내용을 시간 흐름에 따른 시각적 객체로 출력하는 데이터이다.
이하 설명하는 기술은 환자가 사용자 단말을 통하여 쉽게 자가 훈련을 할 수 있게 한다. 이하 설명하는 기술은 시각적 객체를 이용하여 고령의 환자도 쉽게 자신의 발성 상태(발성 강도, 발성의 변화 등)를 파악하게 한다.
도 1은 음성 자가 훈련 시스템에 대한 예이다.
도 2는 음성 자가 훈련 시스템에 대한 다른 예이다.
도 3은 사용자의 음성 평가 및 음성 훈련 프로그램 제공하는 과정에 대한 예이다.
도 4는 음성 훈련 프로그램에 대한 가이드 콘텐츠에 대한 예이다.
도 5는 음성 훈련 프로그램에 대한 가이드 콘텐츠에 대한 다른 예이다.
도 6은 음성 훈련 프로그램에 대한 가이드 콘텐츠에 대한 또 다른 예이다.
도 7은 음성 훈련 프로그램에 사용자 출력의 피드백에 대한 예이다.
도 8은 사용자 단말 장치에 대한 예이다.
이하 설명하는 기술은 다양한 변경을 가할 수 있고 여러 가지 실시례를 가질 수 있는 바, 특정 실시례들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 이하 설명하는 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 이하 설명하는 기술의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 해당 구성요소들은 상기 용어들에 의해 한정되지는 않으며, 단지 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 이하 설명하는 기술의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
본 명세서에서 사용되는 용어에서 단수의 표현은 문맥상 명백하게 다르게 해석되지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함한다" 등의 용어는 설명된 특징, 개수, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 의미하는 것이지, 하나 또는 그 이상의 다른 특징들이나 개수, 단계 동작 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 배제하지 않는 것으로 이해되어야 한다.
도면에 대한 상세한 설명을 하기에 앞서, 본 명세서에서의 구성부들에 대한 구분은 각 구성부가 담당하는 주기능 별로 구분한 것에 불과함을 명확히 하고자 한다. 즉, 이하에서 설명할 2개 이상의 구성부가 하나의 구성부로 합쳐지거나 또는 하나의 구성부가 보다 세분화된 기능별로 2개 이상으로 분화되어 구비될 수도 있다. 그리고 이하에서 설명할 구성부 각각은 자신이 담당하는 주기능 이외에도 다른 구성부가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성부 각각이 담당하는 주기능 중 일부 기능이 다른 구성부에 의해 전담되어 수행될 수도 있음은 물론이다.
또, 방법 또는 동작 방법을 수행함에 있어서, 상기 방법을 이루는 각 과정들은 문맥상 명백하게 특정 순서를 기재하지 않은 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 과정들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.
이하 설명하는 기술은 사용자가 사용자 단말 장치를 이용하여 자가 음성 훈련하는 기법이다. 사용자 단말 장치는 음성 입력, 음성 신호 처리 및 일정 정보 출력이 가능한 장치이다. 예컨대, 사용자 단말 장치는 PC, 노트북, 스마트폰, 스마트 기기, 스마트워치, 웨어러블 기기, 스마트 TV 등과 같은 장치일 수 있다.
도 1은 음성 자가 훈련 시스템(100)에 대한 예이다.
사용자(A)는 음성 장애 환자라고 가정한다. 사용자(A)는 사용자 단말 장치(110)를 이용하여 음성 자가 훈련을 진행한다. 도 1에서 사용자 단말 장치(110)는 PC 및 스마트폰을 예로 도시하였다.
사용자 단말 장치(110)는 음성 훈련을 위한 프로그램(이하 음성 훈련 프로그램)을 제공한다. 음성 훈련 프로그램은 다양한 음성 자가 훈련을 위한 프로그램이다. 여기서 프로그램은 훈련 콘텐츠를 의미한다. 사용자 단말 장치(110)는 사용자가 선택한 특정한 음성 훈련 프로그램을 제공할 수 있다. 사용자 단말 장치(110)는 음성 훈련 프로그램에 따라 가이드 콘텐츠를 출력한다. 가이드 콘텐츠는 시간의 흐름에 따라 사용자가 발성해야 할 음의 길이, 음의 높이, 음의 강도와 같은 정보를 사용자에게 손쉽게 전달하기 위한 정보이다. 가이드 콘텐츠에 대한 자세한 설명은 후술한다.
사용자는 사용자 단말 장치(110)에 출력되는 가이드 콘텐츠를 보고 현재 시점에 맞는 발성을 발화(출력)할 수 있다. 사용자 단말 장치(110)는 사용자로부터 음성 훈련 프로그램에 따른 음성을 입력받는다. 사용자가 음성 훈련 프로그램을 따라 발화한 음성을 훈련 음성이라고 명명한다.
사용자 단말 장치(110)는 훈련 음성을 평가자 단말(150)에 전달할 수 있다. 평가자 단말(150)은 훈련 음성에 대한 평가를 수행한다. 평가자 단말(150)은 훈련 음성을 출력하고, 출력된 훈련 음성을 평가자가 평가한 결과를 입력받을 수 있다. 이는 평가자의 주관적 평가를 의미한다. 평가자는 의료진일 수 있다.
한편, 훈련 음성의 평가는 자동으로 수행될 수도 있다. 평가자 단말(150)이 훈련 음성을 분석하여 평가 결과를 산출할 수도 있다. 음성 신호 분석은 다양한 기술이 사용될 수 있다. 음성 신호 분석은 주파수 대역에서의 특징을 기준으로 수행될 수 있다. 음성 신호 분석은 학습 모델(딥러닝 모델 등)을 이용하여 수행될 수도 있다.
사용자 단말 장치(110)는 훈련 음성에 대한 평가 결과를 피드백 받는다. 나아가, 사용자 단말 장치(110)가 음성 평가 모델을 이용하여 훈련 음성을 분석하여 평가할 수도 있다.
또한, 사용자 단말 장치(110)는 평가자 단말(150)로부터 사용자 (A)에 대한 진단 정보를 수신할 수 있다. 사용자 단말 장치(110)는 사용자의 의료 정보를 보유한 별도의 객체로부터 진단 정보를 수신할 수도 있다. 예컨대, 사용자 단말 장치(110)는 병원의 EMR(Electronic Medical Record)로부터 진단 정보를 수신할 수 있다. 진단 정보는 인지 기능에 대한 평가 정보일 수 있다. 예컨대, 진단 정보는 MMSE(Mini-Mental State Examination) 점수일 수 있다. 진단 정보는 사용자 (A)에 대한 언어 장애 관련된 정보이다.
사용자 단말 장치(110)는 훈련 음성에 대한 평가 결과를 기준으로 사용자 (A)에게 제공할 음성 훈련 프로그램을 선택할 수 있다. 사용자 단말 장치(110)는 훈련 음성에 대한 평가 결과 및 진단 정보를 기준으로 사용자 (A)에게 제공할 음성 훈련 프로그램을 선택할 수도 있다.
사용자 단말 장치(110)는 새롭게 선택된 음성 훈련 프로그램에 따라 가이드 콘텐츠를 출력할 수 있다. 사용자 (A)는 새로운 음성 훈련 프로그램에 따라 음성 훈련을 수행한다.
도 2는 음성 자가 훈련 시스템(200)에 대한 다른 예이다. 음성 자가 훈련 시스템(200)은 음성 훈련을 위한 서버를 이용하는 시스템에 해당한다.
사용자(A)는 음성 장애 환자라고 가정한다.
서비스 서버(220)가 음성 훈련 프로그램을 사용자 단말 장치(210)에 제공한다. 도 2에서 사용자 단말 장치(210)는 PC 및 스마트폰을 예로 도시하였다.
사용자 단말 장치(210)는 음성 훈련 프로그램에 따라 가이드 콘텐츠를 출력한다. 가이드 콘텐츠는 시간의 흐름에 따라 사용자가 발성해야 할 음의 길이, 음의 높이, 음의 강도와 같은 정보를 사용자에게 손쉽게 전달하기 위한 정보이다.
사용자는 사용자 단말 장치(210)에 출력되는 가이드 콘텐츠를 보고 현재 시점에 맞는 발성을 발화(출력)할 수 있다. 사용자 단말 장치(210)는 사용자로부터 음성 훈련 프로그램에 따른 훈련 음성을 입력받는다.
사용자 단말 장치(110)는 훈련 음성을 서비스 서버(220)에 전달할 수 있다. 서비스 서버(220)는 훈련 음성을 평가자 단말(250)에 전달할 수 있다. 평가자 단말(250)은 훈련 음성을 출력하고, 출력된 훈련 음성을 평가자가 평가한 결과를 입력받을 수 있다. 평가자는 의료진일 수 있다.
한편, 훈련 음성의 평가는 자동으로 수행될 수도 있다. 평가자 단말(250)이 훈련 음성을 분석하여 평가 결과를 산출할 수도 있다. 음성 신호 분석은 다양한 기술이 사용될 수 있다. 음성 신호 분석은 주파수 대역에서의 특징을 기준으로 수행될 수 있다. 음성 신호 분석은 학습 모델(딥러닝 모델 등)을 이용하여 수행될 수도 있다.
서비스 서버(220)는 훈련 음성에 대한 평가 결과를 피드백 받는다. 나아가, 서비스 서버(220)가 음성 평가 모델을 이용하여 훈련 음성을 분석하여 평가할 수도 있다.
또한, 서비스 서버(220)는 평가자 단말(150)로부터 사용자 (A)에 대한 진단 정보를 수신할 수 있다. 서비스 서버(220)는 사용자의 의료 정보를 보유한 별도의 객체로부터 진단 정보를 수신할 수도 있다. 예컨대, 서비스 서버(220)는 병원의 EMR로부터 진단 정보를 수신할 수 있다. 진단 정보는 인지 기능에 대한 평가 정보일 수 있다. 예컨대, 진단 정보는 MMSE 점수일 수 있다. 진단 정보는 사용자 (A)에 대한 언어 장애 관련된 정보이다.
서비스 서버(220)는 훈련 음성에 대한 평가 결과를 기준으로 사용자 (A)에게 제공할 음성 훈련 프로그램을 선택할 수 있다. 훈련 데이터베이스(DB, 225)는 다양한 음성 훈련 프로그램들을 저장한다. 서비스 서버(220)는 훈련 데이터베이스(225)가 보유한 음성 훈련 프로그램들 중 평가 결과에 매칭되는 음성 훈련 프로그램을 선택할 수 있다. 서비스 서버(220)는 훈련 음성에 대한 평가 결과 및 진단 정보를 기준으로 사용자 (A)에게 제공할 음성 훈련 프로그램을 선택할 수도 있다.
서비스 서버(220)는 새롭게 선택된 음성 훈련 프로그램을 사용자 단말 장치(210)에 전달할 수 있다. 사용자 단말 장치(210)는 새로운 음성 훈련 프로그램에 따라 가이드 콘텐츠를 출력할 수 있다. 사용자 (A)는 새로운 음성 훈련 프로그램에 따라 음성 훈련을 수행한다.
도 3은 사용자의 음성 평가 및 음성 훈련 프로그램 제공하는 과정에 대한 예이다. 도 3은 도 1의 사용자 단말 장치(110)를 기준으로 음성 훈련을 제공하는 과정에 대한 예이다.
사용자 단말 장치(110)는 음성 훈련 프로그램을 제공한다.
훈련 데이터베이스(115)는 다양한 음성 훈련 프로그램들을 사전에 저장한다. 음성 훈련 프로그램들은 각각 훈련 내용이 다르다. 음성 훈련 프로그램은 음성 장애의 유형이나 환자의 특징에 따라 다른 내용을 가질 수 있다. 훈련 데이터베이스(115)는 환자의 장애 유형에 매칭되는 음성 훈련 프로그램들 저장할 수 있다. 훈련 데이터베이스(115)는 음성 평가 결과와 장애 유형에 매칭되는 음성 훈련 프로그램들 저장할 수 있다. 훈련 데이터베이스(115)는 음성 평가 결과 및 진단 정보와 매칭되는 음성 훈련 프로그램들 저장할 수 있다. 도 3의 훈련 데이터베이스(115)는 음성 평가 결과/진단 정보와 매칭되는 음성 훈련 프로그램들을 저장하는 예를 도시한다. 매칭 테이블은 환자의 특성을 정의하는 기준(장애 유형, 음성 평가 결과 및 진단 정보 중 적어도 하나)와 해당 기준에 따른 장애를 치료할 수 있는 음성 훈련 프로그램을 저장할 수 있다. 이때, 해당 기준과 기준에 매칭되는 음성 훈련 프로그램은 의료진에 의하여 사전에 결정될 수 있다.
사용자(A)는 사용자 단말 장치(110)를 이용하여 음성 자가 훈련을 진행한다. 먼저 사용자(A)는 음성 훈련에 사용할 음성 훈련 프로그램을 선택할 수 있다(①). 사용자(A)는 사용자 단말 장치(110)가 제공하는 훈련 정보를 기준으로 음성 훈련 프로그램을 선택할 수 있다. 또는 사용자(A)는 기본적으로 설정된(default) 음성 훈련 프로그램을 선택할 수도 있다. 이때 선택된 음성 훈련 프로그램을 제1 음성 훈련 프로그램이라고 가정한다. 제1 음성 훈련 프로그램은 음성 평가용 표본 수집을 위한 것일 수도 있다. 예컨대, 제1 음성 훈련 프로그램은 단순 모음('아','이','우','에','오')을 일정한 높이와 강도로 2~3초간 발성하는 프로그램일 수 있다.
사용자 단말 장치(110)는 제1 음성 훈련 프로그램에 따른 제1 가이드 콘텐츠를 화면에 출력한다(②). 사용자 단말 장치(110)는 사용자(A)로부터 제1 가이드 콘텐츠를 따라 출력한 훈련 음성을 입력받는다(③).
전술한 바와 같이 사용자 단말 장치(110)는 훈련 음성을 내장된 평가 모델을 이용하여 자체적으로 평가할 수도 있다. 또는 사용자 단말 장치(110)는 훈련 음성을 평가자 단말(150)에 전송할 수 있다(④).
평가자 단말(150)은 내장된 평가 모델을 이용하여 훈련 음성을 평가할 수 있다. 또는 평가자 단말(150)은 훈련 음성을 출력하고, 평가자로부터 일정한 지표에 따른 평가 점수를 입력받을 수도 있다.
평가자 단말(150)은 훈련 음성에 대한 평가 결과를 사용자 단말 장치(110)에 전달한다(⑤).
사용자 단말 장치(110)는 평가 결과를 기준으로 훈련 데이터베이스(115)에서 매칭되는 훈련 프로그램을 선택할 수 있다. 한편, 사용자 단말 장치(110)는 EMR(155)로부터 사용자 (A)의 진단 정보(MMSE 점수 등)를 수신할 수 있다. 이 경우 사용자 단말 장치(110)는 평가 결과 및 진단 정보를 기준으로 훈련 데이터베이스(115)에서 매칭되는 훈련 프로그램을 선택할 수 있다. 사용자 단말 장치(110)는 선택한 음성 훈련 프로그램을 제2 음성 훈련 프로그램으로 재설정한다(⑥).
사용자 단말 장치(110)는 제2 음성 훈련 프로그램에 따른 제2 가이드 콘텐츠를 화면에 출력한다(⑦). 사용자 (A)는 제2 가이드 콘텐츠에 따라 음성 훈련을 수행한다.
사용자(A)는 도 3에 설명한 방식에 따라 반복적으로 음성 훈련을 할 수 있다. 이를 통해 사용자(A)는 현재 자신의 상태에 최적인 음성 훈련을 수행할 수 있다. 예컨대, 음성 장애가 호전되면 사용자(A)는 그에 맞는 음성 훈련 프로그램을 제공받게되는 것이다.
사용자 음성을 평가하는 기법에 대하여 간략하게 설명한다. 평가 기법은 GRBAS(grade, roughness, breathiness, asthenia, and strain), VPA(Vocal Profile Analysis) 및 CAPE-V(Consensus Auditory Perceptual Evaluation) 중 어느 하나일 수 있다. 이 중 GRBAS를 예로 설명한다.
GRBAS는 종합애성도(Grade : G), 조조성(Rough : R), 기식성(Breathy : B), 노력성(Strinned: S) 및 무력성(Asthenic : A)인 5개의 평가항목으로 구성된다. 평가 척도는 0,1,2,3의 4단계로 점수화된다. 여기서 0은 정상이고 3은 음질이 가장 좋지 못한 상태를 나타낸다. 사용자는 '아','이','우','에','오'와 같은 단순 모음을 일정한 높이과 강도로 2초간 발성하고, 이를 대상으로 평가할 수 있다.
조조성(R)은 성대 진동이 불규칙하여 나는 소리로 거친 소리 흑은 불쾌한 소리로 표현할 수 있으며 불규칙한 성대 진동으로 연하여 기본주파수나 진폭이 불규칙하고 낮은 주파수 대역에서 잡음이 발생하는 소리이다. 기식성(B)은 성문페쇄부전으로 연한 공기가 새는 소리로 중음역 이하 대역의 잡음이다. 무력성(A)은 성대긴장부전에 의한 연약한 인상의 가냘픈 소리로 고음역에서 잡음 성분이 있고 기본주파수냐 진폭이 원만하게 하강하여 발성이 끝나는 현상이 있다. 노력성(S)은 성대가 비정상적으로 과긴장상태이거나 성대가 과도하게 단단하여 무리하게 힘을들여서 나는 소리이며 기본주파수가 높고 고음역에서 잡음과 조파성분의 증가가 있다. 종합애성도(G)는 상기의 여러 항목을 종합한 애성의 전체적인 인상을 의미한다.
평가자가 사용자 (A)의 훈련 음성을 기준으로 GRBAS 점수를 평가할 수 있다. 나아가, 사용자 단말 장치(110), 평가자 단말(150, 250) 또는 서비스 서버(220)가 사전에 구축된 평가 모델을 이용하여 훈련 음성을 평가할 수 있다. 설명한 바와 같이 GRBAS의 각 항목은 주파수별 특성을 기준으로 평가될 수 있다. 따라서, 평가 모델은 입력되는 훈련 음성을 주파수 대역으로 변환하고, 이를 기준으로 GRBAS 점수를 산출할 수 있다.
사용자 단말 장치(110) 또는 서비스 서버(220)는 평가 결과에 따라 사용자 (A)에 대한 음성 훈련 프로그램을 선택할 수 있다.
(1) 고령이고 목소리가 크기가 작아 거의 발성이 안 들리는 환자는 무력성(A) 점수가 가장 높을 수 있다. 이 경우 사용자 단말 장치(110) 또는 서비스 서버(220)는 목소리 강도를 높이는 방향으로 음성 훈련 프로그램을 변경하여 제공할 수 있다. 또한, 사용자 단말 장치(110, 210)는 목소리 강도를 직접 화면에서 확인할 수 있도록 사용자의 발화 음성에 대한 정보를 제공할 수도 있다.
(2) 뇌졸중 이후, 성대마비로 목소리에서 “쇠”소리가 들리는 환자는 조조성(R) 점수가 높을 수 있다. 이 경우 사용자 단말 장치(110) 또는 서비스 서버(220)는 발성시 음파의 불규칙성을 규칙적인 음성을 발성하도록 음성 훈련 프로그램을 제공할 수 있다. 또한, 사용자 단말 장치(110, 210)는 사용자(A)가 불규칙적인 음파를 발성하면, 이를 화면에 시각적으로 표시하여 피드백할 수 있다.
이하 음성 훈련 프로그램에 따라 사용자 단말 장치(110, 210)가 화면에 출력하는 가이드 콘텐츠에 대하여 설명한다.
도 4는 음성 훈련 프로그램에 대한 가이드 콘텐츠에 대한 예이다. 도 4는 사용자의 발화음을 일정한 파장 형태로 표현한 예이다.
도 4에서 가로축은 시간이다. 가로축의 숫자는 초(sec)일 수 있다. 도 4에서 세로축은 음의 높이를 나타낼 수 있다. 여기서 음의 높이는 피치(pitch)를 의미한다. 음의 높이는 주파수로 표현될 수 있다. 물론, 가이드 콘텐츠는 도 4와 다른 방식도 가능하다. 예컨대, 세로축이 음의 강도를 나타낼 수 있다. 음의 강도는 음파의 진폭(dB)로 표현될 수 있다.
도 4(A)는 음성 훈련 프로그램에 따른 특정 가이드 콘텐츠의 예이다. 즉, 사용자는 화면에 출력되는 가이드 콘텐츠를 보고 자신의 음성을 조절하면서 훈련할 수 있다. L로 표시한 선은 현재 시점에서 발성해야하는 부분을 나타낸다. 시간에 따라 L은 우측으로 이동한다. 가이드 콘텐츠는 자가 훈련을 위하여 발성할 음의 길이 및 음의 높이를 표현한다. 가이드 콘텐츠는 음의 높이, 음의 높이의 변화 정도, 일정한 음의 발성 등으로 표현할 수 있다. 예컨대, D2 구간은 D1 구간에 비하여 음의 높이가 급격하게 높아진다.
도 4(B)는 음성 훈련 프로그램에 따른 특정 가이드 콘텐츠의 다른 예이다. 즉, 사용자는 화면에 출력되는 가이드 콘텐츠를 보고 자신의 음성을 조절하면서 훈련할 수 있다. L로 표시한 선은 현재 시점에서 발성해야하는 부분을 나타낸다. 시간에 따라 L은 우측으로 이동한다. 가이드 콘텐츠는 자가 훈련을 위하여 발성할 음의 길이 및 음의 높이를 표현한다. 또한, 음파 형태를 나타내는 시각적 객체의 명암 또는 굵기로 음의 강도를 나타낼 수 있다. 예컨대, D2 구간은 D1 구간에 비하여 어둡게 표현되는데 이는 D2 구간에서 D1보다 강한 강도로 발성해야 하는 것으로 나타낼 수 있다.
도 4에서 가이드 콘텐츠는 음의 발성 구간, 음의 높이, 음의 높이의 변화 정도(완만한 변화, 급격한 변화, 변화없음 등), 음의 높이의 변화 방향(낮은 음 방향, 높은 음 방향), 음의 강도 등을 표현할 수 있다. 도 4에서 가이드 콘텐츠는 음성에 대한 파형 객체이다. 파형 객체는 파형의 길이 및 높이로 각각 음성 발화의 길이 및 음성 발화의 높이 내지 강도를 나타낼 수 있다. 또는 파형을 나타내는 객체의 특징(음영, 굵기 등)으로 음의 높이 내지 강도를 표현할 수도 있다.
도 5는 음성 훈련 프로그램에 대한 가이드 콘텐츠에 대한 다른 예이다. 도 5는 도 4와 같은 파형 객체인 가이드 콘텐츠를 도시한다. 도 5는 화면에 부가 정보를 출력한다.
도 5(A)는 음의 발성 방법을 추가로 표현하는 가이드 콘텐츠에 대한 예이다. 도 5(A)에서 B 영역에 추가 정보를 도시한다. D1 구간은 작은 원을 표시한다. 작은 원은 발성을 짧게 나누는 스타카토(staccato) 방식을 나타낸다. D2 구간은 물결 모양을 표시한다. 물결 모양은 음을 길게 늘려서 발성하는 레가토(legato) 방식을 나타낸다. 물론, 음을 발성하는 방식이나 해당 방식을 표현하는 객체는 도 5(A)와 다를 수 있다.
도 5(B)는 음의 발성 방법을 추가로 표현하는 가이드 콘텐츠에 대한 다른 예이다. 도 5(B)에서 C 영역에 추가 정보를 도시한다. C 영역에 표시되는 정보는 음의 강도 내지 조금 추상적인 발성 방법을 표현한다. D1 구간은 구름 객체를 표시한다. 구름 객체는 음을 부드럽게 내지 약하게 발성하는 방식을 나타낼 수 있다. D2 구간은 캔버스에 표현되는 객체 내지 스크래치(scratched)를 갖는 객체를 표시한다. D2의 객체는 음을 강하게 발성하는 방식을 나타낼 수 있다. 물론, 음을 발성하는 방식이나 해당 방식을 표현하는 객체는 도 5(B)와 다를 수 있다.
도 5에서 가이드 콘텐츠는 음의 발성 구간, 음의 높이, 음의 높이의 변화 정도(완만한 변화, 급격한 변화, 변화없음 등), 음의 높이의 변화 방향(낮은 음 방향, 높은 음 방향), 음의 강도 등을 표현할 수 있다. 나아가 도 5의 가이드 콘텐츠는 추가적인 발성 방식을 표현할 수 있다.
도 6은 음성 훈련 프로그램에 대한 가이드 콘텐츠에 대한 또 다른 예이다. 도 6은 파형 객체가 아는 다른 시각적 객체로 가이드 콘텐츠를 구성한 예이다. 시각적 객체는 도형, 캐릭터 등일 수 있다. 캐릭터는 동물, 사람, 애니메이션 등에 등장하는 시각적 객체일 수 있다. 도 6은 일정한 도형 객체를 도시한다. 다만, 가이드 콘텐츠는 도 6과 다른 도형 객체를 사용할 수도 있고, 도형 객체 대신 캐릭터 객체를 사용할 수도 있다.
도 6(A)에서 가로축은 시간이다. 가로축의 숫자는 초(sec)일 수 있다. 도 6(A)는 마름모 모양의 객체를 도시한다. 마름모 객체의 크기는 음의 높이 내지 강도를 표현할 수 있다. 사용자는 화면에 출력되는 가이드 콘텐츠를 보고 자신의 음성을 조절하면서 훈련할 수 있다. 가이드 콘텐츠는 음이 출력되는 구간, 음의 높이 내지 강도를 표현할 수 있다.
도 6(B)에서 가로축은 시간이다. 세로축은 음의 높이를 나타낼 수 있다. 도 6(B)는 원형 객체를 도시한다. 세로축에서 원형 객체의 위치는 음의 높이를 나타낸다. 원형 객체의 크기는 음의 강도를 나타낼 수 있다. 사용자는 화면에 출력되는 가이드 콘텐츠를 보고 자신의 음성을 조절하면서 훈련할 수 있다. 가이드 콘텐츠는 음이 출력되는 구간, 음의 높이 내지 강도를 표현할 수 있다.
물론, 도 6과 같은 가이드 콘텐츠도 도 5와 같은 부가 정보를 화면에 표시할 수 있다.
도 6에서 가이드 콘텐츠는 음의 발성 구간, 음의 높이, 음의 높이의 변화 정도(완만한 변화, 급격한 변화, 변화없음 등), 음의 높이의 변화 방향(낮은 음 방향, 높은 음 방향), 음의 강도 등을 표현할 수 있다. 도 6에서 가이드 콘텐츠는 음성에 대한 도형 객체이다. 도형 객체는 도형의 위치 및 크기로 각각 음성 발화의 길이 및 음성 발화의 높이 내지 강도를 나타낼 수 있다. 나아가 도형 객체의 특징(음영, 굵기 등)으로 음의 강도 또는 다른 정보를 표현할 수도 있다.
도 7은 음성 훈련 프로그램에 사용자 출력의 피드백에 대한 예이다. 도 7은 도 가이드 콘텐츠가 출력되는 화면에 사용자가 실제 발화하는 음성에 대한 정보를 표현한 예이다. 사용자는 자신이 실제 발성한 음에 대한 정보를 보고 현재 시점의 발성을 조절하면서 훈련에 임할 수 있다. 도 7에서 가로축은 시간이다. 가로축의 숫자는 초(sec)일 수 있다. 도 7에서 세로축은 음의 높이를 나타낼 수 있다.
도 7(A)는 음성 훈련 프로그램에 따른 특정 가이드 콘텐츠의 예이다. 즉, 사용자는 화면에 출력되는 가이드 콘텐츠를 보고 자신의 음성을 조절하면서 훈련할 수 있다. L로 표시한 선은 현재 시점에서 발성해야하는 부분을 나타낸다. 시간에 따라 L은 우측으로 이동한다. 가이드 콘텐츠는 자가 훈련을 위하여 발성할 음의 길이 및 음의 높이를 표현한다.
도 7(A)에서 사용자가 출력하는 음성은 파형 F로 표현한다. 사용자가 출력하는 음성에 대한 시각적 객체를 피드백 객체라고 명명한다. D1 구간은 가이드 콘텐츠인 파형 객체와 피드백 객체가 거의 동일하다. D2 구간은 파형 객체에 비하여 피드백 객체가 더 큰값으로 출력된다. 따라서, 사용자는 D2 구간의 피드백 객체를 보고 자신의 음성이 의도보다 높은 음으로 발성되었다는 것을 알 수 있다. 이후 사용자는 조금 낮은 음이 발성되도록 조절하면서 훈련에 임할 수 있다.
도 7(B)에서 사용자가 출력하는 음성은 파형 F로 표현한다. 도 7(B)는 사용자의 음성이 불규칙한 경우를 표현한 예이다. D1 구간은 피드백 객체가 곧은 직선 형태로 표현되어 사용자가 안정적인 음을 출력하는 것을 표현한다. D2 구간은 톱니 모양의 피드백 객체를 나타낸다. 톱니 모양은 사용자가 불규칙한 음을 출력하는 것을 나타낸다. 따라서, 사용자는 D2 구간의 피드백 객체를 보고 자신의 음성이 의도와 달리 불규칙하게 발성되었다는 것을 알 수 있다. 이후 사용자는 최대한 안정적인 음을 발성하도록 조절하면서 훈련에 임할 수 있다.
물론, 도 7과 다른 형태의 피드백 객체가 사용될 수도 있다. 예컨대, 사용자가 불규칙한 음을 발성하는 경우, 사용자 단말 장치는 흔들리는 객체를 출력할 수 있다.
도 8은 사용자 단말 장치(300)에 대한 예이다. 도 8의 사용자 단말 장치(300)는 도 1 내지 도 2의 사용자 단말 장치(110, 210)에 해당한다. 사용자 단말 장치(300)는 스마트기기, PC, 웨어러블 기기 등 다양한 형태로 구현될 수 있다.
사용자 단말 장치(300)는 저장 장치(310), 메모리(320), 연산장치(330), 인터페이스 장치(340), 통신 장치(350), 마이크(360) 및 출력장치(370)를 포함할 수 있다.
저장 장치(310)는 사용자 음성 훈련을 위한 음성 훈련 후보 프로그램들을 저장한다. 저장 장치(310)는 사용자 단말 장치(300)에 내장된 장치일 수 있다. 나아가 저장 장치(310)는 사용자 단말 장치(300)와 유선 또는 무선으로 연결된 별도의 저장 매체일 수도 있다.
음성 훈련 프로그램은 시간과 함께 발화 구간 길이, 발화 단위 구간의 길이, 음의 높이, 음의 높이 변화, 음의 높이 변화 시간, 음의 강도, 음의 강도 변화 및 음의 강도 변화 시간 중 적어도 2개의 요소로 정의될 수 있다.
저장 장치(310)는 사용자의 훈련 음성을 저장할 수 있다.
저장 장치(310)는 훈련 음성을 평가하는 평가 모델을 저장할 수 있다.
저장 장치(310)는 훈련 음성을 평가한 평가 결과를 저장할 수도 있다.
메모리(320)는 사용자 단말 장치(300)가 음성 훈련 프로그램에 따른 가이드 콘텐츠를 제공하는 과정에서 발생하는 임시 데이터를 저장할 수 있다.
인터페이스 장치(340)는 사용자로부터 일정한 명령 내지 정보를 입력받는 장치이다. 인터페이스 장치(340)는 외부 입력장치로부터 일정한 명령 내지 데이터를 입력받을 수 있다. 인터페이스 장치(340)는 음성 훈련 프로그램에 대한 사용자의 선택 명령을 입력받을 수 있다.
통신 장치(350)는 네트워크를 통해 일정한 정보를 수신하고 전송하는 구성을 의미한다. 통신 장치(350)는 평가자 단말과 같은 외부 객체로 훈련 음성을 송신할 수 있다. 또한, 통신 장치(350)는 훈련 음성에 대한 평가 결과를 수신할 수도 있다. 통신 장치(350)는 EMR 서버와 같은 외부 객체로부터 사용자의 진단 정보(MMSE 점수 등)를 수신할 수 있다.
통신 장치(350) 내지 인터페이스 장치(340)는 외부로부터 일정한 데이터 내지 명령을 전달받는 장치이다. 통신 장치(350) 내지 인터페이스 장치(340)를 입력장치라고 명명할 수도 있다.
연산 장치(330)는 사용자의 선택에 따라 음성 훈련 후보 프로그램들 중 특정 음성 훈련 프로그램을 선택하고, 선택한 음성 훈련 프로그램에 따라 가이드 콘텐츠를 생성한다.
연산 장치(330)는 훈련 음성에 대한 평가 결과를 기준으로 음성 훈련 후보 프로그램들 중 특정 음성 훈련 프로그램을 선택하고, 선택한 음성 훈련 프로그램에 따라 가이드 콘텐츠를 생성할 수 있다.
연산 장치(330)는 훈련 음성에 대한 평가 결과 및 사용자의 진단 정보를 기준으로 음성 훈련 후보 프로그램들 중 특정 음성 훈련 프로그램을 선택하고, 선택한 음성 훈련 프로그램에 따라 가이드 콘텐츠를 생성할 수 있다.
연산 장치(330)는 데이터를 처리하고, 일정한 연산을 처리하는 프로세서, AP, 프로그램이 임베디드된 칩과 같은 장치일 수 있다.
마이크(360)는 사용자의 음성을 입력받는다. 마이크(360)는 가이드 콘텐츠를 보고 사용자가 발성하는 훈련 음성을 입력받는다.
출력 장치(370)는 자가 훈련 과정에 필요한 인터페이스 화면을 출력할 수 있다. 출력 장치(370)는 음성 훈련 프로그램에 따른 가이드 콘텐츠를 출력한다. 출력 장치(370)는 사용자 음성에 대한 피드백 객체를 출력할 수 있다.
출력 장치(370)는 음성 훈련 프로그램에 대한 설명을 출력할 수 있다.
또한, 상술한 바와 같은 음성 자가 훈련 방법 및 사용자 단말 장치의 동작 방법은 컴퓨터에서 실행될 수 있는 실행가능한 알고리즘을 포함하는 프로그램(또는 어플리케이션)으로 구현될 수 있다. 상기 프로그램은 일시적 또는 비일시적 판독 가능 매체(non-transitory computer readable medium)에 저장되어 제공될 수 있다.
비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM (read-only memory), PROM (programmable read only memory), EPROM(Erasable PROM, EPROM) 또는 EEPROM(Electrically EPROM) 또는 플래시 메모리 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
일시적 판독 가능 매체는 스태틱 램(Static RAM,SRAM), 다이내믹 램(Dynamic RAM,DRAM), 싱크로너스 디램 (Synchronous DRAM,SDRAM), 2배속 SDRAM(Double Data Rate SDRAM,DDR SDRAM), 증강형 SDRAM(Enhanced SDRAM,ESDRAM), 동기화 DRAM(Synclink DRAM,SLDRAM) 및 직접 램버스 램(Direct Rambus RAM,DRRAM) 과 같은 다양한 RAM을 의미한다.
본 실시례 및 본 명세서에 첨부된 도면은 전술한 기술에 포함되는 기술적 사상의 일부를 명확하게 나타내고 있는 것에 불과하며, 전술한 기술의 명세서 및 도면에 포함된 기술적 사상의 범위 내에서 당업자가 용이하게 유추할 수 있는 변형 예와 구체적인 실시례는 모두 전술한 기술의 권리범위에 포함되는 것이 자명하다고 할 것이다.

Claims (15)

  1. 사용자 단말이 음성 훈련을 위한 제1 가이드 콘텐츠를 화면에 출력하는 단계;
    상기 사용자 단말이 상기 제1 가이드 콘텐츠를 따라 사용자가 출력하는 음성을 입력받는 단계;
    상기 사용자 단말이 상기 음성을 분석하여 평가하는 단계;
    상기 사용자 단말이 상기 평가 결과에 따른 제2 가이드 콘텐츠를 화면에 출력하는 단계; 및
    상기 사용자 단말이 상기 제2 가이드 콘텐츠를 따라 사용자가 출력하는 음성을 입력받는 단계를 포함하되,
    상기 제1 가이드 콘텐츠 및 상기 제2 가이드 콘텐츠는 음성 훈련 프로그램의 내용을 시간 흐름에 따른 시각적 객체로 출력하는 데이터인 음성 장애 환자를 위한 음성 자가 훈련 방법.
  2. 제1항에 있어서,
    상기 시각적 객체는 음성에 대한 파형 객체이고, 상기 파형 객체는 파형의 길이 및 높이로 각각 음성 발화의 길이 및 음성 발화의 높이 내지 강도를 나타내는 음성 장애 환자를 위한 음성 자가 훈련 방법.
  3. 제1항에 있어서,
    상기 시각적 객체는 그래픽 객체이고, 상기 그래픽 객체는 특정 위치 기준한 상기 그래픽 객체의 상대적 위치 및 상기 그래픽 객체의 크기로 각각 음성 발화의 길이 및 음성 발화의 높이 내지 강도를 나타내는 음성 장애 환자를 위한 음성 자가 훈련 방법.
  4. 제1항에 있어서,
    상기 음성 훈련 프로그램은 발화 구간 길이, 발화 단위 구간의 길이, 음의 높이, 음의 높이 변화, 음의 높이 변화 시간, 음의 강도, 음의 강도 변화 및 음의 강도 변화 시간으로 정의되는 음성 장애 환자를 위한 음성 자가 훈련 방법.
  5. 제1항에 있어서,
    상기 사용자 단말이 상기 제1 가이드 콘텐츠 또는 상기 제2 가이드 콘텐츠에 따라 사용자가 출력하는 음성의 길이, 음성의 높이, 음성의 강도 및 음성 발화의 안정도를 나타내는 그래픽 객체를 화면에 출력하는 단계를 더 포함하는 음성 장애 환자를 위한 음성 자가 훈련 방법.
  6. 제1항에 있어서,
    상기 사용자 단말은 GRBAS(grade, roughness, breathiness, asthenia, and strain), VPA(Vocal Profile Analysis) 및 CAPE-V(Consensus Auditory Perceptual Evaluation) 중 어느 하나의 평가 기준에 따른 상기 평가 결과를 산출하는 음성 장애 환자를 위한 음성 자가 훈련 방법.
  7. 사용자 단말이 음성 훈련을 위한 제1 가이드 콘텐츠를 화면에 출력하는 단계;
    상기 사용자 단말이 상기 제1 가이드 콘텐츠를 따라 사용자가 출력하는 음성을 입력받는 단계;
    상기 사용자 단말이 상기 음성의 평가 결과를 진단자 단말로부터 수신하는 단계;
    상기 사용자 단말이 상기 평가 결과에 따른 제2 가이드 콘텐츠를 화면에 출력하는 단계; 및
    상기 사용자 단말이 상기 제2 가이드 콘텐츠를 따라 사용자가 출력하는 음성을 입력받는 단계를 포함하되,
    상기 제1 가이드 콘텐츠 및 상기 제2 가이드 콘텐츠는 음성 훈련 프로그램의 내용을 시간 흐름에 따른 시각적 객체로 출력하는 데이터이고,
    상기 음성 훈련 프로그램은 연속된 발화 구간 길이, 발화 단위 구간의 길이, 음의 높이, 음의 높이 변화, 음의 높이 변화 시간, 음의 강도, 음의 강도 변화 및 음의 강도 변화 시간으로 정의되는 음성 장애 환자를 위한 음성 자가 훈련 방법.
  8. 제7항에 있어서,
    상기 시각적 객체는 음성에 대한 파형 객체이고, 상기 파형 객체는 파형의 길이 및 높이로 각각 음성 발화의 길이 및 음성 발화의 높이 내지 강도를 나타내는 음성 장애 환자를 위한 음성 자가 훈련 방법.
  9. 제7항에 있어서,
    상기 시각적 객체는 그래픽 객체이고, 상기 그래픽 객체는 특정 위치 기준한 상기 그래픽 객체의 상대적 위치 및 상기 그래픽 객체의 크기로 각각 음성 발화의 길이 및 음성 발화의 높이 내지 강도를 나타내는 음성 장애 환자를 위한 음성 자가 훈련 방법.
  10. 사용자의 훈련 프로그램 선택 명령을 입력받는 입력장치;
    사용자 음성 훈련을 위한 음성 훈련 후보 프로그램들을 저장하는 저장장치;
    상기 음성 훈련 후보 프로그램들 중 상기 사용자가 선택한 제1 음성 훈련 프로그램에 따른 제1 가이드 콘텐츠를 생성하는 연산장치;
    상기 제1 가이드 콘텐츠를 출력하는 출력장치; 및
    상기 출력장치에 출력되는 제1 가이드 콘텐츠에 따라 사용자가 출력하는 음성을 입력받는 마이크를 포함하고,
    상기 연산장치는 상기 사용자의 음성에 대한 평가 결과에 따라 상기 음성 훈련 후보 프로그램들 중 제2 음성 훈련 프로그램을 선택하고, 상기 제2 음성 훈련 프로그램에 따른 제2 가이드 콘텐츠를 생성하고, 상기 출력장치는 상기 제2 가이드 콘텐츠를 출력하고,
    상기 제1 가이드 콘텐츠 및 상기 제2 가이드 콘텐츠는 음성 훈련 프로그램의 내용을 시간 흐름에 따른 시각적 객체로 출력하는 데이터인 음성 자가 훈련을 위한 사용자 단말 장치.
  11. 제10항에 있어서,
    상기 시각적 객체는 음성에 대한 파형 객체이고, 상기 파형 객체는 파형의 길이 및 높이로 각각 음성 발화의 길이 및 음성 발화의 높이 내지 강도를 나타내는 음성 자가 훈련을 위한 사용자 단말 장치.
  12. 제10항에 있어서,
    상기 시각적 객체는 그래픽 객체이고, 상기 그래픽 객체는 특정 위치 기준한 상기 그래픽 객체의 상대적 위치 및 상기 그래픽 객체의 크기로 각각 음성 발화의 길이 및 음성 발화의 높이 내지 강도를 나타내는 음성 자가 훈련을 위한 사용자 단말 장치.
  13. 제10항에 있어서,
    상기 음성 훈련 프로그램은 발화 구간 길이, 발화 단위 구간의 길이, 음의 높이, 음의 높이 변화, 음의 높이 변화 시간, 음의 강도, 음의 강도 변화 및 음의 강도 변화 시간으로 정의되는 음성 자가 훈련을 위한 사용자 단말 장치.
  14. 제10항에 있어서,
    상기 출력장치는 상기 제1 가이드 콘텐츠 또는 상기 제2 가이드 콘텐츠에 따라 사용자가 출력하는 음성의 길이, 음성의 높이, 음성의 강도 및 음성 발화의 안정도를 나타내는 그래픽 객체를 화면에 출력하는 음성 자가 훈련을 위한 사용자 단말 장치.
  15. 제10항에 있어서,
    상기 평가 결과는 GRBAS(grade, roughness, breathiness, asthenia, and strain), VPA(Vocal Profile Analysis) 및 CAPE-V(Consensus Auditory Perceptual Evaluation) 중 어느 하나의 평가 기준에 따른 분석 결과인 음성 자가 훈련을 위한 사용자 단말 장치.
PCT/KR2021/014866 2021-01-14 2021-10-22 음성 장애 환자를 위한 음성 자가 훈련 방법 및 사용자 단말 장치 WO2022154217A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US18/251,840 US20240021096A1 (en) 2021-01-14 2021-10-22 Voice self-training method and user terminal device for voice impaired patient

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020210005571A KR102484006B1 (ko) 2021-01-14 2021-01-14 음성 장애 환자를 위한 음성 자가 훈련 방법 및 사용자 단말 장치
KR10-2021-0005571 2021-01-14

Publications (1)

Publication Number Publication Date
WO2022154217A1 true WO2022154217A1 (ko) 2022-07-21

Family

ID=82448240

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/014866 WO2022154217A1 (ko) 2021-01-14 2021-10-22 음성 장애 환자를 위한 음성 자가 훈련 방법 및 사용자 단말 장치

Country Status (3)

Country Link
US (1) US20240021096A1 (ko)
KR (1) KR102484006B1 (ko)
WO (1) WO2022154217A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102621451B1 (ko) 2023-02-01 2024-01-04 박상은 사용자 맞춤형 목소리 트레이닝 서비스 제공 방법, 장치 및 시스템

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110112855A1 (en) * 2008-05-12 2011-05-12 Koninklijke Philips Electronics N.V. System and method for assisting in making a treatment plan
KR20140128630A (ko) * 2013-04-29 2014-11-06 주식회사 케이티 원격 치료 시스템 및 환자 단말
KR20170008970A (ko) * 2015-07-15 2017-01-25 대한민국(국립재활원장) 언어 재활 치료 방법 및 언어 재활 치료 장치
KR101921888B1 (ko) * 2017-10-13 2018-11-28 대한민국 온라인 평가 기반 언어재활 훈련 방법
JP2020201810A (ja) * 2019-06-12 2020-12-17 株式会社モリタ製作所 推定装置、推定システム、推定方法、および推定用プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003186379A (ja) * 2001-12-13 2003-07-04 Animo:Kk 音声可視化処理のためのプログラム、音声可視化図形表示と音声及び動画像の再生処理のためのプログラム、及び訓練結果表示のためのプログラム、並びに発声発話訓練装置及びコンピュータ・システム
WO2015177908A1 (ja) * 2014-05-22 2015-11-26 株式会社日立製作所 訓練システム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110112855A1 (en) * 2008-05-12 2011-05-12 Koninklijke Philips Electronics N.V. System and method for assisting in making a treatment plan
KR20140128630A (ko) * 2013-04-29 2014-11-06 주식회사 케이티 원격 치료 시스템 및 환자 단말
KR20170008970A (ko) * 2015-07-15 2017-01-25 대한민국(국립재활원장) 언어 재활 치료 방법 및 언어 재활 치료 장치
KR101921888B1 (ko) * 2017-10-13 2018-11-28 대한민국 온라인 평가 기반 언어재활 훈련 방법
JP2020201810A (ja) * 2019-06-12 2020-12-17 株式会社モリタ製作所 推定装置、推定システム、推定方法、および推定用プログラム

Also Published As

Publication number Publication date
KR102484006B1 (ko) 2022-12-30
KR20220102974A (ko) 2022-07-21
US20240021096A1 (en) 2024-01-18

Similar Documents

Publication Publication Date Title
Krahmer et al. The effects of visual beats on prosodic prominence: Acoustic analyses, auditory perception and visual perception
Juslin et al. Impact of intended emotion intensity on cue utilization and decoding accuracy in vocal expression of emotion.
Wong et al. Perception and production of lexical tones by 3-year-old, Mandarin-speaking children
Grillo et al. Influence of smartphones and software on acoustic voice measures
Shen et al. Categorical perception of lexical tones by English learners of Mandarin Chinese
WO2016006727A1 (ko) 인지기능 검사 장치 및 방법
US11688300B2 (en) Diagnosis and treatment of speech and language pathologies by speech to text and natural language processing
Martin et al. Online adaptation to altered auditory feedback is predicted by auditory acuity and not by domain-general executive control resources
Pompili et al. Automatic detection of parkinson’s disease: an experimental analysis of common speech production tasks used for diagnosis
WO2022080774A1 (ko) 말 장애 평가 장치, 방법 및 프로그램
WO2022154217A1 (ko) 음성 장애 환자를 위한 음성 자가 훈련 방법 및 사용자 단말 장치
WO2009119991A4 (ko) 인터넷상에서의 소리분석 기반 어학 학습방법 및 시스템
Patel et al. Vocal behavior
JP2021110895A (ja) 難聴判定装置、難聴判定システム、コンピュータプログラム及び認知機能レベル補正方法
Burgering et al. Fluidity in the perception of auditory speech: Cross-modal recalibration of voice gender and vowel identity by a talking face
Schaefer et al. Intuitive visualizations of pitch and loudness in speech
JP7191269B1 (ja) 発声健康法促進装置、発声健康法促進方法、及び発声健康法促進プログラム
KR20230043080A (ko) 대화기반 정신장애선별방법 및 그 장치
Sinagra et al. The perception of intonational and emotional speech prosody produced with and without a face mask: an exploratory individual differences study
Doyle Documenting voice and speech outcomes in alaryngeal speakers
Potapova et al. Forensic identification of foreign-language speakers by the method of structural-melodic analysis of phonograms
Maske-Cash et al. Effect of utterance length and meaningfulness on the speech initiation times of children who stutter and children who do not stutter
Koffi A Comprehensive Review of F0 and its Various Correlations
Ramli et al. Formant Characteristics of Malay Vowels.
Erickson et al. The MARRYS cap: A new method for analyzing and teaching the importance of jaw movements in speech production

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21919841

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 18251840

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21919841

Country of ref document: EP

Kind code of ref document: A1