WO2021132786A1 - 고령자를 위한 휴먼케어 로봇의 학습 데이터 처리 시스템 - Google Patents

고령자를 위한 휴먼케어 로봇의 학습 데이터 처리 시스템 Download PDF

Info

Publication number
WO2021132786A1
WO2021132786A1 PCT/KR2019/018759 KR2019018759W WO2021132786A1 WO 2021132786 A1 WO2021132786 A1 WO 2021132786A1 KR 2019018759 W KR2019018759 W KR 2019018759W WO 2021132786 A1 WO2021132786 A1 WO 2021132786A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
text
voice
text data
user terminal
Prior art date
Application number
PCT/KR2019/018759
Other languages
English (en)
French (fr)
Inventor
유태준
안준환
서상원
윤서영
최홍섭
Original Assignee
주식회사 마인즈랩
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 마인즈랩 filed Critical 주식회사 마인즈랩
Publication of WO2021132786A1 publication Critical patent/WO2021132786A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/61Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Definitions

  • Embodiments of the present invention relate to a system for processing learning data of a human care robot for the elderly, and to a system for collecting data used for learning of an artificial neural network for voice processing of a human care robot.
  • the human care robot can provide personalized care services based on psychological and emotional sympathy with the elderly, and can be used for active medical health and life support services by combining with the existing u-Heathcare technology.
  • the present invention is to solve the above problems, and to implement a human care robot more suitable for the care of the elderly.
  • a method for collecting voice data used for learning of an artificial neural network for voice processing of a human care robot for the elderly includes a first method including first text data corresponding to a voice to be acquired. transmitting data to a user terminal; receiving second data including reading data of the first text data from the user terminal; verifying validity of the reading data by comparing second text data generated from the reading data and the first text data; and storing the reading data determined to be valid as learning data by matching the first text data with the reading data.
  • the first data further includes voice data obtained by converting the first text data into speech using the learned first artificial neural network, and the user terminal provides at least one of the first text data and the speech data to the user.
  • the first artificial neural network may be a neural network trained to convert input text data into voice data corresponding to the input text data.
  • the second data further includes metadata for a user who uses the user terminal, and the storing in correspondence includes storing the reading data determined to be valid, the first text data, and the metadata in correspondence with each other.
  • the method for collecting voice data may further include, after the storing as the learning data, transmitting the updated voice data collection status to the user terminal.
  • Transmitting the updated voice data collection status to the user terminal may include: checking a time length of the monophonic data; calculating an accumulated time length by accumulating the confirmed time length to the time length of pre-obtained reading data; and generating the voice data collection status including the accumulated time length and the target time length.
  • the verifying of the validity may include: generating the second text data from the reading data using a learned second artificial neural network; calculating a similarity between the first text data and the second text data; and determining, as valid data, the reading data having the similarity greater than or equal to a predetermined threshold similarity.
  • the second artificial neural network may be a neural network that has been trained to convert input reading data into text data corresponding to the input reading data.
  • the determining may include determining the reading data having the similarity lower than the predetermined threshold similarity as the judgment pending reading data.
  • first text data corresponding to the monophonic data determined to be invalid as a result of the validity determination is transmitted to the user terminal and receiving rereading data for the first text data.
  • the transmitting of the first data to the user terminal may include a font size control signal for controlling a size at which the first text is displayed in the user terminal.
  • a first artificial neural network that converts input text data into voice data corresponding to the input text data using the learning data learning; and training a second artificial neural network to convert the input reading data into text data corresponding to the input reading data.
  • data determined to be invalid is separately provided to the manager, thereby minimizing human intervention in data collection while maintaining high quality.
  • FIG. 1 is a diagram schematically illustrating the configuration of an artificial neural network learning system of a human care robot for the elderly according to an embodiment of the present invention.
  • FIG. 2 is a diagram schematically illustrating the configuration of a voice data collection device 110 provided in the server 100 according to an embodiment of the present invention.
  • 3 and 4 are flowcharts for explaining a voice data collection method performed by the server 100 including the voice data collection device 110 .
  • FIG 5 is an example of a screen 500 on which first text data is displayed on the user terminal 200 according to an embodiment of the present invention.
  • FIG. 6 is a diagram illustrating an exemplary screen 600 displayed on the manager terminal 300 .
  • a method for collecting voice data used for learning of an artificial neural network for voice processing of a human care robot for the elderly includes a first method including first text data corresponding to a voice to be acquired. transmitting data to a user terminal; receiving second data including reading data of the first text data from the user terminal; verifying validity of the reading data by comparing second text data generated from the reading data and the first text data; and storing the reading data determined to be valid as learning data by matching the first text data with the reading data.
  • FIG. 1 is a diagram schematically illustrating the configuration of an artificial neural network learning system of a human care robot for the elderly according to an embodiment of the present invention.
  • the artificial neural network learning system may transmit some of the learning data of the artificial neural network to the user terminal, and receive response data that is the remaining part of the learning data from the user terminal to generate completed learning data.
  • the system according to an embodiment of the present invention transmits text data to the user terminal and receives reading data obtained by the user reading the text data in response thereto, thereby generating learning data including the text data and the reading data.
  • Such an artificial neural network learning system may include a server 100 , a user terminal 200 , a manager terminal 300 , and a communication network 400 as shown in FIG. 1 .
  • the user terminal 200 and the manager terminal 300 are various types of intermediary between a person and the server 100 so that each of the user and the manager can use the various services provided by the server 100 .
  • the user terminal 200 may display text data received from the server 100 on a screen, and allow the user to read the text data displayed on the screen.
  • reading data may be acquired according to the user's reading of text data and transmitted back to the server 100 .
  • the manager terminal 300 may receive, display and/or reproduce the judgment pending reading data from the server 100 , obtain the manager's input thereto, and transmit it to the server 100 .
  • Such terminals 200 and 300 may mean portable terminals 201 , 202 , 203 like the user terminal 200 shown in FIG. 1 , or may mean the computer 204 .
  • the terminals 200 and 300 may include a display means for displaying content and the like in order to perform the above-described functions, and an input means for obtaining a user's input for such content.
  • the input means and the display means may be configured in various ways.
  • the input means may include, but is not limited to, a keyboard, a mouse, a trackball, a microphone, a button, a touch panel, and the like.
  • both the user terminal 200 and the manager terminal 300 are illustrated as being singular in FIG. 1 , these quantities are exemplary and the spirit of the present invention is not limited thereto. Accordingly, the user terminal 200 and the manager terminal 300 may be plural.
  • the communication network 400 may refer to a communication network that mediates data transmission/reception between each component of the system.
  • the communication network 400 may include wired networks such as Local Area Networks (LANs), Wide Area Networks (WANs), Metropolitan Area Networks (MANs), Integrated Service Digital Networks (ISDNs), wireless LANs, CDMA, Bluetooth, satellite communication, and the like. may cover a wireless network, but the scope of the present invention is not limited thereto.
  • the server 100 transmits some of the training data of the artificial neural network to the user terminal 200 and receives the response data that is the remaining part of the training data from the user terminal 200 to complete the training data.
  • the server 100 transmits text data to the user terminal 200 and in response receives the reading data obtained by the user reading the text data, learning including the text data and the reading data. data can be generated.
  • the server 100 transmits the judgment pending syllable data requiring the administrator's confirmation to the manager terminal 300 , and receives the validity determination result for the judgment pending syllable data from the manager terminal 300 . You may.
  • the voice data collection apparatus 110 may include a communication unit 111 , a control unit 112 , and a memory 113 . Also, although not shown in the drawings, the voice data collection apparatus 110 according to the present embodiment may further include an input/output unit, a program storage unit, and the like.
  • the communication unit 111 is a device including hardware and software necessary for the voice data collection device 110 to transmit and receive signals such as control signals or data signals through wired/wireless connection with other network devices such as terminals 200 and 300 . can
  • the controller 112 may include any type of device capable of processing data, such as a processor.
  • the 'processor' may refer to a data processing device embedded in hardware, for example, having a physically structured circuit to perform a function expressed as a code or a command included in a program.
  • a microprocessor a central processing unit (CPU), a processor core, a multiprocessor, an application-specific integrated (ASIC) Circuit
  • a processing device such as an FPGA (Field Programmable Gate Array) may be included, but the scope of the present invention is not limited thereto.
  • the memory 113 performs a function of temporarily or permanently storing data processed by the voice data collection device 110 .
  • the memory may include a magnetic storage medium or a flash storage medium, but the scope of the present invention is not limited thereto.
  • the memory 113 may temporarily and/or permanently store the generated learning data.
  • the server 100 may transmit first data including the first text data to the user terminal 200 ( S310 ).
  • the first text data is voice (or the user's utterance).
  • the server may transmit the first data including "Hello" to the user terminal 200 .
  • the first data transmitted in step S310 may further include voice data obtained by converting the first text data into voice.
  • the voice data may be generated by the server 100 in various ways.
  • the server 100 may generate voice data from the first text data by using the first artificial neural network trained to convert the input text into voice data corresponding to the input text.
  • the server 100 may generate voice data based on data obtained by another user or administrator reading the first text data.
  • the first data transmitted in step S310 may further include a font size control signal for controlling the size at which the first text data is displayed in the user terminal 200 .
  • the first data may include a font size control signal for controlling the first text data to be displayed at 30 points or more.
  • the user terminal 200 may provide the user with the first data received from the server 100 in step S310. Also, the user terminal 200 may generate the reading data of the first text data. (S320)
  • FIG 5 is an example of a screen 500 on which first text data is displayed on the user terminal 200 according to an embodiment of the present invention.
  • the screen 500 includes an area 510 for displaying identification information of a work in progress, an interface 520 for listening to voice data for first text data, and a display area 530 for first text data. ), a voice data collection status display area 540 , an interface 550 for starting a single sound, and an area 560 in which information is displayed.
  • the user terminal 200 may display the first text data on the area 530 of the screen 500 so that the user reads the text.
  • the user terminal 200 may adjust the size of the text displayed according to the first text data according to the font size control signal included in the first data.
  • the user terminal 200 may obtain a user's input for the interface 520 and provide voice data to the user.
  • the user may input an input to the interface 520 before the start of recording to hear an example voice for the text to be read by the user. According to this process, reading data can be acquired even from a user who has vision problems or cannot read text.
  • the user may generate reading data for the first text by referring to the first text data displayed in the area 530 and/or voice data provided according to an input to the interface 520 .
  • the user may start recording by performing an input to the interface 550 for starting the reading, and may generate the reading data by reading the text.
  • the user may also generate the reading data by referring to the guidance displayed on the area 560 where the guidance is displayed.
  • the user terminal 200 may transmit the second data including the reading data generated according to the above-described process to the server 100 .
  • the server 100 may receive the second data including the reading data of the first text data from the user terminal 200 (S330).
  • the second data may further include metadata about a user who uses the user terminal 200 .
  • the metadata may include various items that can represent the characteristics of the user, such as the user's age, the user's gender, the user's residential area, and the user's education level.
  • the server 100 may verify the validity of the reading data received in step S330. (S340) For example, the server 100 may generate the second text data and the first text from the reading data. The validity of the reading data can be verified by comparing the data.
  • the server 100 may generate the second text data from the reading data by using the learned second artificial neural network.
  • the second artificial neural network may be a neural network that has been trained to convert the input reading data into text data corresponding to the input reading data.
  • the server 100 may calculate a degree of similarity between the first text data and the second text data, and determine the reading data having a calculated similarity greater than or equal to a predetermined threshold similarity as valid data.
  • the server 100 calculates the similarity between the two text data to be 47%, and since the calculated similarity is less than the threshold similarity (assuming the critical similarity is 80%), it is possible to determine the reading data as invalid data. .
  • the server 100 may calculate the similarity between two text data in various ways. For example, the server 100 may generate a feature vector for each text, and calculate a similarity based on a distance between the generated vectors. However, such a method is exemplary and the spirit of the present invention is not limited thereto.
  • the server 100 may determine the corresponding read-only data as the decision-preserved read-only data. (S370) The server 100 holds the decision A specific method of processing the reading data will be described later with reference to steps S390 and S400.
  • the server 100 may store the reading data as learning data by matching the reading data with the first text data (S350).
  • the server 100 may store the user's meta data of the user terminal 200 as learning data in addition to the reading data and the first text data.
  • the metadata may be data included in the second data received in step S330 described above.
  • the server 100 updates the updated voice data collection status in consideration of the learning data generated in step S350 ( S360 ), and transmits the updated voice data collection status to the user terminal 200 . (S380)
  • the server 100 may check the length of time of the reading data included in the learning data. For example, the server 100 may check the length of time of reading data for "hello" as 1 second.
  • the server 100 may calculate the accumulated time length by accumulating the pre-obtained time length of the reading data. For example, if the total time length of the reading data performed by the user of the user terminal 200 in the past is 3 hours 20 minutes 50 seconds, the server 100 accumulates 1 second to the total time length and 3 hours 20 minutes 51 seconds can be calculated as the cumulative time length.
  • the server 100 may accumulate and manage the accumulated time length for each user.
  • the server 100 may manage the voice data collection status by the number of syllables rather than the length of time. In this case, the server 100 may manage the voice data collection status, such as '230 out of 300 progress'.
  • the voice data collection status transmitted to the user terminal 200 may be provided to the user.
  • the user terminal 200 may display the voice data collection status in the voice data collection status display area 540 of FIG. 5 and provide it to the user.
  • the server 100 may transmit the determination-pending monologue data determined in step S370 to the manager terminal 300 (S390).
  • the manager terminal 300 may provide the decision pending reading data received from the server 100 to the manager, obtain an input corresponding to the manager's validity determination result, and transmit it back to the server. Accordingly, the server 100 may receive the validity determination result for the determination pending reading data from the manager terminal 300 (S400).
  • FIG. 6 is a diagram illustrating an exemplary screen 600 displayed on the manager terminal 300 .
  • the screen 600 may include an area 610 in which the manager's identification information is displayed, and an area 620 in which a list of read-only data that is pending judgment is displayed.
  • the list displayed in the list display area 620 includes a second text data item 621, a reading data item 622, a similarity item 623, and a decision item 624 generated from the user's reading data. can do.
  • the administrator may, for example, read the second text data item 621 and listen to the single tone data item 622 to determine the validity of the corresponding determination pending single tone data.
  • the manager may determine that the data is valid by performing an input for 'use' in the decision item 624 for the first judgment pending reading data, and the corresponding data is valid by performing an input for 're-recording' and may decide that re-recording is necessary.
  • the present invention minimizes human intervention in the collection of voice data while maintaining high quality.
  • the server 100 may determine the validity of the corresponding judgment pending reading data based on the judgment result received in step S400 (S410).
  • the server 100 may determine the determination pending data as valid.
  • the server 100 may determine that the judgment pending reading data is invalid.
  • the server 100 transmits the first data including the first text data corresponding to the determination pending reading data determined to be invalid in step S410 again to the user terminal 200 ( S420), it is possible to receive the reread data for the first text data from the user terminal 200 (S430).
  • the server 100 may include a guide message that the first text data is a reread text in the first data transmitted to the user terminal 200 in step S420 .
  • the user terminal 200 may provide a text reread text guide message to the user.
  • the server 100 may store the rereading data received in step S430 or the readout data determined to be valid in step S410 as learning data by matching the first text data (S440).
  • the server 100 may match the reading data determined to be valid in step S410 with the first text data corresponding thereto and store it as learning data. Also, the server 100 may store the rereading sound data obtained in step S430 and the first text data corresponding thereto as learning data.
  • the server 100 may update the voice data collection status (S450), and transmit the updated voice data collection status to the user terminal 200 (S460).
  • the description of steps S360 and S380 is replaced.
  • the server 100 may use the learning data generated by the above-described process to learn an artificial neural network for voice processing of the human care robot for the elderly.
  • the server 100 may train the first artificial neural network to convert the input text data into voice data corresponding to the input text data. Also, the server 100 may train the second artificial neural network to convert the input syllable data into text data corresponding to the input syllable data.
  • the first artificial neural network may be the same neural network as the neural network that generates the voice data transmitted together with the first text data in step S310, or may be a separate neural network.
  • the second artificial neural network may be the same neural network as the neural network that generates the second text data used to determine the validity of the first text data in step S340, or may be a separate neural network.
  • the embodiment according to the present invention described above may be implemented in the form of a computer program that can be executed through various components on a computer, and such a computer program may be recorded in a computer-readable medium.
  • the medium may be to store a program executable by a computer. Examples of the medium include a hard disk, a magnetic medium such as a floppy disk and a magnetic tape, an optical recording medium such as CD-ROM and DVD, a magneto-optical medium such as a floppy disk, and those configured to store program instructions, including ROM, RAM, flash memory, and the like.
  • the computer program may be specially designed and configured for the present invention, or may be known and used by those skilled in the computer software field.
  • Examples of the computer program may include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like.
  • connection or connection members of the lines between the components shown in the drawings exemplarily represent functional connections and/or physical or circuit connections, and in an actual device, various functional connections, physical connections that are replaceable or additional may be referred to as connections, or circuit connections.
  • connection or circuit connections unless there is a specific reference such as "essential” or "importantly", it may not be a necessary component for the application of the present invention.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명의 일 실시예에 따른 고령자를 위한 휴먼케어 로봇의 음성 처리를 위한 인공 신경망의 학습에 사용되는 음성 데이터를 수집하는 방법은, 획득하고자 하는 음성에 대응되는 제1 텍스트 데이터를 포함하는 제1 데이터를 사용자 단말에 전송하는 단계; 상기 사용자 단말로부터 상기 제1 텍스트 데이터의 독음 데이터를 포함하는 제2 데이터를 수신하는 단계; 상기 독음 데이터로부터 생성된 제2 텍스트 데이터 및 상기 제1 텍스트 데이터를 비교하여 상기 독음 데이터의 유효성을 검증하는 단계; 및 유효한 것으로 판단된 상기 독음 데이터와 상기 제1 텍스트 데이터를 대응시켜 학습 데이터로 저장하는 단계;를 포함할 수 있다.

Description

고령자를 위한 휴먼케어 로봇의 학습 데이터 처리 시스템
본 발명의 실시예들은 고령자를 위한 휴먼케어 로봇의 학습 데이터 처리 시스템에 관한 것으로, 휴먼케어 로봇의 음성 처리를 위한 인공 신경망의 학습에 사용되는 데이터를 수집하는 시스템에 관한 것이다.
고령 사회의 빠른 도래와 독거노인 가구의 급증으로 인해 고령자의 삶의 질 저하와 고령자 지원을 위한 사회 공공지출의 급격한 증가가 예상되고 있다. 이러한 사회 문제에 대한 해결책의 하나로 휴먼케어 로봇이 고령자와 함께 생활하는 방법이 떠오르고 있다. 따라서 고령자를 이해하고 정서적으로 교류하면서 상황에 맞는 건강, 생활, 인지, 정서 서비스를 제공해 주기 위해 필요한 휴먼케어 로봇 관련 기술의 개발이 요구되고 있는 실정이다.
휴먼케어 로봇은 고령자와의 심리적, 정서적 교감을 기반으로 하는 개인 맞춤형 돌봄 서비스 제공이 가능하고, 기존의 u-Heathcare 기술과 접목하여 적극적인 의료건강 및 생활지원 서비스에 활용이 가능하다.
한편 이와 같은 휴먼케어 로봇의 활용을 위해서는 로봇이 고령자의 말을 이해할 수 있도록 하는 것이 필요하며, 이를 위해서는 음성 처리를 위한 인공 신경망의 학습이 필요하다. 종래기술에서는 고령자의 특성을 반영하지 못하는 일반적인 음성 처리 방식을 사용하여, 휴먼케어 로봇의 효용성을 저하시키는 문제점이 있었다.
본 발명은 상술한 문제점을 해결하기 위한 것으로, 고령자의 케어에 보다 적합한 휴먼케어 로봇을 구현하고자 한다.
본 발명의 일 실시예에 따른 고령자를 위한 휴먼케어 로봇의 음성 처리를 위한 인공 신경망의 학습에 사용되는 음성 데이터를 수집하는 방법은, 획득하고자 하는 음성에 대응되는 제1 텍스트 데이터를 포함하는 제1 데이터를 사용자 단말에 전송하는 단계; 상기 사용자 단말로부터 상기 제1 텍스트 데이터의 독음 데이터를 포함하는 제2 데이터를 수신하는 단계; 상기 독음 데이터로부터 생성된 제2 텍스트 데이터 및 상기 제1 텍스트 데이터를 비교하여 상기 독음 데이터의 유효성을 검증하는 단계; 및 유효한 것으로 판단된 상기 독음 데이터와 상기 제1 텍스트 데이터를 대응시켜 학습 데이터로 저장하는 단계;를 포함할 수 있다.
상기 제1 데이터는 학습된 제1 인공 신경망을 이용하여 상기 제1 텍스트 데이터를 음성으로 변환한 음성 데이터를 더 포함하고, 상기 사용자 단말은 상기 제1 텍스트 데이터 및 상기 음성 데이터 중 적어도 하나를 사용자에게 제공하고, 상기 제1 인공 신경망은 입력 텍스트 데이터를 상기 입력 텍스트 데이터에 대응되는 음성 데이터로 변환하도록 학습된 신경망일 수 있다.
상기 제2 데이터는 상기 사용자 단말을 사용하는 사용자에 대한 메타 데이터를 더 포함하고, 상기 대응시켜 저장하는 단계는 상기 유효한 것으로 판단된 상기 독음 데이터, 상기 제1 텍스트 데이터 및 상기 메타 데이터를 대응시켜 저장할 수 있다.
본 발명의 일 실시예에 따른 음성 데이터 수집 방법은, 상기 학습 데이터로 저장하는 단계 이후에, 갱신된 음성 데이터 수집 현황을 상기 사용자 단말에 전송하는 단계;를 더 포함할 수 있다.
상기 갱신된 음성 데이터 수집 현황을 상기 사용자 단말에 전송하는 단계는 상기 독음 데이터의 시간 길이를 확인하는 단계; 상기 확인된 시간 길이를 기 획득된 독음 데이터의 시간 길이에 누적하여 누적 시간 길이를 산출하는 단계; 및 상기 누적 시간 길이 및 목표 시간 길이를 포함하는 상기 음성 데이터 수집 현황을 생성하는 단계;를 포함할 수 있다.
상기 유효성을 검증하는 단계는 학습된 제2 인공 신경망을 이용하여 상기 독음 데이터로부터 상기 제2 텍스트 데이터를 생성하는 단계; 상기 제1 텍스트 데이터와 상기 제2 텍스트 데이터의 유사도를 산출하는 단계; 및 상기 유사도가 소정의 임계 유사도 이상인 독음 데이터를 유효한 데이터로 판정하는 단계;를 포함할 수 있다. 이때 상기 제2 인공 신경망은 입력 독음 데이터를 상기 입력 독음 데이터에 대응되는 텍스트 데이터로 변환하도록 학습된 신경망일 수 있다.
상기 판정하는 단계는 상기 유사도가 상기 소정의 임계 유사도 미만인 독음 데이터를 판단 보류 독음 데이터로 결정하는 단계;를 포함할 수 있다. 이때 본 발명의 일 실시예에 따른 음성 데이터 수집 방법은 상기 학습 데이터로 저장하는 단계 이후에, 상기 판단 보류 독음 데이터를 상기 판단 보류 독음 데이터에 대응되는 제1 텍스트 데이터와 함께 관리자 단말에 전송하고, 상기 관리자 단말로부터 유효성 판단 결과를 수신하는 단계;를 더 포함할 수 있다.
본 발명의 일 실시예에 따른 음성 데이터 수집 방법은, 상기 유효성 판단 결과를 수신하는 단계 이후에, 상기 유효성 판단 결과 유효하지 않은 것으로 판단되는 독음 데이터에 대응되는 제1 텍스트 데이터를 상기 사용자 단말에 전송하여 상기 제1 텍스트 데이터에 대한 재독음 데이터를 수신하는 단계;를 더 포함할 수 있다.
상기 제1 데이터를 사용자 단말에 전송하는 단계는 상기 사용자 단말에서 상기 제1 텍스트가 표시되는 크기를 제어하는 폰트 크기 제어 신호를 포함할 수 있다.
본 발명의 일 실시예에 따른 음성 데이터 수집 방법은 상기 학습 데이터로 저장하는 단계 이후에, 상기 학습 데이터를 이용하여 입력 텍스트 데이터를 상기 입력 텍스트 데이터에 대응되는 음성 데이터로 변환하는 제1 인공 신경망을 학습시키는 단계; 및 입력 독음 데이터를 상기 입력 독음 데이터에 대응되는 텍스트 데이터로 변환하는 제2 인공 신경망을 학습시키는 단계;를 더 포함할 수 있다.
본 발명에 따르면 고령자의 케어에 보다 적합한 휴먼케어 로봇을 구현할 수 있다.
특히 본 발명에 따르면 고령자로부터 인공 신경망의 학습을 위한 독음 데이터를 수집함으로써, 인공 신경망의 부합도를 향상시킬 수 있다.
또한 본 발명에 따르면 고령자도 쉽게 조작할 수 있는 형태로 인공 신경망의 학습을 위한 텍스트를 고령자에게 제공함으로써, 고령자에 적합한 학습 데이터를 용이하게 획득할 수 있다.
또한 본 발명에 따르면 학습된 인공신경망을 이용하여 수집된 데이터의 유효성을 판단함으로써, 데이터의 수집 과정에 있어서 인간의 개입을 최소화할 수 있다.
또한 본 발명에 따르면 유효지 않은 것으로 판단되는 데이터들을 관리자에게 별도로 제공하여, 데이터의 수집에 있어서 인간의 개입을 최소화하면서도, 높은 품질을 유지할 수 있도록 한다.
도 1은 본 발명의 일 실시예에 따른 고령자를 위한 휴먼케어 로봇의 인공 신경망 학습 시스템의 구성을 개략적으로 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 서버(100)에 구비되는 음성 데이터 수집 장치(110)의 구성을 개략적으로 도시한 도면이다.
도 3 및 도 4는 음성 데이터 수집 장치(110)를 포함하는 서버(100)에 의해 수행되는 음성 데이터 수집 방법을 설명하기 위한 흐름도이다.
도 5는 본 발명의 일 실시예에 따른 사용자 단말(200)에 제1 텍스트 데이터가 표시된 화면(500)의 예시이다.
도 6은 관리자 단말(300)에 표시되는 예시적인 화면(600)을 도시한 도면이다.
본 발명의 일 실시예에 따른 고령자를 위한 휴먼케어 로봇의 음성 처리를 위한 인공 신경망의 학습에 사용되는 음성 데이터를 수집하는 방법은, 획득하고자 하는 음성에 대응되는 제1 텍스트 데이터를 포함하는 제1 데이터를 사용자 단말에 전송하는 단계; 상기 사용자 단말로부터 상기 제1 텍스트 데이터의 독음 데이터를 포함하는 제2 데이터를 수신하는 단계; 상기 독음 데이터로부터 생성된 제2 텍스트 데이터 및 상기 제1 텍스트 데이터를 비교하여 상기 독음 데이터의 유효성을 검증하는 단계; 및 유효한 것으로 판단된 상기 독음 데이터와 상기 제1 텍스트 데이터를 대응시켜 학습 데이터로 저장하는 단계;를 포함할 수 있다.
본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 본 발명의 효과 및 특징, 그리고 그것들을 달성하는 방법은 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 다양한 형태로 구현될 수 있다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예들을 상세히 설명하기로 하며, 도면을 참조하여 설명할 때 동일하거나 대응하는 구성 요소는 동일한 도면부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
이하의 실시예에서, 제1, 제2 등의 용어는 한정적인 의미가 아니라 하나의 구성 요소를 다른 구성 요소와 구별하는 목적으로 사용되었다. 이하의 실시예에서, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 이하의 실시예에서, 포함하다 또는 가지다 등의 용어는 명세서상에 기재된 특징, 또는 구성요소가 존재함을 의미하는 것이고, 하나 이상의 다른 특징들 또는 구성요소가 부가될 가능성을 미리 배제하는 것은 아니다. 도면에서는 설명의 편의를 위하여 구성 요소들이 그 크기가 과장 또는 축소될 수 있다. 예컨대, 도면에서 나타난 각 구성의 크기 및 형태는 설명의 편의를 위해 임의로 나타내었으므로, 본 발명이 반드시 도시된 바에 한정되지 않는다.
도 1은 본 발명의 일 실시예에 따른 고령자를 위한 휴먼케어 로봇의 인공 신경망 학습 시스템의 구성을 개략적으로 도시한 도면이다.
본 발명의 일 실시예에 따른 인공 신경망 학습 시스템은 인공 신경망의 학습 데이터 중 일부를 사용자 단말에 전송하고, 사용자 단말로부터 학습 데이터의 나머지 일부인 응답 데이터를 수신하여 완성된 학습 데이터를 생성할 수 있다. 가령 본 발명의 일 실시예에 따른 시스템은, 사용자 단말로 텍스트 데이터를 전송하고 그에 대한 응답으로 사용자가 텍스트 데이터를 독음한 독음 데이터를 수신하여 텍스트 데이터와 독음 데이터를 포함하는 학습 데이터를 생성할 수 있다. 이와 같은 인공 신경망 학습 시스템은 도 1에 도시된 바와 같이 서버(100), 사용자 단말(200), 관리자 단말(300) 및 통신망(400)을 포함할 수 있다.
본 발명의 일 실시예에 따른 사용자 단말(200) 및 관리자 단말(300)은 사용자 및 관리자 각각이 서버(100)에 의해 제공되는 다양한 서비스를 이용할 수 있도록 사람과 서버(100)를 매개하는 다양한 형태의 장치를 의미할 수 있다. 가령 사용자 단말(200)은 서버(100)로부터 수신된 텍스트 데이터를 화면에 표시하고, 사용자가 화면상에 표시된 텍스트 데이터를 독음하도록 할 수 있다. 또한 사용자의 텍스트 데이터 독음에 따라 독음 데이터를 획득하여 다시 서버(100)로 전송할 수 있다.
본 발명의 일 실시예에 따른 관리자 단말(300)은 서버(100)로부터 판단 보류 독음 데이터를 수신하여 표시 및/또는 재생하고, 이에 대한 관리자의 입력을 획득하여 서버(100)로 전송할 수 있다.
이와 같은 단말(200, 300)은 가령 도 1에 도시된 사용자 단말(200)과 같이 휴대용 단말(201, 202, 203)을 의미할 수도 있고, 컴퓨터(204)를 의미할 수도 있다.
본 발명의 일 실시예에 따른 단말(200, 300)은 상술한 기능을 수행하기 위해 콘텐츠 등을 표시하기 위한 표시수단, 이러한 콘텐츠에 대한 사용자의 입력을 획득하기 위한 입력수단을 구비할 수 있다. 이 때 입력수단 및 표시수단은 다양하게 구성될 수 있다. 가령 입력수단은 키보드, 마우스, 트랙볼, 마이크, 버튼, 터치패널 등을 포함할 수 있으나 이에 한정되지 않는다.
도 1에는 사용자 단말(200)과 관리자 단말(300)이 모두 단수개인 것으로 도시되었지만, 이와 같은 수량은 예시적인것으로 본 발명의 사상이 이에 한정되는 것은 아니다. 따라서 사용자 단말(200) 및 관리자 단말(300)은 복수일 수도 있다.
본 발명의 일 실시예에 따른 통신망(400)은 시스템의 각 구성 간의 데이터 송수신을 매개하는 통신망을 의미할 수 있다. 가령 통신망(400)은 LANs(Local Area Networks), WANs(Wide Area Networks), MANs(Metropolitan Area Networks), ISDNs(Integrated Service Digital Networks) 등의 유선 네트워크나, 무선 LANs, CDMA, 블루투스, 위성 통신 등의 무선 네트워크를 망라할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.
본 발명의 일 실시예에 따른 서버(100)는 인공 신경망의 학습 데이터 중 일부를 사용자 단말(200)에 전송하고, 사용자 단말(200)로부터 학습 데이터의 나머지 일부인 응답 데이터를 수신하여 완성된 학습 데이터를 생성할 수 있다. 가령 본 발명의 일 실시예에 따른 서버(100)는 사용자 단말(200)로 텍스트 데이터를 전송하고 그에 대한 응답으로 사용자가 텍스트 데이터를 독음한 독음 데이터를 수신하여 텍스트 데이터와 독음 데이터를 포함하는 학습 데이터를 생성할 수 있다.
또한 본 발명의 일 실시예에 따른 서버(100)는 관리자의 확인이 필요한 판단 보류 독음 데이터를 관리자 단말(300)에 전송하고, 관리자 단말(300)로부터 판단 보류 독음 데이터에 대한 유효성 판단 결과를 수신할 수도 있다.
도 2는 본 발명의 일 실시예에 따른 서버(100)에 구비되는 음성 데이터 수집 장치(110)의 구성을 개략적으로 도시한 도면이다. 도 2를 참조하면, 본 발명의 일 실시예에 따른 음성 데이터 수집 장치(110)는 통신부(111), 제어부(112) 및 메모리(113)를 포함할 수 있다. 또한 도면에는 도시되지 않았으나, 본 실시예에 따른 음성 데이터 수집 장치(110)는 입/출력부, 프로그램 저장부 등을 더 포함할 수 있다.
통신부(111)는 음성 데이터 수집 장치(110)가 단말(200, 300)과 같은 다른 네트워크 장치와 유무선 연결을 통해 제어 신호 또는 데이터 신호와 같은 신호를 송수신하기 위해 필요한 하드웨어 및 소프트웨어를 포함하는 장치일 수 있다.
제어부(112)는 프로세서(Processor)와 같이 데이터를 처리할 수 있는 모든 종류의 장치를 포함할 수 있다. 여기서, '프로세서(Processor)'는, 예를 들어 프로그램 내에 포함된 코드 또는 명령으로 표현된 기능을 수행하기 위해 물리적으로 구조화된 회로를 갖는, 하드웨어에 내장된 데이터 처리 장치를 의미할 수 있다. 이와 같이 하드웨어에 내장된 데이터 처리 장치의 일 예로써, 마이크로프로세서(Microprocessor), 중앙처리장치(Central Processing Unit: CPU), 프로세서 코어(Processor Core), 멀티프로세서(Multiprocessor), ASIC(Application-Specific Integrated Circuit), FPGA(Field Programmable Gate Array) 등의 처리 장치를 망라할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.
메모리(113)는 음성 데이터 수집 장치(110)가 처리하는 데이터를 일시적 또는 영구적으로 저장하는 기능을 수행한다. 메모리는 자기 저장 매체(Magnetic Storage Media) 또는 플래시 저장 매체(Flash Storage Media)를 포함할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다. 가령 메모리(113)는 생성된 학습 데이터를 일시적 및/또는 영구적으로 저장할 수 있다.
이하에서는 도 3 내지 도 4를 함께 참조하여 음성 데이터 수집 장치(110)를 포함하는 서버(100)에 의해 수행되는 음성 데이터 수집 방법을 중심으로 설명한다.
본 발명의 일 실시예에 따른 서버(100)는 제1 텍스트 데이터를 포함하는 제1 데이터를 사용자 단말(200)에 전송할 수 있다.(S310) 이때 제1 텍스트 데이터는 음성(또는 사용자의 독음)을 획득하고자 하는 텍스트 데이터일 수 있다. 가령 서버는 "안녕하세요"를 포함하는 제1 데이터를 사용자 단말(200)에 전송할 수 있다.
선택적 실시예에서, 단계 S310에서 전송되는 제1 데이터는 제1 텍스트 데이터를 음성으로 변환한 음성 데이터를 더 포함할 수 있다. 이때 음성 데이터는 다양한 방식으로 서버(100)에 의해 생성된 것 일 수 있다. 가령 서버(100)는 입력 텍스트를 입력 텍스트에 대응되는 음성 데이터로 변환하도록 학습된 제1 인공 신경망을 이용하여 제1 텍스트 데이터로부터 음성 데이터를 생성할 수 있다. 물론 서버(100)는 다른 사용자나 관리자가 제1 텍스트 데이터를 독음한 데이터에 기초하여 음성 데이터를 생성할 수도 있다.
선택적 실시예에서, 단계 S310에서 전송되는 제1 데이터는 사용자 단말(200)에서 제1 텍스트 데이터가 표시되는 크기를 제어하는 폰트 크기 제어 신호를 더 포함할 수도 있다. 가령 제1 데이터는 제1 텍스트 데이터가 30포인트 이상으로 표시되도록 제어하는 폰트 크기 제어 신호를 포함할 수 있다.
본 발명의 일 실시예에 따른 사용자 단말(200)은 단계 S310에서 서버(100)로부터 수신한 제1 데이터를 사용자에게 제공할 수 있다. 또한 사용자 단말(200)은 제1 텍스트 데이터의 독음 데이터를 생성할 수도 있다.(S320)
도 5는 본 발명의 일 실시예에 따른 사용자 단말(200)에 제1 텍스트 데이터가 표시된 화면(500)의 예시이다.
도 5를 참조하면, 화면(500)은 진행중인 작업의 식별정보가 표시되는 영역(510), 제1 텍스트 데이터에 대한 음성 데이터를 청취하기 위한 인터페이스(520), 제1 텍스트 데이터의 표시 영역(530), 음성 데이터 수집 현황 표시 영역(540), 독음 시작을 위한 인터페이스(550) 및 안내사항이 표시되는 영역(560)을 포함할 수 있다.
본 발명의 일 실시예에서, 사용자 단말(200)은 화면(500)의 영역(530)상에 제1 텍스트 데이터를 표시하여 사용자가 독음하도록 할 수 있다. 이때 사용자 단말(200)은 제1 데이터에 포함된 폰트 크기 제어 신호에 따라 제1 텍스트 데이터에 따라 표시되는 텍스트의 크기를 조절할 수 있다.
또한 본 발명의 일 실시예에서, 사용자 단말(200)은 인터페이스(520)에 대한 사용자의 입력을 획득하여, 사용자에게 음성 데이터를 제공할 수 있다. 가령 사용자는 녹음의 시작 이전에 인터페이스(520)에 대한 입력을 수행하여, 자신이 읽어야 하는 텍스트에 대한 예제 음성을 들어볼 수 있다. 이와 같은 과정에 따라 시력에 문제가 있거나, 문자를 읽지 못하는 사용자로부터도 독음 데이터를 획득할 수 있다.
사용자는 영역(530)에 표시되는 제1 텍스트 데이터 및/또는 인터페이스(520)에 대한 입력에 따라 제공되는 음성 데이터를 참조하여, 제1 텍스트에 대한 독음 데이터를 생성할 수 있다. 가령 사용자는 독음 시작을 위한 인터페이스(550)에 대한 입력을 수행하여 녹음을 시작하고, 텍스트를 읽음으로써 독음 데이터를 생성할 수 있다.
한편 사용자는 독음 데이터를 생성함에 있어서 안내사항이 표시되는 영역(560)상에 표시되는 안내사항을 참조하여 독음 데이터를 생성할 수도 있다.
본 발명의 일 실시예에 따른 사용자 단말(200)은 전술한 과정에 따라 생성된 독음 데이터를 포함하는 제2 데이터를 서버(100)로 전송할 수 있다. 바꾸어말하면, 본 발명의 일 실시예에 따른 서버(100)는 사용자 단말(200)로부터 제1 텍스트 데이터의 독음 데이터를 포함하는 제2 데이터를 수신할 수 있다.(S330)
선택적 실시예에서, 제2 데이터는 사용자 단말(200)을 사용하는 사용자에 대한 메타 데이터를 더 포함할 수 있다. 이때 메타 데이터는 사용자의 연령, 사용자의 성별, 사용자의 거주 지역, 사용자의 교육 정도와 같이 사용자의 특성을 나타낼 수 있는 다양한 항목이 포함할 수 있다.
본 발명의 일 실시예에 따른 서버(100)는 단계 S330에서 수신된 독음 데이터의 유효성을 검증할 수 있다.(S340) 가령 서버(100)는 독음 데이터로부터 생성된 제2 텍스트 데이터와 제1 텍스트 데이터를 비교하는 방식으로 독음 데이터의 유효성을 검증할 수 있다.
본 발명의 일 실시예에서, 서버(100)는 학습된 제2 인공 신경망을 이용하여 독음 데이터로부터 제2 텍스트 데이터를 생성할 수 있다. 이때 제2 인공 신경망은 입력 독음 데이터를 입력 독음 데이터에 대응되는 텍스트 데이터로 변환하도록 학습된 신경망일 수 있다.
또한 본 발명의 일 실시예에 따른 서버(100)는 제1 텍스트 데이터와 제2 텍스트 데이터의 유사도를 산출하고, 산출된 유사도가 소정의 임계 유사도 이상인 독음 데이터를 유효한 데이터로 판정할 수 있다.
가령 제1 텍스트 데이터가 도 5에 도시된 바와 같이 "나 고혈압 예방하게 운동 추천해줄래요?"이고, 제2 인공 신경망에 의해 생성된 제2 텍스트가 "라 고혈안 내방하게 운동 추천해줄라요?"인 경우를 가정해보자. 이러한 경우 서버(100)는 두 텍스트 데이터 간의 유사도를 47%로 산출하고, 산출된 유사도가 임계 유사도(임계유사도를 80%라고 가정한다) 미만이므로, 독음 데이터를 유효하지 않은 데이터로 판정할 수 있다.
본 발명의 일 실시예에서, 서버(100)는 다양한 방식으로 두 텍스트 데이터 간의 유사도를 산출할 수 있다. 가령 서버(100)는 각각의 텍스트에 대한 특징 벡터를 생성하고, 생성된 벡터간의 거리에 기초하여 유사도를 산출할 수 있다. 다만 이와 같은 방법은 예시적인것으로 본 발명의 사상이 이에 한정되는 것은 아니다.
본 발명의 일 실시예에 따른 서버(100)는 단계 S340에서 독음 데이터가 유효하지 않은 것으로 판단된 경우, 해당 독음 데이터를 판단 보류 독음 데이터로 결정할 수 있다.(S370) 서버(100)가 판단 보류 독음 데이터를 처리하는 구체적인 방법은 단계 S390 및 S400을 참조하여 후술한다.
본 발명의 일 실시예에 따른 서버(100)는 단계 S340에서 독음 데이터가 유효한 것으로 판단된 경우, 독음 데이터와 제1 텍스트 데이터를 대응시켜 학습 데이터로 저장할 수 있다.(S350)
선택적 실시예에서, 서버(100)는 독음 데이터 및 제1 텍스트 데이터 외에, 사용자 단말(200)의 사용자의 메타 데이터를 함께 대응시켜 학습 데이터로 저장할 수도 있다. 이때 메타 데이터는 전술한 단계 S330에서 수신되는 제2 데이터에 포함된 데이터 일 수 있다.
본 발명의 일 실시예에 따른 서버(100)는 단계 S350에서 생성된 학습 데이터를 고려하여, 갱신된 음성 데이터 수집 현황 갱신하고(S360), 갱신된 음성 데이터 수집 현황을 사용자 단말(200)에 전송할 수 있다.(S380)
본 발명의 일 실시예에 따른 서버(100)는 학습 데이터에 포함되는 독음 데이터의 시간 길이를 확인할 수 있다. 가령 서버(100)는 "안녕하세요"에 대한 독음 데이터의 시간 길이를 1초로 확인할 수 있다.
본 발명의 일 실시예에 따른 서버(100)는 기 획득된 독음 데이터의 시간 길이에 누적하여 누적 시간 길이를 산출할 수 있다. 가령 사용자 단말(200)의 사용자가 과거에 수행했던 독음 데이터의 총 시간 길이가 3시간 20분 50초인 경우, 서버(100)는 이와 같은 총 시간 길이에 1초를 누적하여 3시간 20분 51초를 누적 시간 길이로 산출할 수 있다.
본 발명의 일 실시예에서, 서버(100)는 사용자 별로 누적 시간 길이를 누적하여 관리할 수 있다.
선택적 실시예에서, 서버(100)는 시간 길이가 아닌 독음 건수로 음성 데이터 수집 현황을 관리할 수도 있다. 이러한 경우 서버(100)는 '300건 중 230건 진행'과 같이 음성 데이터 수집 현황을 관리할 수 있다.
사용자 단말(200)에 전송된 음성 데이터 수집 현황은 사용자에게 제공될 수 있다. 가령 사용자 단말(200)은 도 5의 음성 데이터 수집 현황 표시 영역(540)에 음성 데이터 수집 현황을 표시하여 사용자에게 제공할 수 있다.
본 발명의 일 실시예에 따른 서버(100)는 단계 S370에서 결정된 판단 보류 독음 데이터를 관리자 단말(300)에 전송할 수 있다.(S390)
관리자 단말(300)은 서버(100)로부터 수신된 판단 보류 독음 데이터를 관리자에게 제공하고, 관리자의 유효성 판단 결과에 대응되는 입력을 획득하여 다시 서버로 전송할 수 있다. 이에 따라 서버(100)는 관리자 단말(300)로부터 판단 보류 독음 데이터에 대한 유효성 판단 결과를 수신할 수 있다.(S400)
도 6은 관리자 단말(300)에 표시되는 예시적인 화면(600)을 도시한 도면이다.
도 6을 참조하면, 화면(600)은 관리자의 식별 정보가 표시되는 영역(610), 판단 보류 독음 데이터 리스트가 표시되는 영역(620)을 포함할 수 있다.
한편 리스트가 표시되는 영역(620)에 표시되는 리스트는 사용자의 독음 데이터로부터 생성된 제2 텍스트 데이터 항목(621), 독음 데이터 항목(622), 유사도 항목(623) 및 판정 항목(624)을 포함할 수 있다.
관리자는 가령 제2 텍스트 데이터 항목(621)을 읽어보고, 독음 데이터 항목(622)을 청취해봄으로써 해당 판단 보류 독음 데이터에 대 유효성 판단을 수행할 수 있다. 또한 관리자는 첫 번째 판단 보류 독음 데이터에 대한 판정 항목(624)에서 '사용'에 대한 입력을 수행함으로써 해당 데이터가 유효한 것으로 판정할 수도 있고, '재녹음'에 대한 입력을 수행함으로써 해당 데이터가 유효하지 않으며 재녹음이 필요한 것으로 판정할 수도 있다.
이와 같이 본 발명은 음성 데이터의 수집에 있어서 인간의 개입을 최소화하면서도, 높은 품질을 유지할 수 있도록 한다.
본 발명의 일 실시예에 따른 서버(100)는 단계 S400에서 수신된 판단 결과에 기초하여, 해당 판단 보류 독음 데이터가 유효성을 판단할 수 있다.(S410)
가령 단계 S400에서 판단 보류 독음 데이터가 유효하다는 관리자의 판단을 관리자 단말(300)로부터 수신한 경우, 서버(100)는 해당 판단 보류 데이터를 유효한 것으로 판단할 수 있다. 물론 판단 보류 독음 데이터가 유효하지 않고 재녹음이 필요하다는 관리자의 판단을 수신한 경우, 서버(100)는 해당 판단 보류 데이터를 유효하지 않은 것으로 판단할 수 있다.
본 발명의 일 실시예에 따른 서버(100)는 단계 S410에서 유효하지 않은 것으로 판단된 판단 보류 독음 데이터에 대응되는 제1 텍스트 데이터를 포함하는 제1 데이터를 다시 사용자 단말(200)에 전송하고(S420), 사용자 단말(200)로부터 제1 텍스트 데이터에 대한 재독음 데이터를 수신할 수 있다.(S430)
사용자 단말(200)에 텍스트 데이터를 전송하고, 사용자 단말(200)로부터 독음 데이터를 수신하는 내용에 대한 설명은 단계 S310 내지 S330에 대한 설명으로 갈음한다.
선택적 실시예에서, 서버(100)는 단계 S420에서 사용자 단말(200)에 전송되는 제1 데이터에 제1 텍스트 데이터가 재독음 텍스트라는 안내 메시지를 포함시킬 수 있다. 이러한 경우 사용자 단말(200)은 사용자에게 재독음 텍스트 안내 메시지를 제공할 수 있다.
본 발명의 일 실시예에 따른 서버(100)는 단계 S430에서 수신한 재독음 데이터 또는 단계 S410에서 유효한 것으로 판단된 독음 데이터와 제1 텍스트 데이터를 대응시켜 학습 데이터로 저장할 수 있다.(S440)
가령 서버(100)는 단계 S410에서 유효한 것으로 판단된 독음 데이터와 그에 대한 제1 텍스트 데이터를 대응시켜 학습 데이터로 저장할 수도 있다. 또한 서버(100)는 단계 S430에서 수산한 재독음 데이터 및 그에 대한 제1 텍스트 데이터를 대응시켜 학습 데이터로 저장할 수도 있다.
이어서 본 발명의 일 실시예에 따른 서버(100)는 음성 데이터 수집 현황을 갱신하고(S450), 갱신된 음성 데이터 수집 현황을 사용자 단말(200)에 전송할 수 있다.(S460) 이에 대한 상세한 설명은 단계 S360 및 S380에 대한 설명으로 갈음한다.
본 발명의 일 실시예에 따른 서버(100)는 상술한 과정에 의해 생성된 학습 데이터를 이용하여, 고령자를 위한 휴먼케어 로봇의 음성 처리를 위한 인공 신경망을 학습시킬 수 있다.
본 발명의 일 실시예에서 서버(100)는 입력 텍스트 데이터를 입력 텍스트 데이터에 대응되는 음성 데이터로 변환하는 제1 인공 신경망을 학습시킬 수 있다. 또한 서버(100)는 입력 독음 데이터를 입력 독음 데이터에 대응되는 텍스트 데이터로 변환하는 제2 인공 신경망을 학습시킬 수도 있다.
이때 제1 인공 신경망은 단계 S310에서 제1 텍스트 데이터와 함께 전송되는 음성 데이터를 생성하는 신경망과 동일한 신경망일 수도 있고, 구분되는 신경망일 수도 있다.
또한 제2 인공 신경망은 단계 S340에서 제1 텍스트 데이터의 유효성을 판단하는데 사용되는 제2 텍스트 데이터를 생성하는 신경망과 동일한 신경망일 수도 있고, 구분되는 신경망일 수도 있다.
이상 설명된 본 발명에 따른 실시예는 컴퓨터 상에서 다양한 구성요소를 통하여 실행될 수 있는 컴퓨터 프로그램의 형태로 구현될 수 있으며, 이와 같은 컴퓨터 프로그램은 컴퓨터로 판독 가능한 매체에 기록될 수 있다. 이때, 매체는 컴퓨터로 실행 가능한 프로그램을 저장하는 것일 수 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다.
한편, 상기 컴퓨터 프로그램은 본 발명을 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수 있다. 컴퓨터 프로그램의 예에는, 컴파일러에 의하여 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함될 수 있다.
본 발명에서 설명하는 특정 실행들은 일 실시 예들로서, 어떠한 방법으로도 본 발명의 범위를 한정하는 것은 아니다. 명세서의 간결함을 위하여, 종래 전자적인 구성들, 제어 시스템들, 소프트웨어, 상기 시스템들의 다른 기능적인 측면들의 기재는 생략될 수 있다. 또한, 도면에 도시된 구성 요소들 간의 선들의 연결 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것으로서, 실제 장치에서는 대체 가능하거나 추가의 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들로서 나타내어질 수 있다. 또한, "필수적인", "중요하게" 등과 같이 구체적인 언급이 없다면 본 발명의 적용을 위하여 반드시 필요한 구성 요소가 아닐 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.

Claims (10)

  1. 고령자를 위한 휴먼케어 로봇의 음성 처리를 위한 인공 신경망의 학습에 사용되는 음성 데이터를 수집하는 방법에 있어서
    획득하고자 하는 음성에 대응되는 제1 텍스트 데이터를 포함하는 제1 데이터를 사용자 단말에 전송하는 단계;
    상기 사용자 단말로부터 상기 제1 텍스트 데이터의 독음 데이터를 포함하는 제2 데이터를 수신하는 단계;
    상기 독음 데이터로부터 생성된 제2 텍스트 데이터 및 상기 제1 텍스트 데이터를 비교하여 상기 독음 데이터의 유효성을 검증하는 단계; 및
    유효한 것으로 판단된 상기 독음 데이터와 상기 제1 텍스트 데이터를 대응시켜 학습 데이터로 저장하는 단계;를 포함하는, 음성 데이터 수집 방법.
  2. 청구항 1에 있어서
    상기 제1 데이터는
    학습된 제1 인공 신경망을 이용하여 상기 제1 텍스트 데이터를 음성으로 변환한 음성 데이터를 더 포함하고,
    상기 사용자 단말은
    상기 제1 텍스트 데이터 및 상기 음성 데이터 중 적어도 하나를 사용자에게 제공하고,
    상기 제1 인공 신경망은
    입력 텍스트 데이터를 상기 입력 텍스트 데이터에 대응되는 음성 데이터로 변환하도록 학습된 신경망인, 음성 데이터 수집 방법.
  3. 청구항 1에 있어서
    상기 제2 데이터는
    상기 사용자 단말을 사용하는 사용자에 대한 메타 데이터를 더 포함하고,
    상기 대응시켜 저장하는 단계는
    상기 유효한 것으로 판단된 상기 독음 데이터, 상기 제1 텍스트 데이터 및 상기 메타 데이터를 대응시켜 저장하는, 음성 데이터 수집 방법.
  4. 청구항 1에 있어서
    상기 음성 데이터 수집 방법은
    상기 학습 데이터로 저장하는 단계 이후에,
    갱신된 음성 데이터 수집 현황을 상기 사용자 단말에 전송하는 단계;를 더 포함하는, 음성 데이터 수집 방법.
  5. 청구항 4에 있어서
    상기 갱신된 음성 데이터 수집 현황을 상기 사용자 단말에 전송하는 단계는
    상기 독음 데이터의 시간 길이를 확인하는 단계;
    상기 확인된 시간 길이를 기 획득된 독음 데이터의 시간 길이에 누적하여 누적 시간 길이를 산출하는 단계; 및
    상기 누적 시간 길이 및 목표 시간 길이를 포함하는 상기 음성 데이터 수집 현황을 생성하는 단계;를 포함하는, 음성 데이터 수집 방법.
  6. 청구항 1에 있어서
    상기 유효성을 검증하는 단계는
    학습된 제2 인공 신경망을 이용하여 상기 독음 데이터로부터 상기 제2 텍스트 데이터를 생성하는 단계;
    상기 제1 텍스트 데이터와 상기 제2 텍스트 데이터의 유사도를 산출하는 단계; 및
    상기 유사도가 소정의 임계 유사도 이상인 독음 데이터를 유효한 데이터로 판정하는 단계;를 포함하고,
    상기 제2 인공 신경망은
    입력 독음 데이터를 상기 입력 독음 데이터에 대응되는 텍스트 데이터로 변환하도록 학습된 신경망인, 음성 데이터 수집 방법.
  7. 청구항 6에 있어서
    상기 판정하는 단계는
    상기 유사도가 상기 소정의 임계 유사도 미만인 독음 데이터를 판단 보류 독음 데이터로 결정하는 단계;를 포함하고,
    상기 음성 데이터 수집 방법은
    상기 학습 데이터로 저장하는 단계 이후에,
    상기 판단 보류 독음 데이터를 상기 판단 보류 독음 데이터에 대응되는 제1 텍스트 데이터와 함께 관리자 단말에 전송하고, 상기 관리자 단말로부터 유효성 판단 결과를 수신하는 단계;를 더 포함하는, 음성 데이터 수집 방법.
  8. 청구항 7에 있어서
    상기 음성 데이터 수집 방법은
    상기 유효성 판단 결과를 수신하는 단계 이후에,
    상기 유효성 판단 결과 유효하지 않은 것으로 판단되는 독음 데이터에 대응되는 제1 텍스트 데이터를 상기 사용자 단말에 전송하여 상기 제1 텍스트 데이터에 대한 재독음 데이터를 수신하는 단계;를 더 포함하는, 음성 데이터 수집 방법.
  9. 청구항 1에 있어서
    상기 제1 데이터를 사용자 단말에 전송하는 단계는
    상기 사용자 단말에서 상기 제1 텍스트가 표시되는 크기를 제어하는 폰트 크기 제어 신호를 포함하는, 음성 데이터 수집 방법.
  10. 청구항 1에 있어서
    상기 음성 데이터 수집 방법은
    상기 학습 데이터로 저장하는 단계 이후에,
    상기 학습 데이터를 이용하여
    입력 텍스트 데이터를 상기 입력 텍스트 데이터에 대응되는 음성 데이터로 변환하는 제1 인공 신경망을 학습시키는 단계; 및
    입력 독음 데이터를 상기 입력 독음 데이터에 대응되는 텍스트 데이터로 변환하는 제2 인공 신경망을 학습시키는 단계;를 더 포함하는, 음성 데이터 수집 방법.
PCT/KR2019/018759 2019-12-23 2019-12-31 고령자를 위한 휴먼케어 로봇의 학습 데이터 처리 시스템 WO2021132786A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2019-0173476 2019-12-23
KR1020190173476A KR102330811B1 (ko) 2019-12-23 2019-12-23 고령자를 위한 휴먼케어 로봇의 학습 데이터 처리 시스템

Publications (1)

Publication Number Publication Date
WO2021132786A1 true WO2021132786A1 (ko) 2021-07-01

Family

ID=76574820

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/018759 WO2021132786A1 (ko) 2019-12-23 2019-12-31 고령자를 위한 휴먼케어 로봇의 학습 데이터 처리 시스템

Country Status (2)

Country Link
KR (1) KR102330811B1 (ko)
WO (1) WO2021132786A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19990009682A (ko) * 1997-07-11 1999-02-05 김유승 화자인식 원격 클라이언트 계정 검증 시스템 및 화자검증방법
US9984679B2 (en) * 2011-05-09 2018-05-29 Nuance Communications, Inc. System and method for optimizing speech recognition and natural language parameters with user feedback
KR101901920B1 (ko) * 2018-03-07 2018-11-14 주식회사 아크로노드 인공지능 음성인식 딥러닝을 위한 음성 및 텍스트 간 역전사 서비스 제공 시스템 및 방법
KR20190085882A (ko) * 2018-01-11 2019-07-19 네오사피엔스 주식회사 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체
KR20190087353A (ko) * 2019-07-05 2019-07-24 엘지전자 주식회사 음성 인식 검증 장치 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19990009682A (ko) * 1997-07-11 1999-02-05 김유승 화자인식 원격 클라이언트 계정 검증 시스템 및 화자검증방법
US9984679B2 (en) * 2011-05-09 2018-05-29 Nuance Communications, Inc. System and method for optimizing speech recognition and natural language parameters with user feedback
KR20190085882A (ko) * 2018-01-11 2019-07-19 네오사피엔스 주식회사 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체
KR101901920B1 (ko) * 2018-03-07 2018-11-14 주식회사 아크로노드 인공지능 음성인식 딥러닝을 위한 음성 및 텍스트 간 역전사 서비스 제공 시스템 및 방법
KR20190087353A (ko) * 2019-07-05 2019-07-24 엘지전자 주식회사 음성 인식 검증 장치 및 방법

Also Published As

Publication number Publication date
KR102330811B1 (ko) 2021-11-25
KR20210081186A (ko) 2021-07-01

Similar Documents

Publication Publication Date Title
WO2020034526A1 (zh) 保险录音的质检方法、装置、设备和计算机存储介质
WO2016006727A1 (ko) 인지기능 검사 장치 및 방법
WO2018128238A1 (ko) 디스플레이 장치를 이용한 가상 상담 시스템 및 방법
WO2015008931A1 (ko) 감정 분석을 통한 선호 음원 관리 장치 및 방법
WO2015046945A1 (ko) 다감각정보를 이용한 정서 인지능력 검사 시스템 및 방법, 다감각정보를 이용한 정서 인지 훈련 시스템 및 방법
WO2016060296A1 (ko) 음향 정보 녹음 장치 및 그 제어 방법
WO2022186528A1 (ko) 비대면 방식의 정신 장애 진료 시스템 및 방법
WO2015133713A1 (en) Voice synthesis apparaatus and method for synthesizing voice
WO2020196977A1 (ko) 사용자 페르소나를 고려한 대화형 에이전트 장치 및 방법
WO2019078507A1 (en) ELECTRONIC DEVICE AND METHOD FOR PROVIDING A STRESS INDEX CORRESPONDING TO THE ACTIVITY OF A USER
WO2022080774A1 (ko) 말 장애 평가 장치, 방법 및 프로그램
WO2021002649A1 (ko) 개별 화자 별 음성 생성 방법 및 컴퓨터 프로그램
WO2020111637A1 (ko) 몰입도 운용 방법 및 이를 지원하는 전자 장치
WO2020213785A1 (ko) 발화 패턴의 무한성 개선을 위한 딥러닝 기반의 텍스트 문장 자동 생성시스템
WO2021132786A1 (ko) 고령자를 위한 휴먼케어 로봇의 학습 데이터 처리 시스템
CN111933137B (zh) 语音唤醒测试方法及装置、计算机可读介质和电子设备
EP2859720A1 (en) Method for processing audio signal and audio signal processing apparatus adopting the same
EP3555883A1 (en) Security enhanced speech recognition method and device
WO2022050459A1 (en) Method, electronic device and system for generating record of telemedicine service
WO2022154217A1 (ko) 음성 장애 환자를 위한 음성 자가 훈련 방법 및 사용자 단말 장치
WO2022065537A1 (ko) 자막 동기화를 제공하는 영상 재생 장치 및 그 동작 방법
WO2022203123A1 (ko) 캐릭터를 활용한 인공지능 자연어 처리 기반의 화상교육 콘텐츠 제공 방법 및 장치
WO2021096279A1 (ko) 내시경 검사 중 병변이 발견된 위치에서의 데이터 입력 방법 및 상기 데이터 입력 방법을 수행하는 컴퓨팅 장치
WO2020204357A1 (ko) 전자 장치 및 이의 제어 방법
WO2011068306A2 (ko) 멀티미디어 재생 시스템, 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19957667

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19957667

Country of ref document: EP

Kind code of ref document: A1

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 23.01.2023)

122 Ep: pct application non-entry in european phase

Ref document number: 19957667

Country of ref document: EP

Kind code of ref document: A1