WO2022092440A1 - 전자 장치 및 그 제어 방법 - Google Patents

전자 장치 및 그 제어 방법 Download PDF

Info

Publication number
WO2022092440A1
WO2022092440A1 PCT/KR2020/018985 KR2020018985W WO2022092440A1 WO 2022092440 A1 WO2022092440 A1 WO 2022092440A1 KR 2020018985 W KR2020018985 W KR 2020018985W WO 2022092440 A1 WO2022092440 A1 WO 2022092440A1
Authority
WO
WIPO (PCT)
Prior art keywords
text
neural network
audio signal
audio
network model
Prior art date
Application number
PCT/KR2020/018985
Other languages
English (en)
French (fr)
Inventor
이강욱
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to US17/422,020 priority Critical patent/US11875816B2/en
Publication of WO2022092440A1 publication Critical patent/WO2022092440A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Definitions

  • the present disclosure relates to an electronic device and a method for controlling the same, and more particularly, to an electronic device for obtaining output data through a neural network model and a method for controlling the same.
  • ASR automatic speech recognition
  • TTS text to speech
  • DNN deep neural network
  • the ASR function is a function of converting an audio signal into text and outputting it, and may be referred to as speech to text (STT).
  • STT speech to text
  • the TTS function is a function of converting text into an audio signal and outputting the text.
  • the conventional neural network model performs learning to output an appropriate text to the input audio signal, and performs learning to output an appropriate audio signal to the input text in order to execute the TTS function.
  • the conventional neural network model outputs 'tomb' that is phonetically similar to 'Tom' as an output for the user's voice.
  • the conventional neural network model outputs an audio signal for 'tomb' after text correction there was
  • the present disclosure has been devised to solve the above-described problems, and an object of the present disclosure is to train a neural network model using text and audio signals as input data, thereby discriminating an audio signal having a voice similarity or a text having a morphological similarity. To provide an electronic device and a control method therefor.
  • an electronic device includes a memory for storing a neural network model and a processor for inputting input data into the neural network model to obtain output data, wherein the neural network model includes an input
  • the second modality is input based on a comparison of the first output data based on the first modality and the second output data based on the input second modality
  • the first modality corresponding to the first output data is output.
  • the second modality may include at least one masking element.
  • One of the first and second modalities may be text, and the other may be an audio signal.
  • the neural network model is configured to tokenize the text into a plurality of text elements, segment the audio signal into a plurality of audio elements, and mask at least one of the plurality of text elements or at least one of the plurality of audio elements.
  • the first modality includes a first text
  • the second modality includes a first audio signal
  • the neural network model comprises: the first text consisting of a plurality of tokenized text elements; and a plurality of segmented text elements. outputting a second audio signal corresponding to the first text and a second text corresponding to the first audio signal using the first audio signal masked with at least one of the audio elements as input data, and the second audio signal and when a first audio signal including the at least one masking element is input based on the comparison of the second text, the model may be trained to output the first text corresponding to the second audio signal.
  • the neural network model is based on a comparison of a plurality of audio elements included in the second audio signal and a plurality of text elements included in the second text, for a first audio signal including the at least one masking element. As an output, if it is determined that the text corresponding to the second audio signal is not output, the learning may be performed.
  • the neural network model may output a text element corresponding to the masking element through the learning.
  • the first modality comprises a first audio signal
  • the second modality comprises a first text
  • the neural network model comprises: the first audio signal comprising a plurality of segmented audio elements; and a tokenized plurality. outputting a second text corresponding to the first audio signal and a second audio signal corresponding to the first text using the first text masked with at least one of the text elements of
  • the model may be trained to output a first audio signal corresponding to the second text.
  • the neural network model is configured to output the first text including the at least one masking element based on a comparison of a plurality of text elements included in the second text and a plurality of audio elements included in the second audio signal , when it is determined that the audio signal corresponding to the second text is not output, the learning may be performed.
  • the neural network model may output an audio element corresponding to the masking element through the learning.
  • the method of controlling an electronic device includes inputting input data into a neural network model and obtaining output data for the input data through operation of the neural network model,
  • the neural network model corresponds to the first output data. It is a model trained to output the first modality, and the second modality may include at least one masking element.
  • One of the first and second modalities may be text, and the other may be an audio signal.
  • the text is tokenized into a plurality of text elements
  • the audio signal is segmented into a plurality of audio elements
  • at least one of the plurality of text elements or at least one of the plurality of audio elements is masked and input to the neural network model.
  • the first modality includes a first text
  • the second modality includes a first audio signal
  • the neural network model comprises: the first text consisting of a plurality of tokenized text elements; and a plurality of segmented text elements. outputting a second audio signal corresponding to the first text and a second text corresponding to the first audio signal using the first audio signal masked with at least one of the audio elements as input data, and the second audio signal and when a first audio signal including the at least one masking element is input based on the comparison of the second text, the model may be trained to output the first text corresponding to the second audio signal.
  • the neural network model is based on a comparison of a plurality of audio elements included in the second audio signal and a plurality of text elements included in the second text, for a first audio signal including the at least one masking element. As an output, if it is determined that the text corresponding to the second audio signal is not output, the learning may be performed.
  • the neural network model may output a text element corresponding to the masking element through the learning.
  • the first modality comprises a first audio signal
  • the second modality comprises a first text
  • the neural network model comprises: the first audio signal comprising a plurality of segmented audio elements; and a tokenized plurality. outputting a second text corresponding to the first audio signal and a second audio signal corresponding to the first text using the first text masked with at least one of the text elements of
  • the model may be trained to output a first audio signal corresponding to the second text.
  • the neural network model is configured to output the first text including the at least one masking element based on a comparison of a plurality of text elements included in the second text and a plurality of audio elements included in the second audio signal , when it is determined that the audio signal corresponding to the second text is not output, the learning may be performed.
  • the neural network model may output an audio element corresponding to the masking element through the learning.
  • an electronic device capable of distinguishing an audio signal having a phonetic similarity or a text having a morphological similarity and a control method thereof may be provided.
  • FIG. 1 is a flowchart illustrating an operation of an electronic device according to an embodiment of the present disclosure.
  • FIG. 2 is a diagram illustrating an architecture of a hardware/software module constituting an electronic device according to an embodiment of the present disclosure.
  • FIG. 3 is a view for explaining an embodiment of masking at least one audio element according to an embodiment of the present disclosure.
  • FIG. 4 is a view for explaining an embodiment of masking at least one text element according to an embodiment of the present disclosure.
  • 5 is a diagram for explaining an operation when text and audio signals that do not correspond to each other are input according to an embodiment of the present disclosure.
  • FIG. 6 is a flowchart illustrating an embodiment of providing an ASR function through a learned neural network model according to an embodiment of the present disclosure.
  • FIG. 7 is a flowchart illustrating an embodiment of providing a TTS function through a learned neural network model according to an embodiment of the present disclosure.
  • FIG. 8 is a block diagram illustrating an electronic device according to an embodiment of the present disclosure.
  • FIG. 9 is a detailed block diagram illustrating an electronic device according to an embodiment of the present disclosure.
  • FIG. 10 is a diagram for explaining a method of controlling an electronic device according to an embodiment of the present disclosure.
  • expressions such as “first,” “second,” “first,” or “second,” may modify various components regardless of order and/or importance, and convert one component to another component. It can be used to distinguish it from an element.
  • a 'module' or 'unit' is a component that performs at least one function or operation, and may be implemented as hardware or software, or a combination of hardware and software.
  • FIG. 1 is a flowchart illustrating an operation of an electronic device according to an embodiment of the present disclosure.
  • the electronic device 100 is a device for obtaining output data for input data using a neural network model.
  • the electronic device 100 includes a desktop PC, a laptop computer, a smart phone, and a tablet. It may be a PC, a server, or the like. Alternatively, the electronic device 100 may be a system itself in which a cloud computing environment is built. However, the embodiment of the electronic device 100 is not limited thereto, and the electronic device 100 may be any device as long as it is capable of calculating using an artificial intelligence model.
  • the electronic device 100 may learn the neural network model.
  • the neural network model is an artificial intelligence model including an artificial neural network, and may be learned by deep learning.
  • a neural network model is one of Deep Neural Network (DNN), Recurrent Neural Network (RNN), Convolution Neural Network (CNN), and Generative Adversarial Networks (GAN). It may include at least one.
  • the neural network model may be an automatic speech recognition model (ASR model), a text to speech model (TTS model), or a natural language processing model (NLP model), but is not necessarily limited thereto.
  • ASR model automatic speech recognition model
  • TTS model text to speech model
  • NLP model natural language processing model
  • Such a neural network model may be included in the electronic device 100 in the form of an on-device. However, this is an example, and the neural network model may be included in an external device (eg, a server) that is communicatively connected to the electronic device 100 .
  • an external device eg, a server
  • the electronic device 100 may input a plurality of modalities to the neural network model for learning the neural network model ( S1110 ).
  • the plurality of modalities may be, for example, an audio signal and text.
  • the audio signal and the text may have a corresponding (or paired) relationship with each other.
  • the electronic device 100 may input the text 'spoon' and the audio signal corresponding to the text 'spoon' as input data of the neural network model to the neural network model.
  • the electronic device 100 may store a speech transcript in which an audio signal is matched for each text.
  • the neural network model may perform pre-processing on a plurality of input modalities for learning. Specifically, when an audio signal and text are input, the neural network model divides the input audio signal into a plurality of audio elements (S1210), and tokenizes the input text into a plurality of text elements (S1220). there is.
  • the segmentation of the audio signal may be, for example, phonetic segmentation
  • the tokenization may be, for example, grapheme-based tokenization, but is not necessarily limited thereto.
  • the neural network model tokenizes the text 'spoon' in grapheme units to obtain 's', 'p', 'oo', and 'n', and the text 'spoon'
  • an audio element corresponding to 's', an audio element corresponding to 'p', an audio element corresponding to 'oo', and an audio element corresponding to 'n' by phonetic segmentation of the audio signal can be obtained.
  • the neural network model may mask at least one of the plurality of audio elements or at least one of the plurality of text elements. That is, the neural network model may replace at least one of the plurality of audio elements with a mask element or replace at least one of the plurality of text elements with a mask element.
  • the neural network model 's', 'p', 'oo', ' At least one of n' may be replaced with a mask element.
  • the neural network model includes at least one of an audio element corresponding to 's', an audio element corresponding to 'p', an audio element corresponding to 'oo', and an audio element corresponding to 'n' obtained through segmentation of an audio signal.
  • the neural network model is a neural network model (eg, a multi-modal model or a cross-modal model) in which text composed of a plurality of tokenized text elements and at least one of a plurality of segmented audio elements are masked. .) can be input to the input layer (S1300).
  • the neural network model may input an audio signal composed of a plurality of segmented audio elements and text in which at least one of the plurality of tokenized text elements is masked to an input layer of the neural network model ( S1300 ).
  • the neural network model may learn as input data a text composed of a plurality of tokenized text elements and an audio signal in which at least one of a plurality of segmented audio elements is masked.
  • the neural network model may learn as input data an audio signal composed of a plurality of segmented audio elements and a text in which at least one of a plurality of tokenized text elements is masked.
  • a text composed of a plurality of tokenized text elements (hereinafter, referred to as a first text) and an audio signal in which at least one of the plurality of segmented audio elements is masked (hereinafter, referred to as a first audio signal).
  • a first text a text composed of a plurality of tokenized text elements
  • an audio signal in which at least one of the plurality of segmented audio elements is masked hereinafter, referred to as a first audio signal.
  • the neural network model may output a second audio signal corresponding to the first text ( S1410 ) and output a second text corresponding to the first audio signal ( S1420 ) through a neural network operation.
  • the neural network model uses a plurality of text elements as input data, outputs a plurality of audio elements corresponding to the plurality of text elements through neural network operation, and at least one mask element and a plurality of unmasked audio elements (embodiment). Accordingly, an unmasked audio element may be singular) as input data, and a text element corresponding to the mask element and a plurality of text elements corresponding to a plurality of unmasked audio elements are output through neural network operation.
  • the neural network model compares the output second audio signal (which includes a plurality of audio elements) and the second text (which includes a plurality of text elements), so as to correspond to the second audio signal. It may be determined whether the second text is output ( S1500 ). Specifically, the neural network model may compare a plurality of audio elements constituting the output second audio signal and a plurality of text elements constituting the output second text. As an example, when the first to fourth audio elements are included in the second audio signal and fifth to eighth text elements are included in the second text, the neural network model determines that the fifth text element does not correspond to the first audio element. determine whether the sixth text element corresponds to the second audio element, determine whether the seventh text element corresponds to the third audio element, and determine whether the eighth text element corresponds to the fourth audio element can do.
  • the neural network model may learn the neural network model ( S1600 -N). Specifically, the neural network model may learn to output the first text corresponding to the second audio signal when the first audio signal including the above-described at least one masking element is input as input data.
  • the learning may be an operation of correcting at least one weight of a plurality of layers constituting the neural network model in order to output the first text by using the first audio signal as input data, and the calculation of the weight is performed by the electronic device ( 100) may be performed by the processor.
  • the neural network model constructs the neural network model such that the sixth text element is output as an output to the second audio element and the seventh text element is output as an output to the third audio element Learning to correct the weights of a plurality of layers may be performed.
  • the second audio element and the third audio element may be masked elements.
  • the learning may end (S1600-Y).
  • the neural network model may end the learning procedure without learning. There will be.
  • a technical idea similar to the above-described technical idea may be applied.
  • the neural network model may output a second text corresponding to the first audio signal ( S1410 ) and output a second audio signal corresponding to the first text ( S1420 ) through a neural network operation.
  • the neural network model uses a plurality of audio elements as input data, outputs a plurality of text elements corresponding to the plurality of audio elements, and outputs at least one mask element and a plurality of unmasked text elements (according to the embodiment, masking).
  • An unmasked text element may be singular) as input data, an audio element corresponding to a mask element and a plurality of audio elements corresponding to a plurality of unmasked text elements may be output.
  • the neural network model compares the output second text (which includes a plurality of text elements) and a second audio signal (which includes a plurality of audio elements) to obtain a second text corresponding to the second text. 2 It may be determined whether an audio signal is output (S1500). Specifically, the neural network model may compare a plurality of text elements constituting the output second text and a plurality of audio elements constituting the output second audio signal. For example, when the first to fourth audio elements are included in the second audio signal and fifth to eighth text elements are included in the second text, the neural network model determines that the first audio element does not correspond to the fifth text element. determine whether the second audio element corresponds to the sixth text element, determine whether the third audio element corresponds to the seventh text element, and determine whether the fourth audio element corresponds to the eighth text element can do.
  • the neural network model may learn the neural network model ( S1600 -N ). Specifically, the neural network model may learn to output the first audio signal corresponding to the second text signal when the first text including the above-described at least one masking element is input.
  • the learning may be an operation of correcting at least one weight of a plurality of layers constituting the neural network model in order to output the first audio signal using the first text as input data.
  • the first audio element does not correspond to the fifth text element
  • the second audio element does not correspond to the sixth text element
  • the third audio element does not correspond to the seventh text element
  • the fourth audio element does not correspond to the seventh text element.
  • the neural network model constructs the neural network model such that the sixth audio element is output as an output to the second text element and the seventh audio element is output as an output to the third text element Learning to correct the weights of a plurality of layers may be performed.
  • the second text element and the third text element may be masked elements.
  • the learning may be terminated ( S1600-Y).
  • the neural network model can end the learning procedure without learning. There will be.
  • the neural network model of the present disclosure may output the audio signal 'Tom' as the text 'Tom', and voice You can avoid the error of outputting a similar 'tomb'.
  • the audio element corresponding to 'T', the audio element corresponding to 'o', the audio element corresponding to 'm', and the text elements 'T', 'o', and 'm' constituting 'Tom' By learning the neural network model by masking at least one of can be prevented from being output.
  • FIG. 2 is a diagram illustrating an architecture of a hardware/software module constituting an electronic device according to an embodiment of the present disclosure.
  • the electronic device 100 of the present disclosure may include a memory 20 , and may transmit audio data stored in the memory 20 to the audio encoder 30 .
  • the electronic device 100 may transmit the text data stored in the memory 20 to the text encoder 40 .
  • the transmitted audio data and text data may be training data for training the neural network model.
  • the audio data transmitted to the audio encoder 30 may have a relationship (or pairing relationship) corresponding to the text data transmitted to the text encoder 40 .
  • the electronic device 100 of the present disclosure may include a microphone 10 , and may transmit a user voice received through the microphone 10 to the audio encoder 30 .
  • the user's voice received through the microphone 10 may be input to the neural network model together with the text in the learning stage, and may be input to the neural network model in the inference stage after learning the neural network model.
  • the audio encoder 30 may perform pre-processing of the audio signal. Specifically, the audio encoder 30 removes noise from an audio signal (which may be the user voice or audio data described above), divides the audio signal into a plurality of audio elements, and provides Feature transformation can be performed.
  • the noise removal may be an operation of converting an audio signal into a frequency domain and then extracting a region corresponding to a voice frequency.
  • the present invention is not necessarily limited thereto, and various tools capable of removing noise included in an audio signal, such as noise canceling, may be used for noise removal.
  • the segmentation of the audio signal may be a phonetic segmentation operation of segmenting the audio signal into a plurality of audio elements corresponding to a plurality of text elements.
  • the feature transformation is an operation of converting each audio element into a vector, and for this purpose, the electronic device 100 may store a plurality of vectors corresponding to the plurality of audio elements.
  • the text encoder 40 may perform text pre-processing. Specifically, the text encoder 40 may perform text normalization, tokenize the text into a plurality of text elements, and perform feature transformation on the plurality of text elements.
  • the text normalization may be an operation to change uppercase letters included in the text to lowercase letters, to remove unnecessary elements included in the text (eg, special characters that are not natural languages and have no special meaning, etc.)
  • tokens Drawing is an operation of dividing text into a plurality of text elements in a certain unit, and the unit may be a grapheme unit, but is not necessarily limited thereto.
  • the feature transformation is an operation of converting each text element into a vector, and for this purpose, the electronic device 100 may store a plurality of vectors corresponding to the plurality of text elements.
  • the audio encoder 30 and the text encoder 40 may be a part of a neural network model as, for example, a software module. However, according to an embodiment, the audio encoder 30 and the text encoder 40 may be implemented as a hardware module or may be stored in the memory 20 as a software module separate from the neural network model.
  • the neural network model 50 (eg, may be referred to as a cross-modal model) is one of a plurality of audio elements (specifically, a plurality of vectors corresponding to the plurality of audio elements) generated by the audio encoder 30 . At least one or at least one of a plurality of text elements (specifically, a plurality of vectors corresponding to a plurality of audio elements) generated by the text encoder 40 may be masked.
  • the neural network model 50 uses a plurality of text elements and a plurality of audio elements with at least one mask as input data, a plurality of audio elements corresponding to the plurality of text elements, and at least one of a plurality of masked audio elements.
  • a plurality of corresponding text elements can be output.
  • the plurality of output audio elements and the plurality of text elements may be expressed as vectors.
  • the audio decoder 60 converts the plurality of audio vectors output by the neural network model 50 into a plurality of audio elements (which may be wave signals or analog signals), and the text decoder 70 converts the plurality of audio vectors output by the neural network model 50 into a plurality of audio elements.
  • a plurality of text vectors output by (50) may be converted into a plurality of text elements.
  • a Discrimination Module 80 compares the plurality of audio elements generated by the audio decoder 60 and the plurality of text elements generated by the text decoder 70 , the plurality of audio elements and the plurality of text elements It may be determined whether or not a corresponding relationship (or a pairing relationship). And, the determination module 80 provides information on the determination result to the neural network model 50, and the neural network model 50 configures the neural network model 50 based on the information received from the determination module 80. Learning to adjust values of a plurality of weights may be performed.
  • the audio decoder 60 and the text decoder 70 may be a part of a neural network model as a software module, for example.
  • the audio decoder 60 and the text decoder 70 may be implemented as a hardware module, or may be stored in the memory 20 as a software module separate from the neural network model.
  • the determination module 80 may also be a part of the neural network model as a software module, and may be implemented as a hardware module according to an embodiment, and may be stored in the memory 20 as a software module separate from the neural network model. may be
  • FIG. 3 is a view for explaining an embodiment of masking at least one audio element according to an embodiment of the present disclosure.
  • the neural network model may receive text and audio signals in the learning phase.
  • the neural network model may receive the text 'spoon' and an audio signal corresponding to the text 'spoon'.
  • a neural network model can tokenize a text 'spoon' into multiple text elements through a text encoder.
  • the neural network model may acquire 's', 'p', 'oo', and 'n' by tokenizing the text 'spoon' in units of grapheme.
  • the neural network model may divide an audio signal corresponding to the text 'spoon' into a plurality of audio elements through an audio encoder.
  • the neural network model converts an audio signal corresponding to 'spoon' to an audio element corresponding to 's', an audio element corresponding to 'p', an audio element corresponding to 'oo', and an audio element corresponding to 'n'. can be divided into
  • the neural network model may mask at least one of the plurality of audio elements. As an example, referring to FIG. 3 , the neural network model may replace an audio signal corresponding to 'p' with a first mask element and replace an audio signal corresponding to 'oo' with a second mask element.
  • the neural network model may obtain output data by inputting a plurality of text elements, at least one mask element, and at least one audio element to an input layer. Specifically, the neural network model may output a plurality of audio elements corresponding to the plurality of text elements by performing an operation of the neural network model by inputting a plurality of text elements. For example, with inputs of 's', 'p', 'oo', and 'n', the neural network model generates an audio element corresponding to 's', an audio element corresponding to 'p', and audio corresponding to 'oo'. An audio element corresponding to the element 'n' may be output.
  • the neural network model may output a plurality of text elements corresponding to the at least one mask element and the at least one audio element by performing an operation of the neural network model by inputting the at least one mask element and the at least one audio element.
  • the neural network model is 's', 'p', 'o', ' You can output text like n'.
  • the neural network model may compare a plurality of output audio elements and a plurality of text elements. Specifically, the neural network model may determine whether a plurality of audio elements and a plurality of text elements output through a discriminator (which may be referred to as a discriminator layer or a discrimination module) correspond to each other.
  • a discriminator which may be referred to as a discriminator layer or a discrimination module
  • the neural network model may determine at least one text element that does not correspond to the plurality of output audio elements among the plurality of output text elements.
  • the neural network model may determine that the text 'o' obtained as an output for the second mask element has a relationship that does not correspond to the audio element obtained as an output for the text 'oo'.
  • the neural network model uses an audio element corresponding to 's', a first mask element, a second mask element, and an audio element corresponding to 'n' as inputs, and a plurality of text elements corresponding to the output audio elements. , that is, it can learn to output texts such as 's', 'p', 'oo', and 'n'.
  • the neural network model can output an appropriate text as an input to an audio signal including a masking element, which can prevent an error in which text different from the user's intention is output due to phonetic similarity.
  • FIG. 4 is a view for explaining an embodiment of masking at least one text element according to an embodiment of the present disclosure.
  • the neural network model may receive text and audio signals in the learning phase.
  • the neural network model may receive the text 'spoon' and an audio signal corresponding to the text 'spoon'.
  • a neural network model can tokenize a text 'spoon' into multiple text elements through a text encoder.
  • the neural network model may acquire 's', 'p', 'oo', and 'n' by tokenizing the text 'spoon' in units of grapheme.
  • the neural network model may divide an audio signal corresponding to the text 'spoon' into a plurality of audio elements through an audio encoder.
  • the neural network model converts an audio signal corresponding to 'spoon' to an audio element corresponding to 's', an audio element corresponding to 'p', an audio element corresponding to 'oo', and an audio element corresponding to 'n'. can be divided into
  • the neural network model may mask at least one of the plurality of text elements. As an example, referring to FIG. 4 , the neural network model may replace the text 'p' with a first mask element and replace the text 'oo' with a second mask element.
  • the neural network model may obtain output data by inputting at least one mask element, at least one text element, and a plurality of audio elements to an input layer. Specifically, the neural network model may output an audio element corresponding to each element by performing an operation of the neural network model by inputting at least one mask element and at least one text element. For example, as an input of 's', a first mask element, a second mask element, and 'n', the neural network model generates an audio element corresponding to 's', an audio element corresponding to the first mask element, and a second mask element An audio element corresponding to , an audio element corresponding to 'n' may be output.
  • the neural network model may output a plurality of text elements corresponding to the plurality of audio elements by performing an operation of the neural network model with a plurality of audio elements as inputs.
  • an audio element corresponding to 's', an audio element corresponding to 'p', an audio element corresponding to 'oo', and an audio element corresponding to 'n' are input as inputs, and the neural network model may display 's', ' You can output text like 'p', 'oo', 'n'.
  • the neural network model may compare a plurality of output audio elements and a plurality of text elements. Specifically, the neural network model may determine whether a plurality of output audio elements and a plurality of text elements correspond to each other through the discriminator.
  • the neural network model may determine at least one audio element that does not correspond to the plurality of output text elements among the plurality of output audio elements.
  • the neural network model is a relationship in which an audio element corresponding to 'o' obtained as an output to the second mask element does not correspond to a text element obtained as an output to an audio element corresponding to 'oo' can be judged as
  • the neural network model receives the text 's', the first mask element, the second mask element, and the text 'n' as inputs, and a plurality of audio elements corresponding to the output text elements, that is, the plurality of audio elements corresponding to 's' It is possible to learn to output an audio element, an audio element corresponding to 'p', an audio element corresponding to 'oo', and an audio element corresponding to 'n'.
  • the neural network model can output an appropriate audio signal as an input to the text including the masking element, and this can prevent an error in which an audio signal different from the user's intention is output due to morphological similarity. .
  • 5 is a diagram for explaining an operation when text and audio signals that do not correspond to each other are input according to an embodiment of the present disclosure.
  • the embodiment described above corresponds to the operation of the neural network model on the premise that text and audio signals having a corresponding relationship are input.
  • text and audio signals that do not correspond to each other may be input to the neural network model.
  • the text input for learning is 'bloon' and the audio signal input for learning is an audio signal corresponding to 'spoon'.
  • the neural network model may end the learning procedure without performing the above-described cross-modality learning.
  • the neural network model determines whether text corresponds to an audio signal or whether an audio signal corresponds to text before preprocessing for learning (that is, text talk or audio signal segmentation, etc.).
  • the neural network model may end the learning procedure without performing pre-processing or learning for learning.
  • the neural network model of the present disclosure may perform learning on the input text and audio signals.
  • the neural network model of the present disclosure may prevent errors in output data that may occur due to learning of text and audio signals that do not correspond to each other, and may prevent unnecessary operation of the processor.
  • FIG. 6 is a flowchart illustrating an embodiment of providing an ASR function through a learned neural network model according to an embodiment of the present disclosure.
  • the electronic device 100 of the present disclosure may receive an audio signal corresponding to a user's voice through the microphone 10 ( S610 ).
  • the audio signal corresponding to the user's voice may be an analog signal (or a wave signal).
  • the electronic device 100 may input an audio signal corresponding to the user's voice to the neural network model.
  • the neural network model may perform preprocessing for audio signal processing.
  • the neural network model may remove noise included in the audio signal ( S620 ).
  • the noise removal may be, for example, an operation of converting an audio signal into a frequency domain and then extracting a region corresponding to a voice frequency.
  • the neural network model may divide the audio signal into a plurality of audio elements ( S630 ).
  • the neural network model may perform phonetic segmentation on an audio signal.
  • the neural network model may perform feature transformation of a plurality of audio elements ( S640 ).
  • the feature transformation is an operation of converting each audio element into a vector.
  • the electronic device 100 may store a plurality of vectors corresponding to the plurality of audio elements.
  • the neural network model may input a plurality of vectors to an input layer of the neural network model, perform computation of the neural network model (S650), and generate text corresponding to the plurality of vectors (S660).
  • the neural network model may output text corresponding to the input audio signal based on the calculation of weight values included in the plurality of layers and the plurality of vectors input to the input layer.
  • FIG. 7 is a flowchart illustrating an embodiment of providing a TTS function through a learned neural network model according to an embodiment of the present disclosure.
  • the electronic device 100 of the present disclosure may receive a text through an input unit (not shown) (S710).
  • the input unit (not shown) may be, for example, a keyboard, but is not limited thereto, and may be implemented as various devices capable of receiving a user input, such as a touch screen, a touch pad, a soft keyboard, and the like.
  • the electronic device 100 may input text into the neural network model.
  • the neural network model may perform preprocessing for text processing.
  • the neural network model may perform text normalization ( S720 ).
  • the text normalization may be an operation of changing uppercase letters included in the text to lowercase letters, removing unnecessary elements included in the text (eg, special characters that are not natural languages and have no special meaning, etc.).
  • the neural network model may tokenize the text into a plurality of text elements ( S730 ).
  • tokenization is an operation of dividing text into a plurality of text elements in a predetermined unit, and the unit may be a grapheme unit, but is not necessarily limited thereto.
  • the neural network model may perform feature transformation of a plurality of text elements ( S640 ).
  • the feature transformation is an operation of converting each text element into a vector.
  • the electronic device 100 may store a plurality of vectors corresponding to the plurality of text elements.
  • the neural network model may input a plurality of vectors to an input layer of the neural network model, perform computation of the neural network model (S750), and generate audio signals corresponding to the plurality of vectors (S760).
  • the neural network model may output an audio signal corresponding to the input text based on the calculation of weight values included in the plurality of layers and a plurality of vectors input to the input layer.
  • FIG. 8 is a block diagram illustrating an electronic device according to an embodiment of the present disclosure.
  • the electronic device 100 includes a memory 110 and a processor 120 .
  • At least one instruction may be stored in the memory 110 .
  • an operating system (O/S) for driving the electronic device 100 may be stored in the memory 110 .
  • a software program or application for executing various embodiments of the present disclosure may be stored in the memory 110 .
  • the memory 110 may include a semiconductor memory such as a flash memory or a magnetic storage medium such as a hard disk.
  • a software module for executing various embodiments of the present disclosure may be stored in the memory 110 , and the processor 120 may execute the software module stored in the memory 110 to control the operation of the electronic device 100 . there is. That is, the memory 110 is accessed by the processor 120 , and reading/writing/modification/deletion/update of data by the processor 120 may be performed.
  • the term memory 110 refers to the memory 110 , a ROM (not shown) in the processor 120 , a RAM (not shown), or a memory card (not shown) mounted in the electronic device 100 (eg, For example, it may be used in the meaning of including a micro SD card, a memory stick).
  • the memory 110 may store a neural network model according to the present disclosure, a text encoder for converting text into a vector, an audio encoder for converting an audio signal into a vector, a text decoder for converting a vector into text, A software module such as an audio decoder for converting a vector into an audio signal may be stored.
  • various information necessary within the scope for achieving the object of the present disclosure may be stored in the memory 110 , and the information stored in the memory 110 may be received from an external device and updated based on a user input.
  • audio data and text data may be stored in the memory 110
  • vector information corresponding to audio data and vector information corresponding to text data may be stored.
  • the processor 120 controls the overall operation of the electronic device 100 . Specifically, the processor 120 may control the operation of the electronic device 100 by executing at least one instruction stored in the memory 110 .
  • the processor 120 may include, for example, an application specific integrated circuit (ASIC), an embedded processor, a microprocessor, hardware control logic, a hardware finite state machine (FSM), a digital signal processor, DSP). Meanwhile, in the present disclosure, the term processor 120 may be used to include a central processing unit (CPU), a graphic processing unit (GPU), and a main processing unit (MPU).
  • ASIC application specific integrated circuit
  • FSM hardware finite state machine
  • DSP digital signal processor
  • the processor 120 inputs text and audio signals to the neural network model, reads a plurality of weight values included in a plurality of layers constituting the neural network model, and performs a neural network operation based on the input data and the weight values. there is. Then, the processor 120 obtains output data from the neural network model based on the neural network operation, and the output data may be an audio signal corresponding to the input text or text corresponding to the input audio signal.
  • FIG. 9 is a detailed block diagram illustrating an electronic device according to an embodiment of the present disclosure.
  • the electronic device 100 may include a memory 110 , a communication unit 130 , an input unit 150 , an output unit 160 , and a processor 160 .
  • a memory 110 may include a volatile and non-volatile memory 110 .
  • the communication unit 130 includes a circuit and may communicate with an external device. Specifically, the processor 120 may receive various data or information from an external device connected through the communication unit 130 , and may transmit various data or information to the external device.
  • the communication unit 130 may include at least one of a WiFi module, a Bluetooth module, a wireless communication module, and an NFC module.
  • Each of the WiFi module and the Bluetooth module may perform communication using a WiFi method or a Bluetooth method.
  • the wireless communication module may perform communication according to various communication standards such as IEEE, Zigbee, 3rd Generation (3G), 3rd Generation Partnership Project (3GPP), Long Term Evolution (LTE), and 5th Generation (5G).
  • the NFC module may perform communication using a Near Field Communication (NFC) method using a 13.56 MHz band among various RF-ID frequency bands such as 135 kHz, 13.56 MHz, 433 MHz, 860 to 960 MHz, and 2.45 GHz.
  • NFC Near Field Communication
  • the output unit 160 includes a circuit, and the processor 120 may output various information through the output unit 160 .
  • the output unit 160 may include at least one of a display and a speaker.
  • the display may display various screens under the control of the processor 120 .
  • the display may display text under the control of the processor 120 .
  • the text may be text output by the neural network model.
  • the display may be implemented as a liquid crystal display panel (LCD), organic light emitting diodes (OLED), etc., and the display may be implemented as a flexible display, a transparent display, etc. in some cases.
  • the display according to the present disclosure is not limited to a specific type.
  • the speaker may output an audio signal under the control of the processor 120 .
  • the audio signal may be an audio signal output by the neural network model.
  • the processor 120 may provide output data to the user through the output unit 160 . Specifically, the processor 120 may visually provide the output data to the user through the display, and may provide the output data to the user in the form of a voice signal through the speaker.
  • the input unit 150 includes a circuit, and the processor 120 may receive a user command for controlling the operation of the electronic device 100 through the input unit 150 .
  • the input unit 150 may be configured as a microphone, a camera, or a signal receiving unit.
  • the input unit 150 may be implemented as a touch screen and included in a display.
  • the processor 120 may receive a user command to start the operation of the processor 120 according to the present disclosure through the input unit 150 .
  • the processor 120 may receive, through the input unit 150 , a user command for providing output data corresponding to the input data through the neural network model.
  • the neural network model may be composed of a plurality of neural network layers. Each layer has a plurality of weight values, and the processor 120 may perform an operation of the layer through an operation result of a previous layer and an operation of a plurality of weights.
  • Examples of neural network models include Convolutional Neural Network (CNN), Deep Neural Network (DNN), Recurrent Neural Network (RNN), Restricted Boltzmann Machine (RBM), Deep Belief Network (DBN), Bidirectional Recurrent Deep Neural Network (BRDNN), There are Generative Adversarial Networks (GAN) and Deep Q-Networks, and the neural network model in the present disclosure is not limited to the above-described example.
  • the processor 120 may train the neural network model through a learning algorithm.
  • the learning algorithm include supervised learning, unsupervised learning, semi-supervised learning, or reinforcement learning, and the learning algorithm in the present disclosure is described above. It is not limited to one example.
  • FIG. 10 is a diagram for explaining a method of controlling an electronic device according to an embodiment of the present disclosure.
  • the electronic device 100 may input the first modality and the second modality to the neural network model ( S1010 ).
  • one of the plurality of modalities may be text, and the other may be an audio signal.
  • the electronic device 100 may display a second modality corresponding to the first output data.
  • the neural network model may be trained to output 1 modality ( S1020 ).
  • the electronic device 100 may tokenize text into a plurality of text elements and segment an audio signal into a plurality of audio elements.
  • the electronic device 100 may mask at least one of the plurality of text elements or at least one of the plurality of audio elements.
  • the electronic device 100 may input a first text including a plurality of tokenized text elements and a first audio signal in which at least one of a plurality of segmented audio elements are masked to the neural network model.
  • the neural network model may output a second audio signal corresponding to the first text and a second text corresponding to the first audio signal.
  • the neural network model is trained to output the first text corresponding to the second audio signal when the first audio signal including the at least one masking element is input. can do.
  • the neural network model is configured to output the first audio signal including at least one masking element based on a comparison of the plurality of audio elements included in the second audio signal and the plurality of text elements included in the second text.
  • learning may be performed when it is determined that the text corresponding to the second audio signal is not output.
  • the neural network model may output a text element corresponding to the masking element through learning.
  • the electronic device 100 may input a first audio signal including a plurality of segmented audio elements and a first text in which at least one of the plurality of tokenized text elements is masked to the neural network model.
  • the neural network model may output the second text corresponding to the first audio signal and the second audio signal corresponding to the first text.
  • the neural network model may learn to output a first audio signal corresponding to the second text when the first text including at least one masking element is input based on the comparison of the second text and the second audio signal. there is.
  • the neural network model is configured as an output for the first text including at least one masking element based on a comparison of the plurality of text elements included in the second text and the plurality of audio elements included in the second audio signal. , when it is determined that the audio signal corresponding to the second text is not output, learning may be performed.
  • the neural network model may output an audio element corresponding to the masking element through learning.
  • the method for controlling an electronic device may be implemented as a program and stored in various recording media. That is, computer programs that are processed by various processors to execute the various control methods described above may be used in a state stored in a recording medium.
  • the non-transitory readable medium refers to a medium that stores data semi-permanently, rather than a medium that stores data for a short moment, such as a register, cache, memory, and the like, and can be read by a device.
  • a non-transitory readable medium such as a CD, DVD, hard disk, Blu-ray disk, USB, memory card, ROM, and the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

전자 장치 및 그 제어 방법이 개시된다. 본 전자 장치는, 신경망 모델을 저장하는 메모리 및 입력 데이터를 상기 신경망 모델에 입력하여 출력 데이터를 획득하는 프로세서를 포함하고, 상기 신경망 모델은, 입력된 제1 모달리티에 기초한 제1 출력 데이터 및 입력된 제2 모달리티에 기초한 제2 출력 데이터의 비교에 기초하여, 상기 제2 모달리티가 입력되면, 상기 제1 출력 데이터에 대응되는 상기 제1 모달리티를 출력하도록 학습된 모델이며, 상기 제2 모달리티는, 적어도 하나의 마스킹 요소를 포함할 수 있다.

Description

전자 장치 및 그 제어 방법
본 개시는 전자 장치 및 그 제어 방법에 관한 것으로, 보다 상세하게는 신경망 모델을 통해 출력 데이터를 획득하는 전자 장치 및 그 제어 방법에 관한 것이다.
최근 DNN(Deep Neural Network)과 같은 신경망 모델을 통해 ASR (automatic speech recognition) 기능이나 TTS (text to speech) 기능을 수행하는 전자 장치가 개발되고 있다.
ASR 기능이란, 오디오 신호를 텍스트로 전환하여 출력하는 기능으로써, STT(speech to text)로 불릴 수도 있다. 그리고, TTS 기능이란, 텍스트를 오디오 신호로 전환하여 출력하는 기능이다.
ASR 기능의 수행을 위해 종래 신경망 모델은 입력된 오디오 신호에 대해 적절한 텍스트를 출력하는 학습을 수행하였으며, TTS 기능의 실행을 위해 입력된 텍스트에 대해 적절한 오디오 신호를 출력하는 학습을 수행하였다.
그런데, 이와 같이 텍스트 및 오디오 신호 중 하나를 단독으로 입력하여 신경망 모델을 학습시키는 경우, 음성적 유사성이나 텍스트의 형태적 유사성으로 인해 부적절한 데이터를 출력하는 경우가 발생할 수 있다.
일 예로, 사용자가 사람 이름인 'Tom'을 텍스트로 출력할 목적으로 'Tom'을 발화한 경우임에도, 종래 신경망 모델은 사용자 음성에 대한 출력으로 'Tom'과 음성적으로 유사한 'tomb'을 출력하는 문제가 있었으며, 사용자가 사람 이름인 'Tom'을 오디오 신호로 출력할 목적으로 'Tom'을 텍스트로 입력한 경우임에도, 종래 신경망 모델은 텍스트의 보정 이후 'tomb'에 대한 오디오 신호를 출력하는 문제가 있었다.
본 개시는 상술한 문제점을 해결하기 위해 안출된 것으로써, 본 개시의 목적은 텍스트 및 오디오 신호를 입력 데이터로 신경망 모델을 학습시킴으로써, 음성적 유사성을 가진 오디오 신호나 형태적 유사성을 가진 텍스트를 구분할 수 있는 전자 장치 및 그 제어 방법을 제공함에 있다.
상기 목적을 달성하기 위한 본 개시의 일 실시 예에 따른 전자 장치는, 신경망 모델을 저장하는 메모리 및 입력 데이터를 상기 신경망 모델에 입력하여 출력 데이터를 획득하는 프로세서를 포함하고, 상기 신경망 모델은, 입력된 제1 모달리티에 기초한 제1 출력 데이터 및 입력된 제2 모달리티에 기초한 제2 출력 데이터의 비교에 기초하여, 상기 제2 모달리티가 입력되면, 상기 제1 출력 데이터에 대응되는 상기 제1 모달리티를 출력하도록 학습된 모델이며, 상기 제2 모달리티는, 적어도 하나의 마스킹 요소를 포함할 수 있다.
상기 제1 및 제2 모달리티 중 하나는 텍스트이고, 다른 하나는 오디오 신호일 수 있다.
상기 신경망 모델은, 상기 텍스트를 복수의 텍스트 요소로 토큰화하고, 상기 오디오 신호를 복수의 오디오 요소로 세그먼트화하며, 상기 복수의 텍스트 요소 중 적어도 하나 또는 상기 복수의 오디오 요소 중 적어도 하나를 마스킹할 수 있다.
상기 제1 모달리티는 제1 텍스트를 포함하고, 상기 제2 모달리티는 제1 오디오 신호를 포함하며, 상기 신경망 모델은, 토큰화 된 복수의 텍스트 요소로 구성된 상기 제1 텍스트와, 세그먼트화 된 복수의 오디오 요소 중 적어도 하나가 마스킹 된 상기 제1 오디오 신호를 입력 데이터로, 상기 제1 텍스트에 대응되는 제2 오디오 신호 및 상기 제1 오디오 신호에 대응되는 제2 텍스트를 출력하고, 상기 제2 오디오 신호 및 상기 제2 텍스트의 비교에 기초하여, 상기 적어도 하나의 마스킹 요소를 포함하는 제1 오디오 신호가 입력되면, 상기 제2 오디오 신호에 대응되는 제1 텍스트를 출력하도록 학습된 모델이 될 수 있다.
상기 신경망 모델은, 상기 제2 오디오 신호에 포함된 복수의 오디오 요소 및 상기 제2 텍스트에 포함된 복수의 텍스트 요소의 비교에 기초하여, 상기 적어도 하나의 마스킹 요소를 포함하는 제1 오디오 신호에 대한 출력으로, 상기 제2 오디오 신호에 대응되는 텍스트가 출력되지 않은 것으로 판단되면 상기 학습을 수행할 수 있다.
상기 신경망 모델은, 상기 학습을 통해 상기 마스킹 요소에 대응되는 텍스트 요소를 출력할 수 있다.
상기 제1 모달리티는 제1 오디오 신호를 포함하고, 상기 제2 모달리티는 제1 텍스트를 포함하며, 상기 신경망 모델은, 세그먼트화 된 복수의 오디오 요소로 구성된 상기 제1 오디오 신호와, 토큰화 된 복수의 텍스트 요소 중 적어도 하나가 마스킹 된 상기 제1 텍스트를 입력 데이터로, 상기 제1 오디오 신호에 대응되는 제2 텍스트 및 상기 제1 텍스트에 대응되는 제2 오디오 신호를 출력하고, 상기 제2 텍스트 및 상기 제2 오디오 신호의 비교에 기초하여, 상기 적어도 하나의 마스킹 요소를 포함하는 제1 텍스트가 입력되면, 상기 제2 텍스트에 대응되는 제1 오디오 신호를 출력하도록 학습된 모델이 될 수 있다.
상기 신경망 모델은, 상기 제2 텍스트에 포함된 복수의 텍스트 요소 및 상기 제2 오디오 신호에 포함된 복수의 오디오 요소의 비교에 기초하여, 상기 적어도 하나의 마스킹 요소를 포함하는 제1 텍스트에 대한 출력으로, 상기 제2 텍스트에 대응되는 오디오 신호가 출력되지 않은 것으로 판단되면 상기 학습을 수행할 수 있다.
상기 신경망 모델은, 상기 학습을 통해 상기 마스킹 요소에 대응되는 오디오 요소를 출력할 수 있다.
한편, 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법은, 입력 데이터를 신경망 모델에 입력하는 단계 및 상기 신경망 모델의 연산을 통해, 상기 입력 데이터에 대한 출력 데이터를 획득하는 단계를 포함하고, 상기 신경망 모델은, 입력된 제1 모달리티에 기초한 제1 출력 데이터 및 입력된 제2 모달리티에 기초한 제2 출력 데이터의 비교에 기초하여, 상기 제2 모달리티가 입력되면, 상기 제1 출력 데이터에 대응되는 상기 제1 모달리티를 출력하도록 학습된 모델이며, 상기 제2 모달리티는, 적어도 하나의 마스킹 요소를 포함할 수 있다.
상기 제1 및 제2 모달리티 중 하나는 텍스트이고, 다른 하나는 오디오 신호일 수 있다.
상기 텍스트는 복수의 텍스트 요소로 토큰화되고, 상기 오디오 신호는 복수의 오디오 요소로 세그먼트화되며, 상기 복수의 텍스트 요소 중 적어도 하나 또는 상기 복수의 오디오 요소 중 적어도 하나는 마스킹되어 상기 신경망 모델에 입력될 수 있다.
상기 제1 모달리티는 제1 텍스트를 포함하고, 상기 제2 모달리티는 제1 오디오 신호를 포함하며, 상기 신경망 모델은, 토큰화 된 복수의 텍스트 요소로 구성된 상기 제1 텍스트와, 세그먼트화 된 복수의 오디오 요소 중 적어도 하나가 마스킹 된 상기 제1 오디오 신호를 입력 데이터로, 상기 제1 텍스트에 대응되는 제2 오디오 신호 및 상기 제1 오디오 신호에 대응되는 제2 텍스트를 출력하고, 상기 제2 오디오 신호 및 상기 제2 텍스트의 비교에 기초하여, 상기 적어도 하나의 마스킹 요소를 포함하는 제1 오디오 신호가 입력되면, 상기 제2 오디오 신호에 대응되는 제1 텍스트를 출력하도록 학습된 모델이 될 수 있다.
상기 신경망 모델은, 상기 제2 오디오 신호에 포함된 복수의 오디오 요소 및 상기 제2 텍스트에 포함된 복수의 텍스트 요소의 비교에 기초하여, 상기 적어도 하나의 마스킹 요소를 포함하는 제1 오디오 신호에 대한 출력으로, 상기 제2 오디오 신호에 대응되는 텍스트가 출력되지 않은 것으로 판단되면 상기 학습을 수행할 수 있다.
상기 신경망 모델은, 상기 학습을 통해 상기 마스킹 요소에 대응되는 텍스트 요소를 출력할 수 있다.
상기 제1 모달리티는 제1 오디오 신호를 포함하고, 상기 제2 모달리티는 제1 텍스트를 포함하며, 상기 신경망 모델은, 세그먼트화 된 복수의 오디오 요소로 구성된 상기 제1 오디오 신호와, 토큰화 된 복수의 텍스트 요소 중 적어도 하나가 마스킹 된 상기 제1 텍스트를 입력 데이터로, 상기 제1 오디오 신호에 대응되는 제2 텍스트 및 상기 제1 텍스트에 대응되는 제2 오디오 신호를 출력하고, 상기 제2 텍스트 및 상기 제2 오디오 신호의 비교에 기초하여, 상기 적어도 하나의 마스킹 요소를 포함하는 제1 텍스트가 입력되면, 상기 제2 텍스트에 대응되는 제1 오디오 신호를 출력하도록 학습된 모델이 될 수 있다.
상기 신경망 모델은, 상기 제2 텍스트에 포함된 복수의 텍스트 요소 및 상기 제2 오디오 신호에 포함된 복수의 오디오 요소의 비교에 기초하여, 상기 적어도 하나의 마스킹 요소를 포함하는 제1 텍스트에 대한 출력으로, 상기 제2 텍스트에 대응되는 오디오 신호가 출력되지 않은 것으로 판단되면 상기 학습을 수행할 수 있다.
상기 신경망 모델은, 상기 학습을 통해 상기 마스킹 요소에 대응되는 오디오 요소를 출력할 수 있다.
이상과 같은 본 개시의 다양한 실시 예에 따르면, 음성적 유사성을 가진 오디오 신호나 형태적 유사성을 가진 텍스트를 구분할 수 있는 전자 장치 및 그 제어 방법이 제공될 수 있다.
도 1은 본 개시의 일 실시 예에 따른 전자 장치의 동작을 설명하기 위한 흐름도이다.
도 2는 본 개시의 일 실시 예에 따른 전자 장치를 구성하는 하드웨어/소프트웨어 모듈의 아키텍처를 나타내는 도면이다.
도 3은 본 개시의 일 실시 예에 따른 적어도 하나의 오디오 요소를 마스킹하는 실시 예를 설명하기 위한 도면이다.
도 4는 본 개시의 일 실시 예에 따른 적어도 하나의 텍스트 요소를 마스킹하는 실시 예를 설명하기 위한 도면이다.
도 5는 본 개시의 일 실시 예에 따른 서로 대응되지 않는 텍스트 및 오디오 신호가 입력되는 경우의 동작을 설명하기 위한 도면이다.
도 6은 본 개시의 일 실시 예에 따른 학습 된 신경망 모델을 통해 ASR 기능을 제공하는 실시 예를 설명하기 위한 흐름도이다.
도 7은 본 개시의 일 실시 예에 따른 학습 된 신경망 모델을 통해 TTS 기능을 제공하는 실시 예를 설명하기 위한 흐름도이다.
도 8은 본 개시의 일 실시 예에 따른 전자 장치를 설명하기 위한 블록도이다.
도 9는 본 개시의 일 실시 예에 따른 전자 장치를 설명하기 위한 상세 블록도이다.
도 10은 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 도면이다.
먼저, 본 명세서 및 청구범위에서 사용되는 용어는 본 개시의 기능을 고려하여 일반적인 용어들을 선택하였다. 하지만, 이러한 용어들은 당 분야에 종사하는 기술자의 의도나 법률적 또는 기술적 해석 및 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 일부 용어는 출원인이 임의로 선정한 용어도 있다. 이러한 용어에 대해서는 본 명세서에서 정의된 의미로 해석될 수 있으며, 구체적인 용어 정의가 없으면 본 명세서의 전반적인 내용 및 당해 기술 분야의 통상적인 기술 상식을 토대로 해석될 수도 있다.
또한, 본 개시를 설명함에 있어서, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우, 그에 대한 상세한 설명은 축약하거나 생략한다.
본 개시에 있어서 "제1," "제2," "첫째," 또는 "둘째,"등의 표현들은 순서 및/또는 중요도에 상관없이 다양한 구성요소들을 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 수 있다.
본 개시에 있어서 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, , "~에 적합한(suitable for)," "~하는 능력을 가지는(having the capacity to)," "~하도록 설계된(designed to)," "~하도록 변경된(adapted to)," "~하도록 만들어진(made to)," 또는 "~를 할 수 있는(capable of)"과 바꾸어 사용될 수도 있다.
본 개시에 있어서 '모듈' 또는 '부'는 적어도 하나의 기능이나 동작을 수행하는 구성으로써, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
나아가, 이하 첨부 도면들 및 첨부 도면들에 기재된 내용들을 참조하여 본 개시의 실시 예를 상세하게 설명하지만, 본 개시가 실시 예들에 의해 제한되거나 한정되는 것은 아니라 할 것이다.
이하, 첨부된 도면을 참조하여 본 개시를 상세히 설명한다.
도 1은 본 개시의 일 실시 예에 따른 전자 장치의 동작을 설명하기 위한 흐름도이다.
본 개시의 일 실시 예에 따른 전자 장치(100)는 신경망 모델을 이용하여 입력 데이터에 대한 출력 데이터를 획득하는 장치로써, 예를 들어, 전자 장치(100)는 데스크탑 PC, 노트북, 스마트 폰, 태블릿 PC, 서버 등일 수 있다. 또는, 전자 장치(100)는 클라우딩 컴퓨팅 환경이 구축된 시스템 자체일 수도 있다. 다만, 전자 장치(100)의 실시 예가 이에 한정되는 것은 아니며, 전자 장치(100)는 인공 지능 모델을 이용한 연산이 가능한 장치라면 어떠한 장치라도 무방하다.
전자 장치(100)는 신경망 모델의 학습을 수행할 수 있다. 여기에서, 신경망 모델은 인공 신경망(neural network)을 포함하는 인공 지능 모델(artificial intelligence model)으로써, 딥러닝(deep learning)에 의해 학습될 수 있다. 예를 들어, 신경망 모델은 심층 신경망(Deep Neural Network, DNN), 순환 신경망(Recurrent Neural Network, RNN), 합성곱 신경망(Convolution Neural Network, CNN) 및 생성적 적대 신경망(Generative Adversarial Networks, GAN) 중 적어도 하나를 포함할 수 있다. 또한, 신경망 모델은 ASR 모델(automatic speech recognition model), TTS 모델(text to speech model) 또는 NLP 모델 (Natural Language Processing model) 등이 될 수 있으나, 반드시 이에 한정되는 것은 아니다.
이와 같은 신경망 모델은 온 디바이스(on-device)의 형태로 전자 장치(100)에 포함될 수 있다. 다만, 이는 일 실시 예로써, 신경망 모델은 전자 장치(100)와 통신 연결된 외부 장치(가령, 서버)에 포함될 수도 있다.
도 1을 참조하면, 전자 장치(100)는 신경망 모델의 학습을 위해 복수의 모달리티를 신경망 모델에 입력(S1110)할 수 있다. 여기에서, 복수의 모달리티는 일 예로 오디오 신호 및 텍스트가 될 수 있다. 그리고, 오디오 신호 및 텍스트는 서로 대응하는(또는, 페어링 된) 관계가 될 수 있다. 일 예로, 전자 장치(100)는 텍스트 'spoon' 및 텍스트 'spoon'에 대응되는 오디오 신호를 신경망 모델의 입력 데이터로 신경망 모델에 입력할 수 있다. 이를 위해, 전자 장치(100)는 텍스트 별로 오디오 신호가 매칭된 Speech transcript를 저장할 수 있다.
신경망 모델은 학습을 위해, 입력된 복수의 모달리티에 대한 전처리를 수행할 수 있다. 구체적으로, 신경망 모델은 오디오 신호 및 텍스트가 입력되는 경우, 입력된 오디오 신호를 복수의 오디오 요소로 분할(segmentation)(S1210)하고, 입력된 텍스트를 복수의 텍스트 요소로 토큰화(S1220)할 수 있다. 여기에서, 오디오 신호의 분할은 일 예로 phonetic segmentation이 될 수 있고, 토큰화는 일 예로 grapheme 단위의 토큰화가 될 수 있으나 반드시 이에 한정되는 것은 아니다.
일 예로, 텍스트 'spoon'이 입력되는 경우, 신경망 모델은 텍스트 'spoon'을 grapheme 단위로 토큰화 하여 's', 'p', 'oo', 'n'을 획득하고, 텍스트 'spoon'에 대응되는 오디오 신호가 입력되는 경우, 오디오 신호를 phonetic segmentation하여 's'에 대응되는 오디오 요소, 'p'에 대응되는 오디오 요소, 'oo'에 대응되는 오디오 요소, 'n'에 대응되는 오디오 요소를 획득할 수 있다.
신경망 모델은 복수의 오디오 요소 중 적어도 하나 또는 복수의 텍스트 요소 중 적어도 하나를 마스킹할 수 있다. 즉, 신경망 모델은 복수의 오디오 요소 중 적어도 하나를 마스크 요소로 대체하거나, 복수의 텍스트 요소 중 적어도 하나를 마스크 요소로 대체할 수 있다.
일 예로, 상술한 바와 같이 텍스트 'spoon' 및 텍스트 'spoon'에 대응되는 오디오 신호가 입력되는 경우, 신경망 모델은 텍스트의 토큰화를 통해 획득한 's', 'p', 'oo', 'n' 중 적어도 하나를 마스크 요소로 대체할 수 있다. 또는, 신경망 모델은 오디오 신호의 분할을 통해 획득한 's'에 대응되는 오디오 요소, 'p'에 대응되는 오디오 요소, 'oo'에 대응되는 오디오 요소, 'n'에 대응되는 오디오 요소 중 적어도 하나를 마스크 요소로 대체할 수 있다.
신경망 모델은 토큰화 된 복수의 텍스트 요소로 구성된 텍스트와, 세그먼트화 된 복수의 오디오 요소 중 적어도 하나가 마스킹 된 오디오 신호를 신경망 모델(일 예로, Multi-modal model 또는 Cross-modal Model로 불릴 수 있다.)의 입력 레이어에 입력(S1300)할 수 있다. 또는, 신경망 모델은 세그먼트화 된 복수의 오디오 요소로 구성된 오디오 신호와, 토큰화 된 복수의 텍스트 요소 중 적어도 하나가 마스킹 된 텍스트를 신경망 모델의 입력 레이어에 입력(S1300)할 수 있다.
이후, 신경망 모델은 토큰화 된 복수의 텍스트 요소로 구성된 텍스트와, 세그먼트화 된 복수의 오디오 요소 중 적어도 하나가 마스킹 된 오디오 신호를 입력 데이터로 학습을 수행할 수 있다. 또는, 신경망 모델은 세그먼트화 된 복수의 오디오 요소로 구성된 오디오 신호와, 토큰화 된 복수의 텍스트 요소 중 적어도 하나가 마스킹 된 텍스트를 입력 데이터로 학습을 수행할 수 있다.
먼저, 토큰화 된 복수의 텍스트 요소로 구성된 텍스트(이하, 제1 텍스트라 한다.)와, 세그먼트화 된 복수의 오디오 요소 중 적어도 하나가 마스킹 된 오디오 신호(이하, 제1 오디오 신호라 한다.)가 입력된 경우에 대해 설명한다.
이 경우, 신경망 모델은 신경망 연산을 통해 제1 텍스트에 대응되는 제2 오디오 신호를 출력(S1410)하고, 제1 오디오 신호에 대응되는 제2 텍스트를 출력(S1420)할 수 있다. 구체적으로, 신경망 모델은 복수의 텍스트 요소를 입력 데이터로, 신경망 연산을 통해 복수의 텍스트 요소에 대응되는 복수의 오디오 요소를 출력하고, 적어도 하나의 마스크 요소 및 마스킹 되지 않은 복수의 오디오 요소(실시 예에 따라, 마스킹 되지 않은 오디오 요소는 단수가 될 수도 있다.)를 입력 데이터로, 신경망 연산을 통해 마스크 요소에 대응되는 텍스트 요소 및 마스킹 되지 않은 복수의 오디오 요소에 대응되는 복수의 텍스트 요소를 출력할 수 있다.
그리고, 신경망 모델은 출력된 제2 오디오 신호(이는, 복수의 오디오 요소를 포함한다.) 및 제2 텍스트(이는, 복수의 텍스트 요소를 포함한다.)를 비교하여, 제2 오디오 신호에 대응되는 제2 텍스트가 출력되었는지를 판단(S1500)할 수 있다. 구체적으로, 신경망 모델은 출력된 제2 오디오 신호를 구성하는 복수의 오디오 요소 및 출력된 제2 텍스트를 구성하는 복수의 텍스트 요소를 비교할 수 있다. 일 예로, 제2 오디오 신호에 제1 내지 제4 오디오 요소가 포함되고, 제2 텍스트에 제5 내지 제8 텍스트 요소가 포함된 경우, 신경망 모델은 제5 텍스트 요소가 제1 오디오 요소에 대응되지를 판단하고, 제6 텍스트 요소가 제2 오디오 요소에 대응되지를 판단하며, 제7 텍스트 요소가 제3 오디오 요소에 대응되지를 판단하고, 제8 텍스트 요소가 제4 오디오 요소에 대응되지를 판단할 수 있다.
그리고, 신경망 모델은 제2 텍스트를 구성하는 복수의 텍스트 요소가 제2 오디오 신호를 구성하는 복수의 오디오 요소에 대응되지 않는 것으로 판단되면, 신경망 모델의 학습을 수행(S1600-N)할 수 있다. 구체적으로, 신경망 모델은 상술한 적어도 하나의 마스킹 요소를 포함하는 제1 오디오 신호가 입력 데이터로 입력되는 경우에, 제2 오디오 신호에 대응되는 제1 텍스트를 출력하도록 학습할 수 있다. 여기에서, 학습은 제1 오디오 신호를 입력 데이터로, 제1 텍스트를 출력하기 위해 신경망 모델을 구성하는 복수의 레이어의 적어도 하나 이상의 가중치를 보정하는 작업이 될 수 있으며, 가중치의 연산은 전자 장치(100)의 프로세서에 의해 수행될 수 있다.
상술한 실시 예에서, 만약 제5 텍스트 요소가 제1 오디오 요소에 대응되고, 제6 텍스트 요소가 제2 오디오 요소에 대응되지 않으며, 제7 텍스트 요소가 제3 오디오 요소에 대응되지 않고, 제8 텍스트 요소가 제4 오디오 요소에 대응되는 경우, 신경망 모델은 제2 오디오 요소에 대한 출력으로 제6 텍스트 요소가 출력되고, 제3 오디오 요소에 대한 출력으로 제7 텍스트 요소가 출력되도록 신경망 모델을 구성하는 복수의 레이어의 가중치를 보정하는 학습을 수행할 수 있다. 여기에서, 제2 오디오 요소 및 제3 오디오 요소는 마스킹된 요소가 될 수 있을 것이다.
그리고, 신경망 모델은 학습 이후, 출력된 제2 텍스트를 구성하는 복수의 텍스트 요소가 제2 오디오 신호를 구성하는 복수의 오디오 요소에 대응되는 것으로 판단되면 학습을 종료(S1600-Y)할 수 있다. 한편, 학습 이전이라도, 출력된 제2 텍스트를 구성하는 복수의 텍스트 요소가 제2 오디오 신호를 구성하는 복수의 오디오 요소에 대응되는 경우이면, 신경망 모델은 학습을 수행하지 않고 학습 절차를 종료할 수 있을 것이다.
한편, 세그먼트화 된 복수의 오디오 신호(이하, 제1 오디오 신호라 한다.)와 토큰화 된 복수의 텍스트 요소 중 적어도 하나가 마스킹 된 텍스트(이하, 제1 텍스트라 한다.)가 입력된 경우에도, 상술한 기술적 사상과 유사한 기술적 사상이 적용될 수 있다.
이 경우, 신경망 모델은 신경망 연산을 통해 제1 오디오 신호에 대응되는 제2 텍스트를 출력(S1410)하고, 제1 텍스트에 대응되는 제2 오디오 신호를 출력(S1420)할 수 있다. 구체적으로, 신경망 모델은 복수의 오디오 요소를 입력 데이터로, 복수의 오디오 요소에 대응되는 복수의 텍스트 요소를 출력하고, 적어도 하나의 마스크 요소 및 마스킹 되지 않은 복수의 텍스트 요소(실시 예에 따라, 마스킹 되지 않은 텍스트 요소는 단수가 될 수도 있다.)를 입력 데이터로, 마스크 요소에 대응되는 오디오 요소 및 마스킹 되지 않은 복수의 텍스트 요소에 대응되는 복수의 오디오 요소를 출력할 수 있다.
그리고, 신경망 모델은 출력된 제2 텍스트(이는, 복수의 텍스트 요소를 포함한다.) 및 제2 오디오 신호(이는, 복수의 오디오 요소를 포함한다.)를 비교하여, 제2 텍스트에 대응되는 제2 오디오 신호가 출력되었는지를 판단(S1500)할 수 있다. 구체적으로, 신경망 모델은 출력된 제2 텍스트를 구성하는 복수의 텍스트 요소 및 출력된 제2 오디오 신호를 구성하는 복수의 오디오 요소를 비교할 수 있다. 일 예로, 제2 오디오 신호에 제1 내지 제4 오디오 요소가 포함되고, 제2 텍스트에 제5 내지 제8 텍스트 요소가 포함된 경우, 신경망 모델은 제1 오디오 요소가 제5 텍스트 요소에 대응되지를 판단하고, 제2 오디오 요소가 제6 텍스트 요소에 대응되지를 판단하며, 제3 오디오 요소가 제7 텍스트 요소에 대응되지를 판단하고, 제4 오디오 요소가 제8 텍스트 요소에 대응되지를 판단할 수 있다.
그리고, 신경망 모델은 제2 오디오 신호를 구성하는 복수의 오디오 요소가 제2 텍스트를 구성하는 복수의 텍스트 요소에 대응되지 않는 것으로 판단되면, 신경망 모델의 학습을 수행(S1600-N)할 수 있다. 구체적으로, 신경망 모델은 상술한 적어도 하나의 마스킹 요소를 포함하는 제1 텍스트가 입력되는 경우에, 제2 텍스트 신호에 대응되는 제1 오디오 신호를 출력하도록 학습할 수 있다. 여기에서, 학습은 제1 텍스트를 입력 데이터로, 제1 오디오 신호를 출력하기 위해 신경망 모델을 구성하는 복수의 레이어의 적어도 하나 이상의 가중치를 보정하는 작업이 될 수 있다.
상술한 실시 예에서, 제1 오디오 요소가 제5 텍스트 요소에 대응되고, 제2 오디오 요소가 제6 텍스트 요소에 대응되지 않으며, 제3 오디오 요소가 제7 텍스트 요소에 대응되지 않고, 제4 오디오 요소가 제8 텍스트 요소에 대응되는 경우, 신경망 모델은 제2 텍스트 요소에 대한 출력으로 제6 오디오 요소가 출력되고, 제3 텍스트 요소에 대한 출력으로 제7 오디오 요소가 출력되도록 신경망 모델을 구성하는 복수의 레이어의 가중치를 보정하는 학습을 수행할 수 있다. 여기에서, 제2 텍스트 요소 및 제3 텍스트 요소는 마스킹된 요소가 될 수 있을 것이다.
그리고, 신경망 모델은 학습 이후, 출력된 제2 오디오 신호를 구성하는 복수의 오디오 요소가 제2 텍스트를 구성하는 복수의 텍스트 요소에 대응되는 것으로 판단되면 학습을 종료(S1600-Y)할 수 있다. 한편, 학습 이전이라도, 출력된 제2 오디오 신호를 구성하는 복수의 오디오 요소가 제2 텍스트를 구성하는 복수의 텍스트 요소에 대응되는 경우이면, 신경망 모델은 학습을 수행하지 않고 학습 절차를 종료할 수 있을 것이다.
이과 같이 본 개시는 텍스트 및 오디오 신호를 입력 데이터로 신경망 모델을 학습(이를 크로스-모달리티 학습이라 부를 수 있다.)시킴으로써, 유사성을 가진 오디오 신호나 텍스트를 구분할 수 있다. 일 예로, 사람 이름인 'Tom'을 학습할 목적으로, 텍스트 'Tom'을 구성하는 텍스트 요소인 'T', 'o', 'm' 과, 'T'에 대응되는 오디오 요소, 'o'에 대응되는 오디오 요소, 'm'에 대응되는 오디오 요소 중 적어도 하나를 마스킹하여 신경망 모델을 학습시킴으로써, 본 개시의 신경망 모델은 오디오 신호 'Tom'을 텍스트 'Tom'으로 출력할 수 있고, 음성적으로 유사한 'tomb'를 출력하는 오류를 방지할 수 있다. 또한, 'T'에 대응되는 오디오 요소, 'o'에 대응되는 오디오 요소, 'm'에 대응되는 오디오 요소와, 'Tom'을 구성하는 텍스트 요소인 'T', 'o', 'm' 중 적어도 하나를 마스킹하여 신경망 모델을 학습시킴으로써, 본 개시의 신경망 모델은 텍스트 'Tom'을 오디오 신호 'Tom'으로 출력할 수 있고, 텍스트 'Tom'을 'tomb'으로 보정하여 오디오 신호 'tomb'을 출력하는 경우를 방지할 수 있다.
이하 도 2를 참조하면, 본 개시의 신경망 모델의 학습에 대해 보다 구체적으로 설명한다.
도 2는 본 개시의 일 실시 예에 따른 전자 장치를 구성하는 하드웨어/소프트웨어 모듈의 아키텍처를 나타내는 도면이다.
도 2를 참조하면, 본 개시의 전자 장치(100)는 메모리(20)를 포함하고, 메모리(20)에 저장된 오디오 데이터를 오디오 인코더(30)로 전송할 수도 있다. 그리고, 전자 장치(100)는 메모리(20)에 저장된 텍스트 데이터를 텍스트 인코더(40)로 전송할 수 있다. 여기에서, 전송되는 오디오 데이터 및 텍스트 데이터는 신경망 모델의 학습을 위한 학습 데이터가 될 수 있다. 그리고, 오디오 인코더(30)로 전송되는 오디오 데이터는, 텍스트 인코더(40)로 전송되는 텍스트 데이터와 대응되는 관계(또는, 페어링 관계)를 가질 수 있다.
한편, 본 개시의 전자 장치(100)는 마이크(10)를 포함하고, 마이크(10)를 통해 수신된 사용자 음성을 오디오 인코더(30)로 전송할 수도 있다. 마이크(10)를 통해 수신된 사용자 음성은 학습 단계에서 텍스트와 함께 신경망 모델에 입력될 수 있음은 물론, 신경망 모델의 학습 이후 추론 단계에서 신경망 모델에 입력될 수 있다.
오디오 인코더(30)는 오디오 신호의 전처리를 수행할 수 있다. 구체적으로, 오디오 인코더(30)는 오디오 신호(이는, 상술한 사용자 음성 또는 오디오 데이터가 될 수 있다.)의 노이즈를 제거하고, 오디오 신호를 복수의 오디오 요소로 분할하며, 복수의 오디오 요소에 대한 특징 변환을 수행할 수 있다. 여기에서, 노이즈 제거는 오디오 신호를 주파수 영역으로 변환한 뒤, 음성 주파수에 해당하는 영역을 추출하는 작업이 될 수 있다. 다만, 반드시 이에 한정되는 것은 아니고, 노이즈 제거는 노이즈 캔슬링 등 오디오 신호에 포함된 잡음을 제거할 수 있는 다양한 도구가 이용될 수 있다. 그리고, 오디오 신호의 분할은 오디오 신호를 복수의 텍스트 요소에 대응되는 복수의 오디오 요소로 분할하는 Phonetic segmentation 작업이 될 수 있다. 그리고, 특징 변환은 각 오디오 요소를 벡터로 변환하는 작업으로써, 이를 위해 전자 장치(100)는 복수의 오디오 요소에 대응되는 복수의 벡터를 저장할 수 있다.
텍스트 인코더(40)는 텍스트의 전처리를 수행할 수 있다. 구체적으로, 텍스트 인코더(40)는 텍스트의 정규화를 수행하고, 텍스트를 복수의 텍스트 요소로 토큰화하며, 복수의 텍스트 요소에 대한 특징 변환을 수행할 수 있다. 여기에서, 텍스트의 정규화는 텍스트에 포함된 대문자의 소문자로의 변경, 텍스트에 포함된 불필요한 요소(가령, 자연어가 아니면서 특별한 의미가 없는 특수 문자 등) 등을 제거하는 작업이 될 수 있고, 토큰화는 일정 단위로 텍스트를 복수의 텍스트 요소로 구분하는 작업으로써, 여기에서 단위는 grapheme 단위가 될 수 있으나 반드시 이에 한정되는 것은 아니다. 그리고, 특징 변환은 각 텍스트 요소를 벡터로 변환하는 작업으로써, 이를 위해 전자 장치(100)는 복수의 텍스트 요소에 대응되는 복수의 벡터를 저장할 수 있다.
오디오 인코더(30) 및 텍스트 인코더(40)는 일 예로 소프트웨어 모듈로써 신경망 모델의 일부가 될 수 있다. 다만, 실시 예에 따라 오디오 인코더(30) 및 텍스트 인코더(40)는 하드웨어 모듈로 구현될 수도 있고, 신경망 모델과는 별개의 소프트웨어 모듈로써 메모리(20)에 저장될 수도 있다.
신경망 모델(50)(일 예로, Cross-modal Model로 불릴 수 있다.)은 오디오 인코더(30)에 의해 생성된 복수의 오디오 요소(구체적으로는, 복수의 오디오 요소에 대응되는 복수의 벡터) 중 적어도 하나 또는, 텍스트 인코더(40)에 의해 생성된 복수의 텍스트 요소(구체적으로는, 복수의 오디오 요소에 대응되는 복수의 벡터) 중 적어도 하나를 마스킹 할 수 있다.
그리고, 신경망 모델(50)은 복수의 텍스트 요소와 적어도 하나가 마스킹 된 복수의 오디오 요소를 입력 데이터로, 복수의 텍스트 요소에 대응되는 복수의 오디오 요소 및, 적어도 하나가 마스킹 된 복수의 오디오 요소에 대응되는 복수의 텍스트 요소를 출력할 수 있다. 여기에서, 출력되는 복수의 오디오 요소 및 복수의 텍스트 요소는 벡터로 표현될 수 있다.
오디오 디코더(60)는 신경망 모델(50)에 의해 출력된 복수의 오디오 벡터를 복수의 오디오 요소(이는, 웨이브 신호 또는 아날로그 신호가 될 수 있다.)로 변환하고, 텍스트 디코더(70)는 신경망 모델(50)에 의해 출력된 복수의 텍스트 벡터를 복수의 텍스트 요소로 변환할 수 있다.
판별 모듈(80)(Discrimination Module)은 오디오 디코더(60)에 의해 생성된 복수의 오디오 요소 및 텍스트 디코더(70)에 의해 생성된 복수의 텍스트 요소를 비교하고, 복수의 오디오 요소 및 복수의 텍스트 요소가 대응 관계(또는, 페어링 관계)인지를 판단할 수 있다. 그리고, 판별 모듈(80)은 그 판단 결과에 대한 정보를 신경망 모델(50)에 제공하고, 신경망 모델(50)은 판별 모듈(80)로부터 수신된 정보에 기초하여 신경망 모델(50)을 구성하는 복수의 가중치의 값을 조절하는 학습을 수행할 수 있다.
한편, 오디오 디코더(60) 및 텍스트 디코더(70)는 일 예로 소프트웨어 모듈로써 신경망 모델의 일부가 될 수 있다. 다만, 실시 예에 따라 오디오 디코더(60) 및 텍스트 디코더(70)는 하드웨어 모듈로 구현될 수도 있고, 신경망 모델과는 별개의 소프트웨어 모듈로써 메모리(20)에 저장될 수도 있다.
또한, 판별 모듈(80) 역시 소프트웨어 모듈로써 신경망 모델의 일부가 될 수 있음은 물론, 실시 예에 따라 하드웨어 모듈로 구현될 수도 있고, 신경망 모델과는 별개의 소프트웨어 모듈로써 메모리(20)에 저장될 수도 있다.
도 3은 본 개시의 일 실시 예에 따른 적어도 하나의 오디오 요소를 마스킹하는 실시 예를 설명하기 위한 도면이다.
신경망 모델은 학습 단계에서, 텍스트 및 오디오 신호를 수신할 수 있다. 일 예로, 신경망 모델은 텍스트 'spoon' 및 텍스트 'spoon'에 대응되는 오디오 신호를 수신할 수 있다.
신경망 모델은 텍스트 인코더를 통해 텍스트 'spoon'를 복수의 텍스트 요소로 토큰화 할 수 있다. 일 예로, 신경망 모델은 grapheme 단위로 텍스트 'spoon'을 토큰화함으로써, 's', 'p', 'oo', 'n'을 획득할 수 있다.
신경망 모델은 오디오 인코더를 통해 텍스트 'spoon'에 대응되는 오디오 신호를 복수의 오디오 요소로 분할할 수 있다. 일 예로, 신경망 모델은 'spoon'에 대응되는 오디오 신호를 's'에 대응되는 오디오 요소, 'p'에 대응되는 오디오 요소, 'oo'에 대응되는 오디오 요소, 'n'에 대응되는 오디오 요소로 분할 할 수 있다.
신경망 모델은 복수의 오디오 요소 중 적어도 하나를 마스킹할 수 있다. 일 예로, 도 3을 참조하면, 신경망 모델은 'p'에 대응되는 오디오 신호를 제1 마스크 요소로 대체하고, 'oo'에 대응되는 오디오 신호를 제2 마스크 요소로 대체할 수 있다.
신경망 모델은 복수의 텍스트 요소와, 적어도 하나의 마스크 요소 및 적어도 하나의 오디오 요소를 입력 레이어에 입력하여 출력 데이터를 획득할 수 있다. 구체적으로, 신경망 모델은 복수의 텍스트 요소를 입력으로 신경망 모델의 연산을 수행하여 복수의 텍스트 요소에 대응되는 복수의 오디오 요소를 출력할 수 있다. 일 예로, 's', 'p', 'oo', 'n'의 입력으로, 신경망 모델은 's'에 대응되는 오디오 요소, 'p'에 대응되는 오디오 요소, 'oo'에 대응되는 오디오 요소, 'n'에 대응되는 오디오 요소를 출력할 수 있다. 그리고, 신경망 모델은 적어도 하나의 마스크 요소 및 적어도 하나의 오디오 요소를 입력으로 신경망 모델의 연산을 수행하여 적어도 하나의 마스크 요소 및 적어도 하나의 오디오 요소에 대응되는 복수의 텍스트 요소를 출력할 수 있다. 일 예로, 's'에 대응되는 오디오 요소, 제1 마스크 요소, 제2 마스크 요소 및 'n'에 대응되는 오디오 요소를 입력으로, 신경망 모델은 's', 'p', 'o', 'n'과 같은 텍스트를 출력할 수 있다.
신경망 모델은 출력된 복수의 오디오 요소 및 복수의 텍스트 요소를 비교할 수 있다. 구체적으로, 신경망 모델은 Discriminator(이는, Discriminator layer 또는 Discrimination Module로 불릴 수도 있다.)를 통해 출력된 복수의 오디오 요소 및 복수의 텍스트 요소가 대응 관계인지를 판단할 수 있다.
신경망 모델은 출력된 복수의 텍스트 요소 중 출력된 복수의 오디오 요소에 대응되는 않는 적어도 하나의 텍스트 요소를 판단할 수 있다. 상술한 실시 예에서, 신경망 모델은 제2 마스크 요소에 대한 출력으로 획득한 텍스트 'o'가 텍스트 'oo'에 대한 출력으로 획득한 오디오 요소와 대응되는 않는 관계인 것으로 판단할 수 있다. 이 경우, 신경망 모델은 's'에 대응되는 오디오 요소, 제1 마스크 요소, 제2 마스크 요소 및 'n'에 대응되는 오디오 요소를 입력으로, 출력된 복수의 오디오 요소에 대응되는 복수의 텍스트 요소, 즉 's', 'p', 'oo', 'n'과 같은 텍스트를 출력하도록 학습할 수 있다.
이와 같은 학습을 통해, 신경망 모델은 마스킹 요소를 포함하는 오디오 신호에 대한 입력으로 적절한 텍스트를 출력할 수 있으며, 이는 음성적 유사성으로 인해 사용자 의도와는 상이한 텍스트가 출력되는 오류를 방지할 수 있다.
도 4는 본 개시의 일 실시 예에 따른 적어도 하나의 텍스트 요소를 마스킹하는 실시 예를 설명하기 위한 도면이다.
신경망 모델은 학습 단계에서, 텍스트 및 오디오 신호를 수신할 수 있다. 일 예로, 신경망 모델은 텍스트 'spoon' 및 텍스트 'spoon'에 대응되는 오디오 신호를 수신할 수 있다.
신경망 모델은 텍스트 인코더를 통해 텍스트 'spoon'를 복수의 텍스트 요소로 토큰화 할 수 있다. 일 예로, 신경망 모델은 grapheme 단위로 텍스트 'spoon'을 토큰화함으로써, 's', 'p', 'oo', 'n'을 획득할 수 있다.
신경망 모델은 오디오 인코더를 통해 텍스트 'spoon'에 대응되는 오디오 신호를 복수의 오디오 요소로 분할할 수 있다. 일 예로, 신경망 모델은 'spoon'에 대응되는 오디오 신호를 's'에 대응되는 오디오 요소, 'p'에 대응되는 오디오 요소, 'oo'에 대응되는 오디오 요소, 'n'에 대응되는 오디오 요소로 분할 할 수 있다.
신경망 모델은 복수의 텍스트 요소 중 적어도 하나를 마스킹할 수 있다. 일 예로, 도 4를 참조하면, 신경망 모델은 텍스트 'p'를 제1 마스크 요소로 대체하고, 텍스트 'oo'를 제2 마스크 요소로 대체할 수 있다.
신경망 모델은 적어도 하나의 마스크 요소 및 적어도 하나의 텍스트 요소와, 복수의 오디오 요소를 입력 레이어에 입력하여 출력 데이터를 획득할 수 있다. 구체적으로, 신경망 모델은 적어도 하나의 마스크 요소 및 적어도 하나의 텍스트 요소를 입력으로 신경망 모델의 연산을 수행하여 각 요소에 대응되는 오디오 요소를 출력할 수 있다. 일 예로, 's', 제1 마스크 요소, 제2 마스크 요소, 'n'의 입력으로, 신경망 모델은 's'에 대응되는 오디오 요소, 제1 마스크 요소에 대응되는 오디오 요소, 제2 마스크 요소에 대응되는 오디오 요소, 'n'에 대응되는 오디오 요소를 출력할 수 있다.
그리고, 신경망 모델은 복수의 오디오 요소를 입력으로, 신경망 모델의 연산을 수행하여 복수의 오디오 요소에 대응되는 복수의 텍스트 요소를 출력할 수 있다. 일 예로, 's'에 대응되는 오디오 요소, 'p'에 대응되는 오디오 요소, 'oo'에 대응되는 오디오 요소 및 'n'에 대응되는 오디오 요소를 입력으로, 신경망 모델은 's', 'p', 'oo', 'n'과 같은 텍스트를 출력할 수 있다.
신경망 모델은 출력된 복수의 오디오 요소 및 복수의 텍스트 요소를 비교할 수 있다. 구체적으로, 신경망 모델은 Discriminator를 통해, 출력된 복수의 오디오 요소 및 복수의 텍스트 요소가 대응 관계인지를 판단할 수 있다.
신경망 모델은 출력된 복수의 오디오 요소 중 출력된 복수의 텍스트 요소에 대응되는 않는 적어도 하나의 오디오 요소를 판단할 수 있다. 상술한 실시 예에서, 신경망 모델은 제2 마스크 요소에 대한 출력으로 획득한 'o'에 대응되는 오디오 요소가, 'oo'에 대응되는 오디오 요소에 대한 출력으로 획득한 텍스트 요소와 대응되는 않는 관계인 것으로 판단할 수 있다. 이 경우, 신경망 모델은 텍스트 's', 제1 마스크 요소, 제2 마스크 요소 및 텍스트 'n'을 입력으로, 출력된 복수의 텍스트 요소에 대응되는 복수의 오디오 요소, 즉 's'에 대응되는 오디오 요소, 'p'에 대응되는 오디오 요소, 'oo'에 대응되는 오디오 요소 및 'n'에 대응되는 오디오 요소 를 출력하도록 학습할 수 있다.
이와 같은 학습을 통해, 신경망 모델은 마스킹 요소를 포함하는 텍스트에 대한 입력으로 적절한 오디오 신호를 출력할 수 있으며, 이는 형태적 유사성으로 인해 사용자 의도와는 상이한 오디오 신호가 출력되는 오류를 방지할 수 있다.
도 5는 본 개시의 일 실시 예에 따른 서로 대응되지 않는 텍스트 및 오디오 신호가 입력되는 경우의 동작을 설명하기 위한 도면이다.
이상에서 설명한 실시 예는, 대응 관계에 있는 텍스트 및 오디오 신호가 입력되는 경우를 전제로 한 신경망 모델의 동작에 해당한다.
다만, 실시 예에 따라, 신경망 모델에는 서로 대응되지 않는 텍스트 및 오디오 신호가 입력될 수 있다. 일 예로, 학습을 위해 입력된 텍스트가 'bloon'이고, 학습을 위해 입력된 오디오 신호가 'spoon'에 대응되는 오디오 신호인 경우가 그러하다.
이 경우, 신경망 모델은 상술한 크로스-모달리티 학습을 수행하지 않고, 학습 절차를 종료할 수 있다. 이를 위해, 신경망 모델은 텍스트 및 오디오 신호가 입력되면 학습을 위한 전처리 전(즉, 텍스트 토크화 또는 오디오 신호 분할 등)에 앞서 텍스트가 오디오 신호에 대응되는지 또는 오디오 신호가 텍스트에 대응되는지를 판단할 수 있다.
그리고, 신경망 모델은 텍스트 및 오디오 신호가 대응 관계에 있지 않은 것으로 판단되면, 학습을 위한 전처리나 학습을 수행하지 않고, 학습을 위한 절차를 종료할 수 있다.
즉, 본 개시의 신경망 모델은 텍스트 및 오디오 신호가 대응 관계에 있는 것으로 판단되면, 입력된 텍스트 및 오디오 신호에 대한 학습을 수행할 수 있다.
이에 따라, 본 개시의 신경망 모델은 대응 관계가 아닌 텍스트 및 오디오 신호의 학습으로 인해 발생할 수 있는 출력 데이터의 오류를 방지할 수 있고, 프로세서의 불필요한 연산을 방지할 수 있다.
도 6은 본 개시의 일 실시 예에 따른 학습 된 신경망 모델을 통해 ASR 기능을 제공하는 실시 예를 설명하기 위한 흐름도이다.
본 개시의 전자 장치(100)는 마이크(10)을 통해 사용자 음성에 대응되는 오디오 신호를 수신(S610)할 수 있다. 여기에서, 사용자 음성에 대응되는 오디오 신호는 아날로그 신호(또는, 웨이브 신호)가 될 수 있다.
전자 장치(100)는 사용자 음성에 대응되는 오디오 신호를 신경망 모델에 입력할 수 있다. 이 경우, 신경망 모델은 오디오 신호 처리를 위한 전처리를 수행할 수 있다. 구체적으로, 신경망 모델은 오디오 신호에 포함된 노이즈를 제거(S620)할 수 있다. 여기에서, 노이즈의 제거는 일 예로, 오디오 신호를 주파수 영역으로 변환한 뒤, 음성 주파수에 해당하는 영역을 추출하는 작업이 될 수 있다.
그리고, 신경망 모델은 오디오 신호를 복수의 오디오 요소로 분할(S630)할 수 있다. 일 예로, 신경망 모델은 오디오 신호에 Phonetic segmentation을 수행할 수 있다.
그리고, 신경망 모델은 복수의 오디오 요소의 특징 변환을 수행(S640)할 수 있다. 여기에서, 특징 변환은 각 오디오 요소를 벡터로 변환하는 작업으로써, 이를 위해 전자 장치(100)는 복수의 오디오 요소에 대응되는 복수의 벡터를 저장할 수 있다.
그리고, 신경망 모델은 복수의 벡터를 신경망 모델의 입력 레이어에 입력하여 신경망 모델의 연산을 수행(S650)하고, 복수의 벡터에 대응되는 텍스트를 생성(S660)할 수 있다. 구체적으로, 신경망 모델은 복수의 레이어에 포함된 가중치 값들과 입력 레이어에 입력된 복수의 벡터의 연산에 기초하여, 입력된 오디오 신호에 대응되는 텍스트를 출력할 수 있다.
도 7은 본 개시의 일 실시 예에 따른 학습 된 신경망 모델을 통해 TTS 기능을 제공하는 실시 예를 설명하기 위한 흐름도이다.
본 개시의 전자 장치(100)는 입력부(미도시)을 통해 텍스트를 수신(S710)할 수 있다. 여기에서, 입력부(미도시)는 일 예로 키보드가 될 수 있으나 반드시 이에 한정되는 것은 아니고, 터치 스크린, 터치 패드, 소프트 키보드 등과 같이 사용자 입력을 수신할 수 있는 다양한 기기로 구현될 수 있다.
전자 장치(100)는 텍스트를 신경망 모델에 입력할 수 있다. 이 경우, 신경망 모델은 텍스트 처리를 위한 전처리를 수행할 수 있다. 구체적으로, 신경망 모델은 텍스트의 정규화(S720)를 수행할 수 있다. 여기에서, 텍스트의 정규화는 텍스트에 포함된 대문자의 소문자로의 변경, 텍스트에 포함된 불필요한 요소(가령, 자연어가 아니면서 특별한 의미가 없는 특수 문자 등) 등을 제거하는 작업이 될 수 있다.
그리고, 신경망 모델은 텍스트를 복수의 텍스트 요소로 토큰화(S730)할 수 있다. 여기에서, 토큰화는 일정 단위로 텍스트를 복수의 텍스트 요소로 구분하는 작업으로써, 여기에서 단위는 grapheme 단위가 될 수 있으나 반드시 이에 한정되는 것은 아니다.
그리고, 신경망 모델은 복수의 텍스트 요소의 특징 변환을 수행(S640)할 수 있다. 여기에서, 특징 변환은 각 텍스트 요소를 벡터로 변환하는 작업으로써, 이를 위해 전자 장치(100)는 복수의 텍스트 요소에 대응되는 복수의 벡터를 저장할 수 있다.
그리고, 신경망 모델은 복수의 벡터를 신경망 모델의 입력 레이어에 입력하여 신경망 모델의 연산을 수행(S750)하고, 복수의 벡터에 대응되는 오디오 신호를 생성(S760)할 수 있다. 구체적으로, 신경망 모델은 복수의 레이어에 포함된 가중치 값들과 입력 레이어에 입력된 복수의 벡터의 연산에 기초하여, 입력된 텍스트에 대응되는 오디오 신호를 출력할 수 있다.
도 8은 본 개시의 일 실시 예에 따른 전자 장치를 설명하기 위한 블록도이다.
도 8을 참조하면, 본 개시의 일 실시 예에 따른 전자 장치(100)는 메모리(110) 및 프로세서(120)를 포함한다.
메모리(110)에는 적어도 하나의 인스트럭션(instruction)이 저장될 수 있다. 그리고, 메모리(110)에는 전자 장치(100)를 구동시키기 위한 O/S(Operating System)가 저장될 수 있다. 또한, 메모리(110)에는 본 개시의 다양한 실시 예들을 실행하기 위한 소프트웨어 프로그램이나 애플리케이션이 저장될 수도 있다. 메모리(110)는 플래시 메모리(Flash Memory) 등과 같은 반도체 메모리나 하드디스크(Hard Disk) 등과 같은 자기 저장 매체 등을 포함할 수 있다.
메모리(110)에는 본 개시의 다양한 실시 예들을 실행하기 위한 소프트웨어 모듈이 저장될 수 있으며, 프로세서(120)는 메모리(110)에 저장된 소프트웨어 모듈을 실행하여 전자 장치(100)의 동작을 제어할 수 있다. 즉, 메모리(110)는 프로세서(120)에 의해 액세스되며, 프로세서(120)에 의한 데이터의 독취/기록/수정/삭제/갱신 등이 수행될 수 있다.
한편, 본 개시에서 메모리(110)라는 용어는 메모리(110), 프로세서(120) 내 롬(미도시), 램(미도시) 또는 전자 장치(100)에 장착되는 메모리 카드(미도시)(예를 들어, micro SD 카드, 메모리 스틱)를 포함하는 의미로 사용될 수 있다.
특히, 메모리(110)에는 본 개시에 따른 신경망 모델이 저장될 수 있으며, 텍스트를 벡터로 변환하기 위한 텍스트 인코더, 오디오 신호를 벡터로 변환하기 위한 오디오 인코더, 벡터를 텍스트로 변환하기 위한 텍스트 디코더, 벡터를 오디오 신호로 변환하기 위한 오디오 디코더 와 같은 소프트웨어 모듈이 저장될 수 있다.
그 밖에도 본 개시의 목적을 달성하기 위한 범위 내에서 필요한 다양한 정보가 메모리(110)에 저장될 수 있으며, 메모리(110)에 저장된 정보는 외부 장치로부터 수신될 수 있고, 사용자에 입력에 기초하여 갱신될 수 있다. 일 예로, 메모리(110)에는 오디오 데이터 및 텍스트 데이터가 저장될 수 있고, 오디오 데이터에 대응되는 벡터 정보 및 텍스트 데이터에 대응되는 벡터 정보가 저장될 수 있다.
프로세서(120)는 전자 장치(100)의 전반적인 동작을 제어한다. 구체적으로, 프로세서(120)는 메모리(110)에 저장된 적어도 하나의 인스트럭션을 실행함으로써, 전자 장치(100)의 동작을 제어할 수 있다.
프로세서(120)는 일 예로 주문형 집적 회로(Application Specific Integrated Circuit, ASIC), 임베디드 프로세서, 마이크로 프로세서, 하드웨어 컨트롤 로직, 하드웨어 유한 상태 기계(hardware Finite State Machine, FSM), 디지털 신호 프로세서(Digital Signal Processor, DSP) 중 적어도 하나로 구현될 수 있다. 한편, 본 개시에서 프로세서(120)라는 용어는 CPU(Central Processing Unit), GPU(Graphic Processing Unit) 및 MPU(Main Processing Unit)등을 포함하는 의미로 사용될 수 있다.
특히, 프로세서(120)는 텍스트 및 오디오 신호를 신경망 모델에 입력하고, 신경망 모델을 구성하는 복수의 레이어에 포함된 복수의 가중치 값을 독출하며, 입력 데이터 및 가중치 값에 기초한 신경망 연산을 수행할 수 있다. 그리고, 프로세서(120)는 신경망 연산에 기초하여 신경망 모델로부터 출력 데이터를 획득하고, 여기에서 출력 데이터는 입력된 텍스트에 대응되는 오디오 신호 또는, 입력된 오디오 신호에 대응되는 텍스트가 될 수 있다.
도 9는 본 개시의 일 실시 예에 따른 전자 장치를 설명하기 위한 상세 블록도이다.
도 9를 참조하면, 본 개시의 일 실시 예에 따른 전자 장치(100)는 메모리(110), 통신부(130), 입력부(150), 출력부(160) 및 프로세서(160)를 포함할 수 있다. 이하, 상술한 설명과 중복되는 부분은 생략하거나 축약하여 설명한다.
통신부(130)는 회로를 포함하며, 외부 장치와의 통신을 수행할 수 있다. 구체적으로, 프로세서(120)는 통신부(130)를 통해 연결된 외부 장치로부터 각종 데이터 또는 정보를 수신할 수 있으며, 외부 장치로 각종 데이터 또는 정보를 전송할 수 있다.
통신부(130)는 WiFi 모듈, Bluetooth 모듈, 무선 통신 모듈, 및 NFC 모듈 중 적어도 하나를 포함할 수 있다. WiFi 모듈과 Bluetooth 모듈 각각은 WiFi 방식, Bluetooth 방식으로 통신을 수행할 수 있다. 무선 통신 모듈은 IEEE, Zigbee, 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evolution), 5G(5th Generation) 등과 같은 다양한 통신 규격에 따라 통신을 수행할 수 있다. 그리고, NFC 모듈은 135kHz, 13.56MHz, 433MHz, 860~960MHz, 2.45GHz 등과 같은 다양한 RF-ID 주파수 대역들 중에서 13.56MHz 대역을 사용하는 NFC(Near Field Communication) 방식으로 통신을 수행할 수 있다.
출력부(160)는 회로를 포함하며, 프로세서(120)는 출력부(160)를 통해 다양한 정보를 출력할 수 있다. 출력부(160)는 디스플레이 및 스피커 중 적어도 하나를 포함할 수 있다.
디스플레이는 프로세서(120)의 제어에 의하여 다양한 화면을 표시할 수 있다. 일 예로, 디스플레이는 프로세서(120)의 제어에 의하여 텍스트를 표시할 수 있다. 여기에서, 텍스트는 신경망 모델에 의해 출력된 텍스트가 될 수 있다.
디스플레이는 LCD(Liquid Crystal Display Panel), OLED(Organic Light Emitting Diodes) 등으로 구현될 수 있으며, 또한 디스플레이는 경우에 따라 플렉서블 디스플레이, 투명 디스플레이 등으로 구현되는 것도 가능하다. 다만, 본 개시에 따른 디스플레이가 특정한 종류에 한정되는 것은 아니다.
스피커는 프로세서(120)의 제어에 의하여 오디오 신호를 출력할 수 있다. 여기에서, 오디오 신호는 신경망 모델에 의해 출력된 오디오 신호가 될 수 있다.
본 개시에 따른 다양한 실시 예에 있어서, 프로세서(120)는 출력부(160)를 통해 출력 데이터를 사용자에게 제공할 수 있다. 구체적으로, 프로세서(120)는 디스플레이를 통해 출력 데이터를 시각적으로 사용자에게 제공할 수 있으며, 스피커를 통해 출력 데이터를 음성 신호의 형태로 사용자에게 제공할 수도 있다.
입력부(150)는 회로를 포함하며, 프로세서(120)는 입력부(150)를 통해 전자 장치(100)의 동작을 제어하기 위한 사용자 명령을 수신할 수 있다. 구체적으로, 입력부(150)는 마이크, 카메라 또는 신호 수신부 등과 같은 구성으로 이루어 질 수 있다. 그리고, 입력부(150)는 터치 스크린으로서 디스플레이에 포함된 형태로 구현될 수도 있다.
본 개시에 따른 다양한 실시 예에 있어서, 프로세서(120)는 입력부(150)를 통해 본 개시에 따른 프로세서(120)의 동작을 개시하도록 하는 사용자 명령을 수신할 수 있다. 그리고, 프로세서(120)는 신경망 모델을 통해 입력 데이터에 대응되는 출력 데이터를 제공하기 위한 사용자 명령을 입력부(150)를 통해 수신할 수 있다.
신경망 모델은 복수의 신경망 레이어들로 구성될 수 있다. 각 레이어는 복수의 가중치(weight values)를 갖고 있으며, 프로세서(120)는 이전(previous) 레이어의 연산 결과와 복수의 가중치의 연산을 통해 레이어의 연산을 수행할 수 있다. 신경망 모델의 예로는, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network), GAN(Generative Adversarial Networks) 및 심층 Q-네트워크 (Deep Q-Networks)이 있으며, 본 개시에서의 신경망 모델은 상술한 예에 한정되지 않는다.
프로세서(120)는 학습 알고리즘을 통해 신경망 모델을 학습시킬 수 있다. 학습 알고리즘은의 예로는, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)이 있으며, 본 개시에서의 학습 알고리즘은 상술한 예에 한정되지 않는다.
도 10은 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 도면이다.
전자 장치(100)는 제1 모달리티 및 제2 모달리티를 신경망 모델에 입력(S1010)할 수 있다. 여기에서, 복수의 모달리티 중 하나는 텍스트이고, 다른 하나는 오디오 신호가 될 수 있다.
전자 장치(100)는 입력된 제1 모달리티에 기초한 제1 출력 데이터 및 입력된 제2 모달리티에 기초한 제2 출력 데이터의 비교에 기초하여, 제2 모달리티가 입력되면, 제1 출력 데이터에 대응되는 제1 모달리티를 출력하도록 신경망 모델을 학습(S1020)시킬 수 있다.
구체적으로, 전자 장치(100)는 텍스트를 복수의 텍스트 요소로 토큰화하고, 오디오 신호를 복수의 오디오 요소로 세그먼트화할 수 있다. 그리고, 전자 장치(100)는 복수의 텍스트 요소 중 적어도 하나 또는 복수의 오디오 요소 중 적어도 하나를 마스킹할 수 있다.
그리고, 전자 장치(100)는 토큰화 된 복수의 텍스트 요소로 구성된 제1 텍스트와, 세그먼트화 된 복수의 오디오 요소 중 적어도 하나가 마스킹 된 제1 오디오 신호를 신경망 모델에 입력할 수 있다.
이 경우, 신경망 모델은 제1 텍스트에 대응되는 제2 오디오 신호 및 제1 오디오 신호에 대응되는 제2 텍스트를 출력할 수 있다.
그리고, 신경망 모델은 제2 오디오 신호 및 제2 텍스트의 비교에 기초하여, 상기 적어도 하나의 마스킹 요소를 포함하는 제1 오디오 신호가 입력되면, 제2 오디오 신호에 대응되는 제1 텍스트를 출력하도록 학습할 수 있다.
구체적으로, 신경망 모델은, 제2 오디오 신호에 포함된 복수의 오디오 요소 및 제2 텍스트에 포함된 복수의 텍스트 요소의 비교에 기초하여, 적어도 하나의 마스킹 요소를 포함하는 제1 오디오 신호에 대한 출력으로, 제2 오디오 신호에 대응되는 텍스트가 출력되지 않은 것으로 판단되면 학습을 수행할 수 있다.
이에 따라, 신경망 모델은, 학습을 통해 마스킹 요소에 대응되는 텍스트 요소를 출력할 수 있다.
또는, 전자 장치(100)는 세그먼트화 된 복수의 오디오 요소로 구성된 제1 오디오 신호와, 토큰화 된 복수의 텍스트 요소 중 적어도 하나가 마스킹 된 제1 텍스트를 신경망 모델에 입력할 수 있다.
이 경우, 신경망 모델은, 제1 오디오 신호에 대응되는 제2 텍스트 및 제1 텍스트에 대응되는 제2 오디오 신호를 출력할 수 있다.
그리고, 신경망 모델은 제2 텍스트 및 제2 오디오 신호의 비교에 기초하여, 적어도 하나의 마스킹 요소를 포함하는 제1 텍스트가 입력되면, 제2 텍스트에 대응되는 제1 오디오 신호를 출력하도록 학습할 수 있다.
구체적으로, 신경망 모델은, 제2 텍스트에 포함된 복수의 텍스트 요소 및 제2 오디오 신호에 포함된 복수의 오디오 요소의 비교에 기초하여, 적어도 하나의 마스킹 요소를 포함하는 제1 텍스트에 대한 출력으로, 제2 텍스트에 대응되는 오디오 신호가 출력되지 않은 것으로 판단되면 학습을 수행할 수 있다.
이에 따라, 신경망 모델은, 학습을 통해 마스킹 요소에 대응되는 오디오 요소를 출력할 수 있다.
한편, 상술한 본 개시의 다양한 실시 예들에 따른 방법들은, 기존 전자 장치에 대한 소프트웨어/하드웨어 업그레이드 만으로도 구현될 수 있다.
또한, 상술한 본 개시의 다양한 실시 예들은 전자 장치에 구비된 임베디드 서버, 또는 외부의 서버를 통해 수행되는 것도 가능하다.
상술한 다양한 실시 예에 따른 전자 장치의 제어 방법은 프로그램으로 구현되어 다양한 기록 매체에 저장될 수 있다. 즉, 각종 프로세서에 의해 처리되어 상술한 다양한 제어 방법을 실행할 수 있는 컴퓨터 프로그램이 기록 매체에 저장된 상태로 사용될 수도 있다.
비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.

Claims (15)

  1. 전자 장치에 있어서,
    신경망 모델을 저장하는 메모리; 및
    입력 데이터를 상기 신경망 모델에 입력하여 출력 데이터를 획득하는 프로세서;를 포함하고,
    상기 신경망 모델은,
    입력된 제1 모달리티에 기초한 제1 출력 데이터 및 입력된 제2 모달리티에 기초한 제2 출력 데이터의 비교에 기초하여, 상기 제2 모달리티가 입력되면, 상기 제1 출력 데이터에 대응되는 상기 제1 모달리티를 출력하도록 학습된 모델이며,
    상기 제2 모달리티는, 적어도 하나의 마스킹 요소를 포함하는 전자 장치.
  2. 제1항에 있어서,
    상기 제1 및 제2 모달리티 중 하나는 텍스트이고, 다른 하나는 오디오 신호인, 전자 장치.
  3. 제2항에 있어서,
    상기 신경망 모델은,
    상기 텍스트를 복수의 텍스트 요소로 토큰화하고, 상기 오디오 신호를 복수의 오디오 요소로 세그먼트화하며, 상기 복수의 텍스트 요소 중 적어도 하나 또는 상기 복수의 오디오 요소 중 적어도 하나를 마스킹하는, 전자 장치.
  4. 제1항에 있어서,
    상기 제1 모달리티는 제1 텍스트를 포함하고, 상기 제2 모달리티는 제1 오디오 신호를 포함하며,
    상기 신경망 모델은,
    토큰화 된 복수의 텍스트 요소로 구성된 상기 제1 텍스트와, 세그먼트화 된 복수의 오디오 요소 중 적어도 하나가 마스킹 된 상기 제1 오디오 신호를 입력 데이터로, 상기 제1 텍스트에 대응되는 제2 오디오 신호 및 상기 제1 오디오 신호에 대응되는 제2 텍스트를 출력하고,
    상기 제2 오디오 신호 및 상기 제2 텍스트의 비교에 기초하여, 상기 적어도 하나의 마스킹 요소를 포함하는 제1 오디오 신호가 입력되면, 상기 제2 오디오 신호에 대응되는 제1 텍스트를 출력하도록 학습된 모델인, 전자 장치.
  5. 제4항에 있어서,
    상기 신경망 모델은,
    상기 제2 오디오 신호에 포함된 복수의 오디오 요소 및 상기 제2 텍스트에 포함된 복수의 텍스트 요소의 비교에 기초하여, 상기 적어도 하나의 마스킹 요소를 포함하는 제1 오디오 신호에 대한 출력으로, 상기 제2 오디오 신호에 대응되는 텍스트가 출력되지 않은 것으로 판단되면 상기 학습을 수행하는, 전자 장치.
  6. 제4항에 있어서,
    상기 신경망 모델은,
    상기 학습을 통해 상기 마스킹 요소에 대응되는 텍스트 요소를 출력하는, 전자 장치.
  7. 제1항에 있어서,
    상기 제1 모달리티는 제1 오디오 신호를 포함하고, 상기 제2 모달리티는 제1 텍스트를 포함하며,
    상기 신경망 모델은,
    세그먼트화 된 복수의 오디오 요소로 구성된 상기 제1 오디오 신호와, 토큰화 된 복수의 텍스트 요소 중 적어도 하나가 마스킹 된 상기 제1 텍스트를 입력 데이터로, 상기 제1 오디오 신호에 대응되는 제2 텍스트 및 상기 제1 텍스트에 대응되는 제2 오디오 신호를 출력하고,
    상기 제2 텍스트 및 상기 제2 오디오 신호의 비교에 기초하여, 상기 적어도 하나의 마스킹 요소를 포함하는 제1 텍스트가 입력되면, 상기 제2 텍스트에 대응되는 제1 오디오 신호를 출력하도록 학습된 모델인, 전자 장치.
  8. 제7항에 있어서,
    상기 신경망 모델은,
    상기 제2 텍스트에 포함된 복수의 텍스트 요소 및 상기 제2 오디오 신호에 포함된 복수의 오디오 요소의 비교에 기초하여, 상기 적어도 하나의 마스킹 요소를 포함하는 제1 텍스트에 대한 출력으로, 상기 제2 텍스트에 대응되는 오디오 신호가 출력되지 않은 것으로 판단되면 상기 학습을 수행하는, 전자 장치.
  9. 제7항에 있어서,
    상기 신경망 모델은,
    상기 학습을 통해 상기 마스킹 요소에 대응되는 오디오 요소를 출력하는, 전자 장치.
  10. 전자 장치의 제어 방법에 있어서,
    입력 데이터를 신경망 모델에 입력하는 단계; 및
    상기 신경망 모델의 연산을 통해, 상기 입력 데이터에 대한 출력 데이터를 획득하는 단계;를 포함하고,
    상기 신경망 모델은,
    입력된 제1 모달리티에 기초한 제1 출력 데이터 및 입력된 제2 모달리티에 기초한 제2 출력 데이터의 비교에 기초하여, 상기 제2 모달리티가 입력되면, 상기 제1 출력 데이터에 대응되는 상기 제1 모달리티를 출력하도록 학습된 모델이며,
    상기 제2 모달리티는, 적어도 하나의 마스킹 요소를 포함하는 전자 장치의 제어 방법.
  11. 제10항에 있어서,
    상기 제1 및 제2 모달리티 중 하나는 텍스트이고, 다른 하나는 오디오 신호인, 전자 장치의 제어 방법.
  12. 제11항에 있어서,
    상기 텍스트는 복수의 텍스트 요소로 토큰화되고, 상기 오디오 신호는 복수의 오디오 요소로 세그먼트화되며, 상기 복수의 텍스트 요소 중 적어도 하나 또는 상기 복수의 오디오 요소 중 적어도 하나는 마스킹되어 상기 신경망 모델에 입력되는, 전자 장치의 제어 방법.
  13. 제10항에 있어서,
    상기 제1 모달리티는 제1 텍스트를 포함하고, 상기 제2 모달리티는 제1 오디오 신호를 포함하며,
    상기 신경망 모델은,
    토큰화 된 복수의 텍스트 요소로 구성된 상기 제1 텍스트와, 세그먼트화 된 복수의 오디오 요소 중 적어도 하나가 마스킹 된 상기 제1 오디오 신호를 입력 데이터로, 상기 제1 텍스트에 대응되는 제2 오디오 신호 및 상기 제1 오디오 신호에 대응되는 제2 텍스트를 출력하고,
    상기 제2 오디오 신호 및 상기 제2 텍스트의 비교에 기초하여, 상기 적어도 하나의 마스킹 요소를 포함하는 제1 오디오 신호가 입력되면, 상기 제2 오디오 신호에 대응되는 제1 텍스트를 출력하도록 학습된 모델인, 전자 장치의 제어 방법.
  14. 제13항에 있어서,
    상기 신경망 모델은,
    상기 제2 오디오 신호에 포함된 복수의 오디오 요소 및 상기 제2 텍스트에 포함된 복수의 텍스트 요소의 비교에 기초하여, 상기 적어도 하나의 마스킹 요소를 포함하는 제1 오디오 신호에 대한 출력으로, 상기 제2 오디오 신호에 대응되는 텍스트가 출력되지 않은 것으로 판단되면 상기 학습을 수행하는, 전자 장치의 제어 방법.
  15. 제13항에 있어서,
    상기 신경망 모델은,
    상기 학습을 통해 상기 마스킹 요소에 대응되는 텍스트 요소를 출력하는, 전자 장치의 제어 방법.
PCT/KR2020/018985 2020-10-26 2020-12-23 전자 장치 및 그 제어 방법 WO2022092440A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/422,020 US11875816B2 (en) 2020-10-26 2020-12-23 Electronic device and method for controlling thereof

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020200139595A KR20220055296A (ko) 2020-10-26 2020-10-26 전자 장치 및 그 제어 방법
KR10-2020-0139595 2020-10-26

Publications (1)

Publication Number Publication Date
WO2022092440A1 true WO2022092440A1 (ko) 2022-05-05

Family

ID=81382742

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/018985 WO2022092440A1 (ko) 2020-10-26 2020-12-23 전자 장치 및 그 제어 방법

Country Status (3)

Country Link
US (1) US11875816B2 (ko)
KR (1) KR20220055296A (ko)
WO (1) WO2022092440A1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10522167B1 (en) * 2018-02-13 2019-12-31 Amazon Techonlogies, Inc. Multichannel noise cancellation using deep neural network masking
JP2020027168A (ja) * 2018-08-10 2020-02-20 大学共同利用機関法人情報・システム研究機構 学習装置、学習方法、音声合成装置、音声合成方法及びプログラム
JP2020149680A (ja) * 2019-03-14 2020-09-17 富士ゼロックス株式会社 非テキスト入力による感覚媒体間の関連付けを学習するためのシステム、プログラム及び方法
US20200335121A1 (en) * 2017-11-22 2020-10-22 Google Llc Audio-visual speech separation

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5839106A (en) 1996-12-17 1998-11-17 Apple Computer, Inc. Large-vocabulary speech recognition using an integrated syntactic and semantic statistical language model
US6928404B1 (en) 1999-03-17 2005-08-09 International Business Machines Corporation System and methods for acoustic and language modeling for automatic speech recognition with large vocabularies
KR20030021395A (ko) 2001-09-06 2003-03-15 정현열 에치엠엠 기반의 음성/문자 공용 인식 장치 및 그 방법
US8095364B2 (en) 2004-06-02 2012-01-10 Tegic Communications, Inc. Multimodal disambiguation of speech recognition
US9348417B2 (en) 2010-11-01 2016-05-24 Microsoft Technology Licensing, Llc Multimodal input system
KR101393255B1 (ko) 2012-06-12 2014-05-08 한국과학기술원 스피치와 키스트로크 조합형 음성 인식 방법 및 음성 인식 장치
KR20140143034A (ko) 2013-06-05 2014-12-15 삼성전자주식회사 다양한 입력 기반의 서비스 제공 방법 및 그 전자 장치
US10831366B2 (en) 2016-12-29 2020-11-10 Google Llc Modality learning on mobile devices
US11093560B2 (en) 2018-09-21 2021-08-17 Microsoft Technology Licensing, Llc Stacked cross-modal matching
US11803758B2 (en) * 2020-04-17 2023-10-31 Microsoft Technology Licensing, Llc Adversarial pretraining of machine learning models

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200335121A1 (en) * 2017-11-22 2020-10-22 Google Llc Audio-visual speech separation
US10522167B1 (en) * 2018-02-13 2019-12-31 Amazon Techonlogies, Inc. Multichannel noise cancellation using deep neural network masking
JP2020027168A (ja) * 2018-08-10 2020-02-20 大学共同利用機関法人情報・システム研究機構 学習装置、学習方法、音声合成装置、音声合成方法及びプログラム
JP2020149680A (ja) * 2019-03-14 2020-09-17 富士ゼロックス株式会社 非テキスト入力による感覚媒体間の関連付けを学習するためのシステム、プログラム及び方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MARJAN GHAZVININEJAD; OMER LEVY; YINHAN LIU; LUKE ZETTLEMOYER: "Mask-Predict: Parallel Decoding of Conditional Masked Language Models", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 19 April 2019 (2019-04-19), 201 Olin Library Cornell University Ithaca, NY 14853 , XP081492789 *

Also Published As

Publication number Publication date
US11875816B2 (en) 2024-01-16
KR20220055296A (ko) 2022-05-03
US20220343939A1 (en) 2022-10-27

Similar Documents

Publication Publication Date Title
WO2021132927A1 (en) Computing device and method of classifying category of data
WO2020246702A1 (en) Electronic device and method for controlling the electronic device thereof
WO2020159288A1 (ko) 전자 장치 및 그 제어 방법
WO2021071110A1 (en) Electronic apparatus and method for controlling electronic apparatus
WO2020091519A1 (en) Electronic apparatus and controlling method thereof
WO2020184935A1 (en) Electronic apparatus and method for controlling thereof
WO2020045794A1 (ko) 전자 장치 및 그 제어 방법
WO2022092440A1 (ko) 전자 장치 및 그 제어 방법
WO2020166796A1 (ko) 전자 장치 및 그 제어 방법
WO2020060071A1 (en) Electronic apparatus and control method thereof
WO2020080812A1 (en) Electronic device and controlling method of electronic device
WO2022169172A1 (ko) 사용자의 질의를 처리하는 디바이스 및 그 동작 방법
WO2019198900A1 (en) Electronic apparatus and control method thereof
WO2022086045A1 (ko) 전자 장치 및 이의 제어 방법
WO2021060891A1 (en) Electronic device and controlling method of electronic device
WO2021049802A1 (ko) 전자 장치 및 이의 제어 방법
WO2022158776A1 (ko) 전자 장치 및 전자 장치의 제어 방법
WO2022177089A1 (ko) 전자 장치 및 그 제어 방법
WO2020045977A1 (en) Electronic apparatus and control method thereof
WO2022177156A1 (ko) 전자 장치 및 이의 제어 방법
WO2023120861A1 (ko) 전자 장치 및 그 제어 방법
WO2023058862A1 (ko) 전자 장치 및 전자 장치의 제어 방법
WO2023075118A1 (ko) 전자 장치 및 그 동작 방법
WO2023063569A1 (ko) 전자 장치 및 그 제어 방법
WO2022149688A1 (ko) 전자 장치 및 이의 제어 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20960056

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20960056

Country of ref document: EP

Kind code of ref document: A1