WO2019164078A1 - 주제문 추출 가능한 실시간 다자 통역 무선 송수신 시스템 및 이를 이용한 송수신 방법 - Google Patents

주제문 추출 가능한 실시간 다자 통역 무선 송수신 시스템 및 이를 이용한 송수신 방법 Download PDF

Info

Publication number
WO2019164078A1
WO2019164078A1 PCT/KR2018/010398 KR2018010398W WO2019164078A1 WO 2019164078 A1 WO2019164078 A1 WO 2019164078A1 KR 2018010398 W KR2018010398 W KR 2018010398W WO 2019164078 A1 WO2019164078 A1 WO 2019164078A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
sentence
voice
receiving
real
Prior art date
Application number
PCT/KR2018/010398
Other languages
English (en)
French (fr)
Inventor
백민호
Original Assignee
(주)에어사운드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020180021969A external-priority patent/KR102042247B1/ko
Priority claimed from KR1020180031774A external-priority patent/KR102118603B1/ko
Priority claimed from KR1020180086950A external-priority patent/KR102170902B1/ko
Application filed by (주)에어사운드 filed Critical (주)에어사운드
Publication of WO2019164078A1 publication Critical patent/WO2019164078A1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/40Network security protocols
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones

Definitions

  • the present invention relates to a system and method for extracting a topic sentence in real time, and more particularly, to a real-time multilingual interpretation wireless transmission / reception system, which transmits and receives data in which an input signal and an ID signal for corresponding language information are combined through a translation server.
  • a translation in real time, and through a transmission and reception system that can be worn on the user's ear, a plurality of people can talk in real time even if using a different language, and relates to a wireless transmission and reception system and method that can extract the topic sentence of the content of the conversation .
  • the user may set the language of the country in advance or the dedicated translator recognizes the other party's voice to translate the native language into the voice of the corresponding country in real time. .
  • the prior art is a system that solves language barriers using a native language in an electronic device used by the electronic device, even when the language is unfamiliar to other languages or does not communicate with each other, and is capable of automatically translating and translating for each of a plurality of unspecified languages.
  • the prior art as described above is not limited to interpreting a voice call between a user and another person using a voice call device, but interpreting it during a conversation through a meeting.
  • using the smart phone to use the interpretation service but this is also useful for a conversation through a meeting, not a voice call, and because the user proceeds the conversation through the text, the environment that does not actually communicate with the drawback is have.
  • the main subject sentence extraction method used in the related art includes TF-IDF (Term Frequency-Inverse Document Frequency), which is a method of extracting key sentences by identifying the frequency and increasing the weight of the word having the highest frequency.
  • Other methods include subdividing a document into a tree structure and extracting key sentences, and inputting a document pattern into a database to extract key sentences using a pattern recognition method.
  • the TF-IDF method has a general purpose but has a weakness in accuracy.
  • the tree structure and pattern recognition method have improved accuracy.
  • defining the pattern requires considerable time and effort. In this case, a problem arises in that the core sentence cannot be extracted properly. Therefore, when extracting key sentences of all documents searched for a specific subject on the Internet, the accuracy may be inferior, or the generality may not be extracted.
  • the existing key sentence extraction method has a problem that the accuracy of the subject where the pattern is defined is high, but the accuracy of the subject that is not defined is low even when using the TF-IDF method.
  • the present invention has been made to solve the above-described problems, to solve the problem that the conventional translator does not provide a direct conversation environment by performing a translation using a voice call device, the user's pronunciation and language We want to provide a conversation environment where users can talk directly.
  • the present invention analyzes and recognizes the language by receiving the ID of the corresponding language information in hardware in the conventional interpreter, so that the real-time multi-party in order to solve the recognition delay and recognition failure that occurs when translating a plurality of languages
  • the interpreter wireless transmission / reception system analyzes the ID signal by transmitting and receiving the input voice and the data combined with the ID signal for the corresponding language information through the translation server, the corresponding language can be interpreted immediately and delayed the speech recognition even when translating multiple languages. And to provide a real-time multi-language interpretation radio transceiver to solve the recognition failure.
  • the present invention provides a deep sentence algorithm based key sentence extraction method that secures punctuation exceptions, and provides a deep sentence algorithm based key sentence extraction method for sampling a plurality of sentences.
  • a transceiver comprising a microphone and an earphone for recognizing a user's voice, wherein the transceiver is configured as one-to-one, one-to-many or many-to-many, and the voice recognized by the microphone is composed of ID data and language data including language information. And a receiving end for encoding and a decoding end for decoding ID data and voice data received from the transmitting end.
  • the transceiver may be connected to a translation server that receives ID data and voice data transmitted from the transmitting end, translates ID data and voice data for each of a plurality of predefined languages, and transmits the ID data and voice data to a receiving end of a corresponding other transceiver. It is done.
  • the wireless transceiver In addition, the wireless transceiver. And a translation server that receives the ID data and the voice data transmitted from the transmitting end, translates the ID data and the voice data for each of a plurality of predefined languages, and transmits the ID data and the voice data to the receiving end of the corresponding other transmitting and receiving apparatus.
  • the transceiving device is connected to an app in a mobile device, and the app includes an interpreter database so that a user can select an interpreter.
  • Transmitting and receiving including an ID setting unit for setting the user's language information, a transmitting end receiving the voice and encoding and transmitting the ID data and the voice data, and a receiving end receiving and decoding the ID data and the voice data to output in the corresponding language
  • the transmitter may include a voice input unit for receiving a voice and converting an electrical signal, a first header analyzer for receiving and analyzing a signal of the ID setting unit, and an ID analyzed by the input voice and the first header analyzer. It may include an encoding unit for converting the signal to the data and combine, and a transmitter for transmitting the data combined with the voice data and ID data converted in the encoding unit to the translation server.
  • the receiving end includes a receiving unit for receiving data combining voice data and ID data from a translation server, a decoding unit for decoding the data combining the voice data and ID data and separating the voice data and ID data; It may include a second header analysis unit for extracting and matching the language information by analyzing the ID data and a voice output unit for outputting the language as a voice.
  • a node setting step in which a translation server determines the number of target transmission / reception apparatuses, and communication in which a translation server determines a one-to-many or many-to-many communication scheme A method determination step, a master / slave determination step of determining a master / slave among a plurality of transmission / reception apparatuses when the communication server is one-to-many, an ID definition step of defining an ID by the translation server, and a plurality of transmission / reception apparatuses
  • the translating and translating step of translating and receiving data through a translation server may be included.
  • the transmitting / receiving device transmits data through the translation server, the voice input step of receiving a voice through the voice input unit, and the transmission ID of the first header analyzer receiving and analyzing the signal of the ID setting unit.
  • the receiving and receiving device receives data through a translation server, a data receiving step of receiving data combining voice data and ID data from the translation server, and analyzing the ID data.
  • Receiving ID analysis step of extracting language information and selecting ID data and voice data matching the ID set in the transceiver, Decoding the data combined with the voice data and ID data to separate the voice data and ID data
  • a voice output step of outputting the corresponding language converted in the decoding step as voice.
  • the subject sentence extracting method may further include a subject sentence extracting step after the interpretation and translation step of the real-time multilateral interpretation wireless transmission / reception method.
  • the output of the corresponding translated language which is the result of the translation and translation, may be documented, generated as one document, and the subject sentence may be extracted based on the document.
  • the subject sentence extraction step includes the steps of classifying sentences of a document, sampling the sentence, generating supervised learning data of a neural network model with sampling data, generating a lookup table for the sentence, and the lookup Extracting a key sentence probability of each sentence using a table, inputting the neural network model that has been trained, and extracting an upper sentence as a probability value of each sentence of the neural network model.
  • the dividing may include dividing the sentence using punctuation, determining a quotation mark after a period, and securing a decimal point exception, and determining an alphabet of a second back space before and after a period to secure a bullet point exception.
  • the sampling may include sampling data before and after a plurality of sentences including the corresponding sentence in one sentence, and generating the data by setting the sampling data as input data and setting a key sentence to 0.
  • binary classification of the correct answer data is made by setting the non-key sentence as 1.
  • the generating of the lookup table may be performed by dividing the sentence into root units by using a morpheme analyzer, generating a random real number between -1 and 1 in the root by N dimensions, and learning to update the value of the lookup table.
  • the inputting step includes inputting the lookup table and inferring key sentence possibilities using a deep learning algorithm.
  • the inferring step includes inputting the lookup table into a CNN model and multiple filters. A convolutional layer is generated, a pooled layer is selected by selecting the highest probability of the multiple filter using a Max pooled algorithm, and the pooled layer is replaced by a 1 * 1 matrix using a pulley connected layer. Inferring sentence possibilities.
  • the extracting may include sorting in descending order based on the probability value of each sentence and outputting the top N sentences.
  • the conventional interpreter is given an ID for the corresponding language information in hardware, and analyzes and recognizes the language to be delivered to the user through text, or directly read or show translated text.
  • you can actually hear the translated sentences by sending and receiving data combined with the ID signal for the input voice and the corresponding language information through the translation server. It has the effect of creating a real conversation environment.
  • the real-time multi-language interpretation wireless transceiver can interpret the language immediately after analyzing only the ID signal from the data transmitted from the translation server, there is an effect that does not occur recognition delay and recognition failure occurs when speech recognition.
  • a deep learning algorithm may be provided by providing a training data set.
  • a lookup table may be generated from a sentence and input to a deep learning algorithm.
  • key sentences can be extracted from the document by inferring the possibility of key sentences.
  • FIG. 1 is a view showing an operation example of a real-time multi-party interpretation wireless transceiver according to an embodiment of the present invention.
  • FIG. 2 is a view showing the operation of a real-time multi-party interpretation wireless transceiver according to an embodiment of the present invention.
  • FIG. 3 is a view showing the operation of the real-time multi-party interpretation wireless transceiver according to another embodiment of the present invention.
  • FIG. 4 is a view showing an operation example of a real-time multi-party interpretation wireless transceiver according to another embodiment of the present invention.
  • FIG. 5 is a view showing the structure of a real-time multi-party interpretation wireless transceiver according to an embodiment of the present invention.
  • FIG. 6 is a block diagram schematically illustrating a structure of data transmitted and received to and from a translation server in a transmission and reception apparatus according to an embodiment of the present invention.
  • FIG. 7 is a flowchart illustrating a real-time multi-party interpretation wireless transmission and reception method according to an embodiment of the present invention.
  • FIG. 8 is a flowchart illustrating a transmitting step of the translating and translating step shown in FIG. 7.
  • FIG. 9 is a flowchart illustrating a receiving step of a translating and translating step shown in FIG. 7.
  • 10 is a diagram showing an example in which one to many or many to many.
  • FIG. 11 is a diagram illustrating an example in which a plurality of units is configured and then connected to a relay
  • Figure 12 is an illustration of a key sentence extraction method according to an embodiment of the present invention.
  • 13 is an exemplary view showing an exception of the period according to an embodiment of the present invention.
  • FIG. 14 is an exemplary view showing a punctuation classification method according to an embodiment of the present invention.
  • 15 is an exemplary view showing a sampling method according to an embodiment of the present invention.
  • 16 is an exemplary view showing a training data set according to an embodiment of the present invention.
  • 17 is an exemplary view showing a lookup table according to an embodiment of the present invention.
  • 18 is an exemplary view showing an inference method according to an embodiment of the present invention.
  • 19 is an exemplary diagram showing a deep learning algorithm learning model according to an embodiment of the present invention.
  • 20 is an exemplary view showing an extraction method according to an embodiment of the present invention.
  • FIG. 1 is a view showing an operation example of a real-time multi-language interpretation radio transceiver according to an embodiment of the present invention
  • Figure 2 is a view showing the operation of the real-time multi-language interpretation radio transmission and reception apparatus according to an embodiment of the present invention.
  • the real-time multilateral interpretation wireless transceiver performs an interpretation in real time using a transceiver. That is, it is possible to speak and listen at the same time through the transmitting and receiving device.
  • the transmitting and receiving device can be connected simultaneously in a one-to-one, one-to-many or many-to-many multiple people can talk in different languages at the same time, and connected to the mobile phone via Bluetooth to talk in real time with people who speak other languages It is also possible.
  • the transmitting and receiving device is a wearable transmitting and receiving device connected type, which can be utilized in all smart phones, and can be used in various smart devices as well as smart phones.
  • the transmitting and receiving device is a device according to an embodiment, and although the earset is illustrated in the drawings of the present specification, the device is not limited to the earset, and any device provided with a microphone and earphone can be used.
  • FIG. 2 is a view illustrating an application of an earset, which is a transmission / reception apparatus according to an embodiment, to a first user wearing a first earset 111 and a second user wearing a second earset 112.
  • the first user wears the first earphone 111, and the first microphone 10 of the first earphone 111 recognizes the voice of the first user.
  • the recognized voice is converted into an identification ID and voice data and transmitted to the second earset 112, and the transferred voice is transmitted from the second earset 112 to the translation server 200.
  • the translation server 200 will be described later.
  • the translation server 200 transmits the data converted into the TTS to the second earset 112 again, and the second earset 112 outputs the result as voice data to the user.
  • the second earset 112 transmits the identification ID (language) and voice data received from the first earset 111 to the translation server 200, and the TTS which is a value processed by the translation server 200.
  • the data is received and output as voice data.
  • the translation server 200 analyzes the received identification ID and voice data to perform language translation.
  • the translated language is to be converted to TTS.
  • the data converted into TTS by the translation server 200 is transferred to the second earset 112, and the second earset 112 outputs the received TTS data as voice data.
  • the translation server 200 may be a method of communicating with the ear set by having a separate server.
  • an API such as Google Cloud Platform and PAPAGO may be used as an API for performing language translation, and various APIs may be used in addition to the above-described API, but is not limited thereto.
  • Figure 2 illustrates the use between two users, but is not limited to this, and it is also possible to connect one to one, one to many or many to many simultaneously.
  • the voice recognized by the first microphone 10 of the first user's first earphone 111 is transmitted to the translation server 200 from the second user's 112 of the second user to perform translation.
  • the second earset 112 converts the converted TTS data. It is also possible to deliver it.
  • the transmitting and receiving device including a microphone and earphone for recognizing the user's voice is composed of one-to-one, one-to-many or many-to-many, and the ID data and voice data including language information for the voice recognized by the microphone And a receiving end for encoding the decoding data, and a receiving end decoding the ID data and the voice data voice data received from the transmitting end.
  • the apparatus may further include a translation server 200 that receives the ID data and the voice data transmitted from the transmitting end and transmits the ID data and the voice data to the receiving end of the corresponding other transmitting and receiving apparatus for each of a plurality of predefined languages.
  • the translation server may be implemented in a smartphone that the Bluetooth transceiver is paired.
  • the translation server may be implemented in the form of software (for example, an application) on the smartphone, and may be linked with a transceiving device capable of real-time multilateral interpretation service.
  • a part for processing a translation API may be implemented in a cloud server, and the smart phone may be implemented in the form of an application only with a part that interfaces with a transceiver and interfaces with a user.
  • the transceiver may be manufactured in the form of a pendant. That is, instead of being worn on the ear, the transceiver is manufactured in a pendant form and can be used by hanging on a necklace or the like.
  • an English-speaking user and a Korean-speaking user each have a pendant, and the English-speaking user speaks English, the pendant transmits the recognized English to the Korean-speaking pendant.
  • the Korean user's pendant translates the received English into Korean.
  • the translated Korean is delivered to the user who speaks Korean, and the user hears the contents and answers the language in Korean.
  • a Korean-speaking user's pendant recognizes the Korean language and delivers Korean to the English-speaking user's pendant.
  • the pendant is translated into English and output to the user.
  • the apparatus for transceiving translation of an earset or pendant form selects and translates an API in a translation server in translating a received language into another language.
  • the transceiving device may select an API having a high recognition rate according to a user's preference when using a translation, and may be used to customize the user.
  • a translation API such as Papago has excellent Korean recognition rate, while Chinese recognition rate is relatively low, so it is good to translate Korean to Chinese, but not Chinese to Korean.
  • Google has a higher English recognition rate, which translates to better translation of English into other languages.
  • the transmission and reception apparatus selects an API having a high recognition rate according to a language, such as selecting and using a papago when recognizing Korean, and translating by selecting Google when recognizing English. It is possible.
  • a plurality of APIs are provided in advance in the translation server so that an API having a high recognition rate can be selected and used when translating languages. That is, it is possible to easily change by optimizing the translation-related API for each language in the translation server, and also easy to migrate according to the development or upgrade of the corresponding translation API.
  • FIG. 4 is a diagram illustrating an operation example of a real-time multi-party interpretation wireless transceiver according to another embodiment of the present invention.
  • the translator may be directly interpreted instead of an application programming interface (API).
  • API application programming interface
  • a professional interpreter For example, if you want to talk to a user who speaks different languages, you can choose a professional interpreter via mobile or other device. Through the mobile device or other device, it is possible to select a professional interpreter that the user wants to select from the secured professional interpreters. In other words, if a Korean needs an interpreter in English, he or she can enter a Korean interpreter's requirements, such as age, school, and major, and select an interpreter. Similarly, Americans and Chinese can each choose an interpreter instead of an API, and the other party will hear the interpreter's words.
  • the professional interpreter is stored and managed in a database in a server such as an app, it can be set to enable chat or conversation in real time.
  • the professional interpreters who participated in the service may similarly reflect the satisfaction and evaluation of the user on the server in the form of online feedback, so that the professional interpreters may also selectively provide interpretation and translation services for users who do not have good evaluation.
  • FIG. 5 is a block diagram schematically illustrating the inside of a transmitting and receiving apparatus, and the transmitting and receiving apparatus 100 of the present invention may include an ID setting unit 110, a transmitting end 120, and a receiving end 130.
  • the transmitting and receiving device 100 assumes that the transmitting device and the receiving device are mounted together in one device in one embodiment of the present invention, the present invention is not limited thereto, and the transmitting device and the receiving device are separated into separate devices. It may be mounted so that it can be configured as a set while transmitting and receiving each other, or may be configured as a set of one transmitting device and a plurality of receiving devices. In other words, in a conference where a large number of people talk to each other simultaneously, it is preferable to have one set with a transmitting device and a receiving device, and when one person announces to a plurality of people, it is composed of one transmitting device and multiple receiving devices. It can be said that it is desirable to lose.
  • the ID setting unit 110 performs a function of setting language information of the user.
  • the user may generate information about the corresponding language and transmit the information to the transmitter 120 and the receiver 130 of the transceiver 100.
  • the ID setting unit 110 is a combination of a display and a button recognizable to the outside of the apparatus, or a touch screen.
  • the ID setting unit 110 is limited to the above example. It is natural that any number of variations can be made by other means of similar function.
  • the transmitter 120 receives a voice and performs a function of encoding and transmitting ID data and voice data, wherein the voice input unit 121, the first header analyzer 122, the encoder 123, and the transmitter 124 are provided. It may include.
  • the voice input unit 121 performs a function of converting an electric signal by receiving a voice.
  • the voice input unit 121 is formed of various types of microphones.
  • various input devices such as a text input device or a touch pen may be substituted.
  • the first header analyzer 122 performs a function of receiving and analyzing a signal of the ID setting unit 110.
  • the ID setting unit An ID signal including the information of the corresponding language is generated by the 110, and the signal is transmitted to the receiver 120 and transmitted to the first header analyzer 122, and the first header analyzer 122 analyzes the signal.
  • the encoder 123 generates a signal suitable for the data format to be changed.
  • the encoding unit 123 performs a function of converting and combining the input voice and the ID signal analyzed by the first header analysis unit 122 into data. In this way, the data transmitted to the translation server 200 is ID.
  • the head data corresponding to the signal and the voice data corresponding to the input voice are included.
  • the transmitter 124 performs a function of transmitting, to the translation server 200, data in which the voice data converted from the encoder 123 and the ID data are combined.
  • the transmitter 124 is assumed that the transmitter 124 is composed of an RF communication module, a Wifi module, etc. so as to wirelessly transmit and receive with the translation server 200 away from the predetermined distance, in addition to various communication modules Of course it can be used.
  • the receiving end 130 receives and decodes ID data and voice data and outputs them in a corresponding language.
  • the voice output unit 131, the second header analyzer 132, the decoder 133, and the receiver 134 are provided. ) May be included.
  • the voice output unit 131 performs a function of outputting a corresponding language as a voice.
  • the voice output unit 131 may be configured as a normal speaker, may be configured to use an earphone, and includes all of them. It may be configured.
  • the second header analyzer 132 analyzes the ID data to extract and match the corresponding language information.
  • the corresponding language information of the ID data contained in the head can be easily extracted. By doing so, the translator can quickly interpret the desired language without recognizing the voice itself and comparing it with a pre-stored language.
  • the decoding unit 133 performs a function of decoding data combined with voice data and ID data and separating the voice data and ID data.
  • the second header analysis unit 132 selects data suitable for the corresponding translator from among data for various languages propagated from the translation server 200, the selected data is decoded, separated into voice data and ID data, and separated voice.
  • the data can be converted to an audio signal.
  • the receiving unit 134 performs a function of receiving the data combined with the voice data and the ID data from the translation server 200.
  • the receiver 134 is composed of an RF communication module, a Wifi module, and the like so as to wirelessly transmit and receive with the translation server 200 separated by a predetermined distance or more.
  • various communication modules may be used. It will be natural.
  • the translation server 200 receives ID data and voice data transmitted from the transmitting unit 124 of the plurality of transmission / reception apparatuses 100 configured as one to many or many to many, and thus, ID data and voice for each of a plurality of predefined languages. It performs a function of transmitting data to the receiving unit 134 of the plurality of transceiver devices 100.
  • the translation server 200 may transmit / receive and transmit data signals including various language-specific databases and algorithms for translating into respective languages using data contained in these databases in one embodiment of the present invention. It is assumed to include a communication unit.
  • a user manipulates the ID setting unit 110 of the transmission and reception apparatus 100.
  • the transmitter 120 encodes the input voice and the signal of the ID setting unit 110 and combines the signals to be transmitted to the translation server 200.
  • the translation server 200 receives the data transmitted from the plurality of transmission and reception apparatuses 100 to determine the configuration of the transmission and reception apparatus 100 to define an ID, and then any one of the transmission and reception apparatuses 100 is input in real time. It generates a plurality of country-specific language data in accordance with a predefined ID to propagate to the transceiver 100.
  • the receiving end 130 receives the plurality of country-specific language data, analyzes the ID data of the received data, selects data that matches the ID information of the corresponding device, decodes it, and outputs it by voice.
  • FIG. 7 is a flowchart showing a real-time multi-party interpretation wireless transmission and reception method according to an embodiment of the present invention, the real-time multi-party interpretation wireless transmission and reception method of the present invention, the node setting step (S310), communication method determination step (S320), master / It may include a slave determination step (S330), ID definition step (S340) and the translation and translation step (S350).
  • the node setting step S310 is a step in which the translation server 200 determines the number of target transmitting and receiving devices 100. As described above, in an embodiment of the present invention, it is assumed that a conference statue in which a plurality of users have a conversation at the same time, or a case in which one person makes a presentation to a plurality of people. Since it is necessary, the translation server 200 needs to grasp the total number of the transmission and reception apparatus 100 for real-time multilateral interpretation.
  • the communication method determination step (S320) is a step in which the translation server 200 determines a one-to-many or many-to-many communication method, and the plurality of transmission / reception apparatuses 100 identified as described above are connected to each other in some way. It is necessary to determine whether the system is operated by broadcasting method or by multilateral interactive method by determining whether it is configured.
  • the transceiver 100 is configured in one-to-many or many-to-many communication methods, but in addition to this, the transmission / reception apparatus 100 is configured in various ways, and thus the system is configured accordingly. It can be said that it can be operated.
  • the process proceeds to the subsequent master / slave determination step (S330), and the configuration of the transmission and reception apparatus 100 is not one to many but many to many. If it is, the process proceeds to ID definition step S340.
  • the master / slave determination step (S330) is a step in which the translation server 200 determines a master / slave among a plurality of transmission / reception apparatuses 100 when the communication scheme is one-to-many. For example, the transmission / reception apparatus 100 translates.
  • the transceiver 200 that is responsible for the transmission is found and designated as the master, and the transceiver 100 that is responsible for the reception is designated as the slave. do.
  • the transmission / reception apparatus 100 designated as the master it can be expected to be the presenter of the conference seat, and in the case of the transmission / reception apparatus 100 designated as the slave, it can be expected to be an attendee who listens to the presentation of the presenter.
  • ID definition step (S340) is a step in which the translation server 200 defines the ID, after determining the communication method by identifying the ear set 100 as in the previous step, and transmits the data transmitted from the transmission and reception apparatus 100 It is a step of preparing the transmission by generating data in each language according to the ID data stored in each transmission and reception apparatus 100. Therefore, when any one of the transmission and reception apparatus 100 transmits a signal carrying voice data, the language-specific data of all the ID data determined in the ID definition step S340 is to be transmitted to the transmission and reception apparatus 100 in real time. to be.
  • Interpretation and translation is a step in which a plurality of transceiving devices transmit or receive data through a translation server to translate through. At this stage, the user will finally hear the voice spoken by the user in the corresponding language, and the voice spoken by the other party will be interpreted in the user's language.
  • the translation and translation step S350 may be specifically divided into a transmission step and a reception step.
  • FIG. 8 is a flowchart illustrating a transmission step of the translation and translation step illustrated in FIG. 7.
  • the transmission and reception device 100 receives data through the translation server 200, and the voice input step is S410. ), A transmission ID analysis step (S420), an encoding step (S430), and a data transmission step (S440).
  • the voice input step S410 is a step of receiving a voice through the voice input unit 121 and converts the voice into an electrical signal when the user speaks through a microphone or the like.
  • the first header analyzer 122 receives and analyzes the signal of the ID setting unit 110 so as to be converted into data in a subsequent encoding step S430.
  • the encoding step S430 is a step of converting and combining the voice transmitted in the voice input step S410 and the signal analyzed in the transmission ID analysis step S420 into data.
  • the data signal sequence transmitted and received by the transceiving device 100 to the translation server 200 is composed of ID data of the head portion and voice data of the voice portion, so that the data signal can be transmitted to any language without directly recognizing the voice later. It's easy to quickly see if that's the case.
  • the data transmission step S440 is a step of transmitting the voice data and ID data transmitted in the encoding step S430 to the translation server 200.
  • FIG. 9 is a flowchart illustrating a receiving step of the translating and translating step shown in FIG. 7.
  • the receiving and receiving device receives data through a translation server in a data receiving step (S510) and a received ID analyzing step (S520). It may include a decoding step (S530) and a voice output step (S540).
  • the data receiving step (S510) is a step of receiving the data combined with the voice data and the ID data from the translation server 200, the translation server 200 as defined in each of the ID definition step (S34) When the data is made for each ID corresponding to the transceiver 100 and simultaneously transmitted, the transceiver 100 receives this.
  • the reception ID analysis step (S520) is a step of analyzing ID data to extract corresponding language information and selecting ID data and voice data matching the ID set in the transceiver 100. In other words, after receiving data signals for each language transmitted simultaneously, only ID data is analyzed quickly from each data signal to select a data signal including language ID data required by the corresponding transmission / reception apparatus 100.
  • the decoding step (S530) is a step of decoding the data combined with the voice data and ID data, separating the voice data and ID data, and converting them into voice.
  • the voice output step (S340) is carried out to the actual destination. Converting the voice data into an electrical signal so that the speaker or earphone can ring.
  • the voice output step S540 is a step of outputting the corresponding language converted in the decoding step S330 as voice.
  • 10 and 11 schematically show a configuration method of the transceiver 100 in a graphic form.
  • the transceiver 100 is configured as a peer-to-peer one-way network. That is, the transmission and reception apparatus 100 used herein indicates that the transmission apparatus and the reception apparatus are configured separately to communicate only in one direction.
  • the transceiver 100 is configured as a peer-to-peer bidirectional network. That is, the transmitting and receiving device 100 used herein indicates that the transmitting device and the receiving device are separately configured to communicate only in both directions.
  • the transceiver 100 is configured in a one-to-many network.
  • the transmission and reception apparatus 100 is composed of one transmitting apparatus and a plurality of receiving apparatuses, indicating that the transmission apparatus propagates in one direction. It is also called a broadcast network because it is similar to a broadcasting system.
  • the right side shows that the transmission and reception apparatus 100 is configured to transmit and receive each other with a forming network.
  • the transmitting and receiving device 100 is not separated, it operates integrally to indicate that a plurality of two-way communication with each other.
  • the transmitting and receiving device 100 may be configured such that the forming network is relayed to the relay and connected to each other.
  • the forming network is relayed to the relay and connected to each other.
  • a relay which is a kind of communication device. For example, one space and one space are connected to each other in a space separated space.
  • the present invention is different from the conventional interpreter being given an ID for the corresponding language information in hardware and analyzing and recognizing the language. Since the data combined with the ID signal is transmitted and received through the translation server, the real-time multi-language interpretation wireless transceiver can interpret the language immediately after analyzing only the ID signal among the data transmitted from the translation server to generate the voice recognition. There is an effect that the recognition delay and recognition failure does not occur.
  • the present invention can implement a method for extracting the topic text in a language desired by the user using the real-time multi-party interpretation wireless transmission and reception method.
  • the subject sentence extracting method may further include a subject sentence extracting step after the interpretation and translation step of the real-time multilateral interpretation wireless transmission / reception method.
  • the output of the corresponding translated language which is the result of the translation and translation, may be documented, generated as one document, and the subject sentence may be extracted based on the document.
  • the users want / set up immediately after the meeting with the multinationals.
  • This topic is used as a kind of minutes, so that the attendees of the meeting can quickly and easily obtain the results of the meeting, and can be used as a kind of public record for the conclusion of the meeting.
  • the subject sentence is extracted through a method of extracting a key sentence, and the method of extracting the key sentence will be described in detail.
  • FIG. 12 is an exemplary diagram of a method of extracting key sentences according to an embodiment of the present invention.
  • the core sentence extraction method may include: classifying sentences in a document; Sampling a sentence; Generating map learning data from sampling data; Generating a lookup table for the sentence; Extracting key sentence probabilities for each sentence using a lookup table and inputting a supervised neural network model; And extracting an upper sentence as a probability value for each sentence of the neural network model.
  • the core sentence extracting apparatus performs the step of identifying, sampling, generating, generating a lookup table, inputting, and extracting.
  • sentences of a document are classified using punctuation marks, periods, question marks, and exclamation marks.
  • the sampling step the data is sampled by combining a plurality of sentences including the corresponding sentence into one sentence.
  • the supervised learning data is generated from the sampling data.
  • the step of generating a lookup table divides a sentence into root units using a morpheme analyzer, and generates random real numbers in the root by N dimensions.
  • the sentence probability key sentence is extracted using a lookup table, and a neural network model trained and learned is input.
  • the extracting step extracts the upper sentence as a probability value for each sentence of the neural network model.
  • 13 is an exemplary view showing an exception of a period according to an embodiment of the present invention.
  • Steps separating from the exceptions in the period deal with the exceptions in the period.
  • the separating step treats the decimal point as an exception and the first and last names as an exception.
  • the key sentence extractor treats the decimal point as an exception and the first and last name breaks as exceptions.
  • the core sentence extractor must handle period exceptions in sentences.
  • the decimal point and first and last names contain a period, and the core sentence extractor treats the decimal point and the first and last names included in the first and last names as exceptions.
  • the decimal point, last name, and first name are not sentences, so the core sentence extraction device can treat them as exceptions.
  • FIG. 14 is an exemplary view illustrating a punctuation classification method according to an embodiment of the present invention.
  • the dividing may include dividing a sentence using punctuation; Determining a quotation mark after the period to secure the decimal point exception; Determining the alphabet of the second back cell before the period to secure the bullet point exception.
  • the core sentence extraction device separates sentences using punctuation marks, secures the decimal point exception by identifying the quotation marks after the period, and secures the bullet point exception by determining the alphabet of the second back space before the period.
  • the punctuation separator algorithm handles decimal and bullet exceptions for punctuation in sentences.
  • the core sentence extractor classifies sentences by processing decimal and bullet exceptions for decimal and first and last names.
  • 15 is an exemplary view showing a sampling method according to an embodiment of the present invention.
  • Sampling includes sampling data before and after a plurality of sentences including a corresponding sentence in one sentence.
  • the core sentence extractor samples data before and after a plurality of sentences including the sentence in one sentence.
  • the core sentence extractor samples a plurality of sentences before and after including the sentence in one sentence without using a single sentence.
  • the key sentence extractor samples a plurality of sentences to infer that the key sentences are included in the plurality of sentences.
  • the core sentence may consist of a single sentence, but may constitute a plurality of sentences, so that a plurality of sentences are sampled in one sentence in consideration of this.
  • the sentence and a plurality of sentences before and after may be sampled.
  • 16 is an exemplary view showing a training data set according to an embodiment of the present invention.
  • the generating may include setting sampling data as input data and binary classifying the correct answer data by setting the key sentence as 0 and the non key sentence as 1.
  • the key sentence extractor sets the sampling data as input data, and classifies the correct answer data as binary by setting the key sentence as 0 and the non key sentence as 1.
  • the training data set must be prepared for the neural network to be trained.
  • the core sentence extractor prepares a training data set by binary classifying the correct answer data as input data.
  • the training data set is used for training neural networks. Thereafter, the sampling data of the document is input to the neural network and can be relearned.
  • 17 is an exemplary view showing a lookup table according to an embodiment of the present invention.
  • Generating a lookup table may include dividing a sentence into root units using a morpheme analyzer, generating a random real number between -1 and 1 in the root by N dimensions, and performing a learning to update a lookup table value. do.
  • the core sentence extractor divides the sentence into root units using a morpheme analyzer, generates random real numbers between -1 and 1 in the root by N dimension, and updates the lookup table value by learning.
  • the key sentence extractor uses a lookup table.
  • the lookup table is a table in which random real numbers of -1 to 1 are generated in N dimensions.
  • the core sentence extractor updates the lookup table value by dividing the sentence into root units and then proceeds to the lookup table that generates random real numbers in the root by N dimensions.
  • 18 is an exemplary view showing an inference method according to an embodiment of the present invention.
  • the step of inputting includes receiving a lookup table and inferring key sentence possibilities using a deep learning algorithm.
  • the core sentence extractor receives the lookup table and infers the core sentence possibility using the deep learning algorithm. Deep learning algorithms infer key sentence possibilities from lookup tables. The key sentence extractor infers the key sentence possibility by applying the lookup table to the deep learning algorithm.
  • the core sentence extractor outputs a learning result by binary classifying the output value of the CNN model, and updates the lookup table by comparing the learning result with the sampling result.
  • 19 is an exemplary view showing a deep learning algorithm learning model according to an embodiment of the present invention.
  • the inferring step is to input the lookup table into the CNN model to create a convolutional layer using multiple filters, select the highest probability of multiple filters using the Max pooled algorithm, construct a pooling layer, and use the pulley connected layer. Substituting the pooling layer with a 1 * 1 matrix to infer the possibility.
  • the core sentence extractor inputs a lookup table into the CNN model to generate a convolutional layer 91 using multiple filters, selects the highest probability of multiple filters using the Max pooled algorithm, and forms a pooling layer 92.
  • the pulley connected layer 93 is used to infer the possibility by replacing the pooling layer 92 with a 1 * 1 matrix.
  • the neural network is a CNN model and is composed of a convolutional layer 91, a pulling layer 92, and a pulley connected layer 93.
  • the convolution layer 91 uses multiple filters, the pooling layer 92 selects the highest probability of the multiple filter using the Max pooled algorithm, and the pulley connected layer 93 selects the pooling layer 92 as 1. Inferring the possibility by substituting a matrix.
  • the max pooling algorithm simply divides the resulting array into 2x2 squares and collects only the largest number in each. The idea is to keep the most interesting if you find something interesting in the four input tiles that make up each 2x2 square grid. This reduces the size of the array while keeping the most important parts.
  • the pooling layer ignores minor changes.
  • the pooling layer extracts only the main values from the output image of the convolution layer to produce a smaller output image. This ensures that local minor changes are not affected.
  • 20 is an exemplary view showing an extraction method according to an embodiment of the present invention.
  • the extracting may include sorting in descending order based on the probability value of each sentence and outputting the top N sentences.
  • the core sentence extractor outputs the top N sentences after sorting in descending order based on the probability value of each sentence.
  • the key sentence extractor outputs N sentences as key sentences.
  • the key sentence extracting device sorts in descending order based on the probability value of each sentence to extract the key sentences, and then outputs the top N sentences as key sentences.
  • the apparatus for extracting a core sentence may include a separator that separates sentences of a document; A sampling unit for sampling a sentence; A generation unit generating map learning data from sampling data; A table generator for generating a lookup table for the sentence; An input unit for extracting key sentence probabilities for each sentence using a lookup table and inputting a supervised neural network model; And an extracting unit extracting an upper sentence as a probability value for each sentence of the neural network model.
  • the delimiter uses punctuation, periods, question marks, and exclamation points to separate sentences in the document.
  • the sampling unit samples data before and after a plurality of sentences including the corresponding sentence in one sentence.
  • the generation unit generates map learning data from the sampling data.
  • the table generator divides a sentence into root units using a morpheme analyzer and generates random real numbers in the root by N dimensions.
  • the input unit extracts key sentence probabilities for each sentence using a lookup table and inputs a supervised neural network model.
  • the extractor extracts the upper sentence as a probability value for each sentence of the neural network model.
  • the delimiter treats the decimal point as an exception and the surname and delimiter as exceptions.
  • the delimiter must handle period exceptions in sentences.
  • the decimal point and first and last names contain a period, and the separator treats the decimal point and the first and last names included in the first and last names as exceptions.
  • the division unit sentence division unit for separating sentences using punctuation;
  • a first security unit that secures the decimal point exception by determining quotation marks after the period; It includes a second security unit that determines the alphabet of the second back space before the period and secures the breakpoint exception.
  • the delimiter classifies sentences using punctuation marks, secures the exception of the decimal point by identifying the quotation marks after the period, and secures the exception of the bullet point by determining the alphabet of the second space after the period.
  • the punctuation separator algorithm handles decimal and bullet exceptions for punctuation in sentences.
  • the delimiter separates sentences by handling decimal and bullet exceptions for decimal and first and last names.
  • the sampling unit includes a sentence sampling unit which samples data before and after a plurality of sentences including the corresponding sentences by sampling the data.
  • the sentence sampling unit samples data before and after a plurality of sentences including the sentence in one sentence.
  • the sentence sampling unit samples a plurality of sentences before and after including the sentence in one sentence without using a single sentence.
  • the sentence sampling unit samples a plurality of sentences so as to infer that the core sentences are included in the plurality of sentences.
  • the generation unit includes a classification unit that sets sampling data as input data and binary classifies correct answer data by setting a key sentence as 0 and a non-key sentence as 1.
  • the classification unit sets sampling data as input data, and classifies correct answer data as binary by putting key sentences as 0 and non-key sentences as 1.
  • the training data set must be prepared for the neural network to be trained.
  • the classification unit prepares a training data set by binary classifying the correct answer data using the sampling data as input data.
  • the table generator includes an updater for dividing a sentence into root units using a morpheme analyzer, generating a random real number between -1 and 1 in the root by N dimensions, and performing a learning to update a lookup table value.
  • the updater divides the sentence into root units using a morpheme analyzer, generates random real numbers between -1 and 1 in the root by N dimensions, and updates the lookup table value by proceeding with learning.
  • the updater uses a lookup table.
  • the lookup table is a table in which random real numbers of -1 to 1 are generated in N dimensions.
  • the updater updates the lookup table value by dividing a sentence by a root unit, and then proceeds with a lookup table that generates random real numbers in the root by N dimensions.
  • the input unit receives the lookup table and includes an inference unit for core sentence possibility using a deep learning algorithm.
  • the inference unit receives the lookup table and uses the deep learning algorithm to infer the key sentence possibilities. Deep learning algorithms infer key sentence possibilities from lookup tables. The inference unit infers key sentence possibilities by applying lookup tables to deep learning algorithms.
  • the inference unit inputs the lookup table into the CNN model to generate a convolutional layer using multiple filters, selects the highest probability of the multiple filters using the Max pooled algorithm, forms a pooling layer, and uses a pooled connected layer Infer the possibility by substituting for 1 * 1 matrix.
  • the neural network is a CNN model and consists of a convolutional layer, a pooling layer, and a pulley connected layer.
  • the convolutional layer uses multiple filters
  • the ruling layer uses the Max pooled algorithm to select the highest probability of the multiple filter
  • the pulley connected layer substitutes the pooling layer with a 1 * 1 matrix to infer the possibility.
  • the extracting unit includes an output unit for outputting the top N sentences after sorting in descending order based on the probability value of each sentence.
  • the output unit sorts in descending order based on the probability value of each sentence and outputs the top N sentences.
  • the output unit outputs N sentences as key sentences.
  • the output unit sorts in descending order based on the probability value of each sentence to extract the key sentences, and then outputs the top N sentences as key sentences.
  • the key sentence extracting device may adjust the update of the lookup table for the neural network by reflecting user feedback on the key sentence as the output result.
  • the key sentence extracting device may instruct to update the lookup table and stop updating the lookup table when the user feedback is low. Only when the continuous user feedback is high, the lookup table may be updated to increase the reliability of the core sentence.
  • the core sentence extractor can increase user reliability by spreading user feedback to other core sentence extractors.
  • the key sentence extracting device may include communication between the central server and the client for propagating user feedback.
  • the central server can collect data related to user feedback and propagate it to a number of key sentence extractors that are clients.
  • the core sentence extracting apparatus may perform sampling based on a sentence in consideration of sequential sampling or paragraph format. Priority sampling considering the paragraph format may sample the first sampling sentence in consideration of the bracket, brace, or brace where the key sentence is placed in the paragraph, and include it in the sequentially sampled sentence.
  • the core sentence extraction apparatus may first process a sentence sampling by mixing a sampling sentence and a sequential sampling sentence.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명은 실시간 다자 통역 무선 송수신 시스템 및 송수신 방법에 관한 것으로, 송수신기를 이용하여 다른 언어를 사용하는 다수의 사용자와 대화가 가능하도록 하는 장치에 관한 것이다. 상기 송수신기는 1 대 다수 또는 다수 대 다수로 구성되는 다수개의 송수신기의 송신부에서 전송되는 ID 데이터와 음성데이터를 수신 받아 미리 정의된 복수개의 언어별로 ID 데이터와 음성데이터를 상기 다수개의 송수신기의 수신부로 전송하는 번역서버와 연결된다. 또한, 통번역진행 시, 딥러닝 알고리즘 기반의 핵심문장 추출 방법을 이용한다.

Description

주제문 추출 가능한 실시간 다자 통역 무선 송수신 시스템 및 이를 이용한 송수신 방법
본 발명은 주제문 추출 가능한 실시간 다자 통역 무선 송수신 시스템 및 방법에 관한 것으로서, 더욱 상세하게는 실시간 다자 통역 무선 송수신 시스템이 입력된 음성과 해당 언어정보에 대한 ID 신호가 결합되는 데이터를 번역서버를 통해 송수신하여 번역을 실시간으로 수행하며, 사용자의 귀에 착용 가능한 송수신 시스템을 통해 다수의 사람들이 다른 언어를 쓰더라도 실시간으로 대화가 가능하도록 하며, 대화 내용의 주제문을 추출 가능한 무선 송수신 시스템 및 그 방법에 관한 것이다.
최근에 들어 교통 및 통신 기술이 발달함에 따라 국제교류가 활발하게 이루어지고 있다. 많은 사람이 서로 다른 언어를 사용하는 국가를 방문하는 경우가 증가하고 있어 해당 국가의 언어를 자국어로 통번역할 수 있는 인력에 대한 수요가 급증하고 있다.
특히, 외국에 지사를 둔 기업, 기관이나 개인 간의 국제교류의 증가로 인하여 다양한 분야에서 통번역에 대한 서비스가 절실한 실정이다.
이에 따라 다양한 번역 장치 및 방법에 대한 기술도 계속하여 발전해 왔는데, 인터넷을 통해 자국의 언어를 해당 국가의 언어로 통번역하는 문자 번역 서비스는 이미 상당한 번역 수준을 제공하고 있다. 또한, 스마트 기기에 의해 전용 통번역 어플리케이션 또는 전용 번역기를 이용하면 일정 수준의 통번역도 가능하다.
이러한 스마트 기기 또는 전용 번역기는 사용자가 해당 국가의 사람을 만나 직접 대면할 때 사용자가 미리 해당 국가의 언어를 설정해 두거나 전용 번역기가 상대방의 음성을 인식함으로써 실시간으로 자국어를 해당 국가의 음성으로 통번역하게 된다.
하지만, 회의 등과 같이 다양한 국가의 다양한 언어를 사용하는 사용자가 동시에 모일 때는 서로 다른 언어를 사용하는 사람과 대화할 때마다 사용자가 직접 번역기를 조작하여야 하는 불편함이 발생하고, 설령 번역기가 음성을 인식하여 자동으로 해당 언어로 번역한다고 하더라도 현재 기술 수준으로는 음성 인식에 따른 지연에 대한 문제점과 음성 인식 불량에 대한 문제점이 발생한다.
따라서, 회의 등과 같이 다양한 국적의 사람들과 실시간으로 원활하게 대화하기 위해서는 다수의 사용자가 동시에 대화를 하더라도 지연이 발생하지 않는 번역기에 대한 개발이 필요한 실정이다.
또한, 실시간으로 번역이 되더라도, 직접 읽어 내용을 전달할 경우, 발음상의 차이로 사용자가 대화를 이해하지 못하거나 시간이 많이 소요되어 불편함이 있었다.
자동 통번역 시스템에 관한 기술이 한국공개특허 제10-2016-0122371호, “전자장치를 이용한 자동 통번역 시스템 및 방법”(이하 선행기술)에 개시되어 있다.
상기 선행기술은 다른 국가 언어에 익숙하지 않거나 언어가 통하지 않는 조건에서도 자신이 사용하는 전자장치에서 자국어를 이용하여 언어장벽을 해소하며 불특정 다수의 언어별로 자동으로 통·번역이 가능한 시스템이다.
그러나 상기와 같은 종래의 선행기술은, 음성통화장치를 이용한 사용자와 타인의 음성통화를 통역해 주는 것이 아니라, 만남을 통한 대화시 이를 통역해 주는 것에 한정되며, 상기 음성통화장치인 휴대폰이 통역 서비스 이용하기 위해 문자 비용이 소요되는 문제점이 있다. 또한, 스마트폰을 이용하여 통역 서비스를 이용하도록 하고 있으나, 이 역시도 음성통화가 아닌 만남을 통한 대화시 유용하며, 사용자가 문자를 통해 대화를 진행하기 때문에 실제로 대화를 하는 환경은 이루어지지 않는 단점이 있다.
또한, 종래에 사용하던 주된 주제문 추출 방법은 빈도수를 파악하여 빈도수가 가장 높은 단어의 가중치를 높여 핵심문장을 추출하는 방식인 TF-IDF(Term Frequency - Inverse Document Frequency)가 있다. 다른 방법으로는 문서를 세분화 하여 트리구조로 표현한 후 핵심문장을 추출하는 방식, 문서의 패턴을 데이터베이스에 입력하여 패턴인식방식으로 핵심문장을 추출하는 방식이 있다.
그러나 종래의 기술들은 장단점이 뚜렷하다. TF-IDF 방식은 범용성을 가지고 있으나 정확도가 다소 떨어지는 단점이 있고, 트리구조와 패턴인식방식은 정확도는 향상되었으나 패턴을 정의하는 작업은 상당한 시간과 노력을 필요로 하며, 사전에 정의하지 않은 패턴의 경우 핵심문장을 제대로 추출할 수 없는 문제가 발생한다. 따라서 인터넷에서 특정한 주제를 검색하여 나온 모든 문서들의 핵심문장을 추출할 때 정확성이 떨어지거나, 범용성이 낮아 추출이 안 될 수도 있다.
따라서 기존의 핵심문장 추출 방식은 패턴이 정의된 주제의 정확도는 높지만, 정의하지 못한 주제의 정확도는 TF-IDF방식을 사용해도 낮다는 문제점이 나타난다.
본 발명은 상술한 문제점을 해결하기 위해 안출된 것으로, 종래의 통역기가 음성통화장치를 이용하여 번역을 진행하여, 직접 대화하는 환경을 제공하지 못하는 점을 해소하기 위한 것으로, 사용자의 발음 및 언어에 상관없이 사용자가 직접 대화하는 대화환경을 제공하고자 한다.
또한, 본 발명은 종래의 통역기가 장치에 하드웨어적으로 해당 언어정보에 대한 ID를 부여받아 언어를 분석 및 인식하고 있어 복수의 언어를 통번역할 때 발생하는 인식 지연 및 인식 불량을 해소하기 위하여 실시간 다자 통역 무선 송수신 시스템이 입력된 음성과 해당 언어정보에 대한 ID 신호가 결합되는 데이터를 번역서버를 통해 송수신함으로써 ID 신호만을 분석하면 곧바로 해당 언어를 통역할 수 있어 복수의 언어를 통번역할 때에도 음성 인식 지연 및 인식 불량을 해소할 수 있도록 한 실시간 다자 통역 무선 송수신장치를 제공하는 데 그 목적이 있다.
또한, 구두점 예외사항을 보안하는 딥러닝 알고리즘 기반의 핵심문장 추출 방법을 제공하며, 다수의 문장을 샘플링하는 딥러닝 알고리즘 기반의 핵심문장 추출 방법을 제공하는데 있다.
또한, 학습 데이터 세트를 마련하는 딥러닝 알고리즘 기반의 핵심문장 추출하고, 문장으로부터 룩업 테이블을 생성하는 딥러닝 알고리즘 기반의 핵심문장 추출 방법을 제공하며, 핵심문장 가능성을 추론하는 딥러닝 알고리즘 기반의 핵심문장 추출 방법을 제공하는데 있다.
본 발명의 실시 예들의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
사용자의 음성을 인식하는 마이크 및 이어폰을 포함하는 송수신기, 상기 송수신기는 1대 1, 1대 다수 또는 다수 대 다수로 구성되며, 상기 마이크에 인식된 음성을 언어 정보를 포함하는 ID 데이터와 음성데이터로 인코딩하는 송신단 및 상기 송신단으로부터 수신받은 ID 데이터와 음성데이터를 디코딩하는 수신단을 포함한다.
또한, 상기 송수신기는 상기 송신단에서 전송되는 ID 데이터와 음성데이터를 수신 받아 미리 정의된 복수개의 언어별로 ID 데이터와 음성데이터를 번역하여, 대응되는 타 송수신기의 수신단으로 전송하는 번역서버와 연결되는 것을 특징으로 한다.
또한, 상기 무선 송수신 장치는. 상기 송신단에서 전송되는 ID 데이터와 음성데이터를 수신 받아 미리 정의된 복수개의 언어별로 ID 데이터와 음성데이터를 번역하여, 대응되는 타 송수신 장치의 수신단으로 전송하는 번역서버를 포함한다.
상기 송수신 장치는 모바일기기 내 앱과 연결되며, 상기 앱은 사용자가 통역사를 선택가능하도록 통역사 데이터베이스를 포함하는 것을 특징으로 한다.
사용자의 언어 정보를 설정하는 ID 세팅부와, 음성을 입력받아 ID 데이터와 음성데이터를 인코딩하여 전송하는 송신단과, 상기 ID 데이터와 음성데이터를 수신받아 디코딩하여 해당 언어로 출력하는 수신단을 포함하는 송수신기기 및 1 대 다수 또는 다수 대 다수로 구성되는 다수개의 송수신 장치의 송신부에서 전송되는 ID 데이터와 음성데이터를 수신 받아 미리 정의된 복수개의 언어별로 ID 데이터와 음성데이터를 상기 다수개의 송수신 장치의 수신부로 전송하는 번역서버를 포함할 수 있다.
구체적으로, 상기 송신단은, 음성을 입력받아 전기 신호를 변환하는 음성입력부와, 상기 ID 세팅부의 신호를 전송받아 분석하는 제1 헤더분석부와, 입력된 음성과 제1 헤더 분석부에서 분석된 ID 신호를 데이터로 변환하고 결합하는 인코딩부 및 상기 인코딩부에서 변환된 음성데이터와 ID 데이터가 결합된 데이터를 상기 번역서버로 송신하는 송신부를 포함할 수 있다.
구체적으로, 상기 수신단은, 번역서버로부터 음성데이터와 ID 데이터가 결합된 데이터를 전송 받는 수신부와, 상기 음성데이터와 ID 데이터가 결합된 데이터를 디코딩하여 음성데이터와 ID 데이터로 분리하는 디코딩부와, 상기 ID 데이터를 분석하여 해당 언어 정보를 추출하고 매칭시키는 제2 헤더분석부 및 해당 언어를 음성으로 출력하는 음성출력부를 포함할 수 있다.
상기 과제를 달성하기 위한 본 발명의 실시간 다자 통역 무선 송수신 방법은, 번역서버가 대상 송수신 장치의 수를 결정하는 노드설정단계와, 번역서버가 1 대 다수 또는 다수 대 다수의 통신 방식을 결정하는 통신방식결정단계와, 번역서버가 상기 통신 방식이 1 대 다수이면 다수개의 송수신 장치 중에서 마스터/슬레이브를 결정하는 마스터/슬레이브결정단계와, 번역서버가 ID를 정의하는 ID정의단계와, 다수개의 송수신 장치가 번역서버를 통해 데이터를 송신 또는 수신받아 통번역하는 통번역단계를 포함할 수 있다.
구체적으로, 상기 통번역단계에서 송수신 장치가 번역서버를 통해 데이터를 송신받는 송신단계는, 음성입력부로 음성을 입력받는 음성입력단계와, 제1 헤더 분석부가 ID 세팅부의 신호를 전송받아 분석하는 송신ID분석단계와, 상기 음성입력단계에서 전송된 음성과 상기 송신ID분석단계에서 분석된 신호를 데이터로 변환하고 결합하는 인코딩단계 및 상기 인코딩단계에서 전송되는 음성데이터와 ID 데이터를 번역서버로 전송하는 데이터송신단계를 포함할 수 있다.
구체적으로, 상기 통번역단계에서 송수신 장치가 번역서버를 통해 데이터를 수신받는 수신단계는, 상기 번역서버로부터 음성데이터와 ID 데이터가 결합된 데이터를 전송 받는 데이터수신단계와, 상기 ID 데이터를 분석하여 해당 언어 정보를 추출하여 상기 송수신 장치에 설정된 ID와 매칭되는 ID 데이터와 음성데이터를 선택하는 수신ID분석단계와, 상기 음성데이터와 ID 데이터가 결합된 데이터를 디코딩하여 음성데이터와 ID 데이터로 분리하고 음성으로 변환하는 디코딩단계 및 상기 디코딩단계에서 변환된 해당 언어를 음성으로 출력하는 음성출력단계를 포함할 수 있다.
또한, 상기 실시간 다자 통역 무선 송수신 방법을 이용하여 주제문을 추출 하는 방법을 구현할 수 있다.
상기 주제문 추출 방법은, 상기 실시간 다자 통역 무선 송수신 방법의 상기 통번역단계 이후에 주제문 추출단계를 더 포함할 수 있다.
상기 주제문추출단계는 주제문을 추출하기 위해, 상기 통번역단계의 결과물인 변환된 해당 언어의 출력물을 문서화하여, 하나의 문서로 생성하고, 상기 문서를 바탕으로 주제문을 추출할 수 있다.
그러므로, 상기 주제문추출단계는 문서의 문장을 구분하는 단계, 상기 문장을 샘플링하는 단계, 샘플링 데이터로 뉴럴 네트워크 모델의 지도 학습 데이터를 생성하는 단계, 상기 문장에 대해 룩업 테이블을 생성하는 단계, 상기 룩업 테이블을 이용하여 문장별 핵심문장 확률을 추출하고, 지도 학습된 상기 뉴럴 네트워크 모델에 입력하는 단계, 상기 뉴럴 네트워크 모델의 문장별 확률값으로 상위 문장을 추출하는 단계를 포함한다.
상기 구분하는 단계는 구두점을 이용한 상기 문장을 구분하는 단계, 마침표 뒤 따옴표를 판별하여 소수점 예외사항을 보안하는 단계 및 마침표 전, 두번째 뒤칸의 알파벳을 판별하여 구분점 예외사항을 보안하는 단계를 포함한다.
또한, 상기 샘플링하는 단계는 해당 문장을 포함한 전, 후 다수의 문장을 한 문장으로 묶어 데이터를 샘플링하는 단계를 포함하고, 상기 생성하는 단계는 상기 샘플링 데이터를 입력데이터로 설정하고, 핵심문장을 0, 비 핵심문장을 1로 두어 정답데이터를 이진 분류하는 단계를 포함한다.
상기 룩업 테이블을 생성하는 단계는 상기 문장을 형태소 분석기를 이용하여 어근단위로 나눈 후 어근에 -1~1사이의 임의의 실수를 N차원만큼 생성하고, 학습을 진행하여 상기 룩업 테이블의 값을 업데이트하는 단계를 포함하고, 상기 입력하는 단계는 상기 룩업 테이블을 입력받아 딥러닝 알고리즘을 이용하여 핵심문장 가능성을 추론하는 단계를 포함하며, 상기 추론하는 단계는 상기 룩업 테이블을 CNN 모델에 입력하여 멀티플 필터를 사용한 컨벌루션 레이어를 생성하고, 맥스 풀링드 알고리즘을 이용하여 상기 멀티플 필터의 가장 높은 확률을 선택해 풀링 레이어를 구성하고, 풀리 커넥티드 레이어를 이용하여 상기 풀링 레이어를 1*1행렬로 치환하여 상기 핵심문장 가능성을 추론하는 단계를 포함한다.
또한, 상기 추출하는 단계는 상기 문장별 확률값을 토대로 내림차순으로 정렬시킨 후 상위 N개의 문장을 출력하는 단계를 포함한다.
이상에서 설명한 바와 같이 본 발명은 종래의 통역기가 장치에 하드웨어적으로 해당 언어정보에 대한 ID를 부여받아 언어를 분석 및 인식하여 문자를 통해 사용자에게 전달되거나, 직접 읽거나, 번역된 글을 보여주는 행동을 통해 시간이 소요되는 통역 과정과는 달리, 실시간 다자 통역 무선 송수신 장치를 통해, 입력된 음성과 해당 언어정보에 대한 ID 신호가 결합되는 데이터를 번역서버를 통해 송수신하여 번역된 문장을 실제로 들을 수 있도록 하여 실제 대화환경을 조성하는 효과가 있다.
또한, 실시간 다자 통역 무선 송수신 장치는 상기 번역 서버에서 전송되는 데이터 중에서 ID 신호만을 분석하면 곧바로 해당 언어를 통역할 수 있어 음성을 인식할 때 발생하는 인식 지연 및 인식 불량이 발생하지 않는 효과가 있다.
상기와 같은 본 발명에 따른 딥러닝 알고리즘 기반의 핵심문장 추출 방법을 이용할 경우에는 문서로부터 핵심 문장을 추출할 수 있다. 또한, 구두점 예외사항을 보안하는 장점이 있으며, 다수의 문장을 샘플링하여 핵심 문장을 추출할 수 있는 전처리 단계를 수행할 수 있다. 또한, 학습 데이터 세트를 마련하여 딥러닝 알고리즘을 수행할 수 있다. 또한, 문장으로부터 룩업 테이블을 생성하여 딥러닝 알고리즘에 입력할 수 있다. 또한, 핵심문장 가능성을 추론하여 문서로부터 핵심 문장을 추출할 수 있다.
도 1은 본 발명의 일 실시예에 따른 실시간 다자 통역 무선 송수신 장치의 작동 예를 나타낸 도면.
도 2는 본 발명의 일 실시예에 따른 실시간 다자 통역 무선 송수신 장치의 작동을 나타낸 도면.
도 3은 본 발명의 다른 실시예에 따른 실시간 다자 통역 무선 송수신 장치의 작동을 나타낸 도면.
도 4는 본 발명의 다른 실시예에 따른 실시간 다자 통역 무선 송수신 장치의 작동 예를 나타낸 도면.
도 5는 본 발명의 일 실시예에 따른 실시간 다자 통역 무선 송수신 장치의 구조를 나타낸 도면.
도 6은 본 발명의 일 실시예에 따른 송수신 장치에서 번역서버로 송수신되는 데이터의 구조를 개략적으로 나타낸 블록도이다.
도 7은 본 발명의 일 실시예에 따른 실시간 다자 통역 무선 송수신 방법을 나타낸 순서도.
도 8은 도 7에 도시된 통번역단계의 송신단계를 나타낸 순서도.
도 9는 도 7에 도시된 통번역단계의 수신단계를 나타낸 순서도.
도 10은 1 대 다수 또는 다수 대 다수로 구성되는 예를 나타낸 도면.
도 11은 다수 대 다수로 구성된 후 릴레이로 연결되는 예를 나타낸 도면.
도 12는 본 발명의 일 실시예에 따른 핵심문장 추출 방법의 예시도.
도 13은 본 발명의 일 실시예에 따른 마침표의 예외 사항을 보인 예시도.
도 14는 본 발명의 일 실시예에 따른 구두점 구분 방법을 보인 예시도.
도 15는 본 발명의 일 실시예에 따른 샘플링 방법을 보인 예시도.
도 16은 본 발명의 일 실시예에 따른 학습 데이터 세트를 보인 예시도.
도 17은 본 발명의 일 실시예에 따른 룩업 테이블을 보인 예시도.
도 18은 본 발명의 일 실시예에 따른 추론 방법을 보인 예시도.
도 19는 본 발명의 일 실시예에 따른 딥러닝 알고리즘 학습 모델을 보인 예시도.
도 20은 본 발명의 일 실시예에 따른 추출 방법을 보인 예시도.
본 발명의 실시예들에 대한 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
본 발명의 실시예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세히 설명하기로 한다.
도1은 본 발명의 일 실시예에 따른 실시간 다자 통역 무선 송수신 장치의 작동 예를 나타낸 도면이며, 도2는 본 발명의 일 실시예에 따른 실시간 다자 통역 무선 송수신 장치의 작동을 나타낸 도면이다.
도1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 실시간 다자 통역 무선 송수신 장치는, 송수신 장치를 이용하여 실시간으로 통역을 진행한다. 즉, 상기 송수신 장치를 통해, 말하기와 듣기가 동시에 이루어지는 것이 가능하다. 또한, 송수신 장치는 1대1, 1대 다수 또는 다수 대 다수로 동시에 연결되어 여러명이 동시에 다른 언어로 대화하는 것 또한 가능하며, 블루투스를 통해 핸드폰에 연결되어 다른 언어를 쓰는 사람과 실시간으로 통화하는 것 또한 가능하다. 상기 송수신 장치는, 웨어러블한 송수신 장치 연결형으로, 모든 스마트폰에서 활용 가능하며, 스마트폰 뿐만 아니라, 다양한 스마트 기기에서 사용 가능이다. 상기 송수신 장치는 일 실시예에 따른 장치이며, 본 명세서의 도면에는 이어셋이 도시되어 있지만, 이어셋에 한정하는 것은 아니며, 마이크와 이어폰이 구비되어 있는 장치이면 무엇이든 가능하다.
도2는 본 발명의 일 실시예로서, 일 실시예에 따른 송수신 장치인 이어셋의 적용 모습인, 제1이어셋(111)을 착용한 제1사용자와 제2이어셋(112)을 착용한 제2사용자를 중심으로 설명한다. 상기 제1사용자는 제1이어셋(111)을 착용하고, 상기 제1이어셋(111)의 제1마이크(10)는 제1사용자의 음성을 인식한다. 상기 인식된 음성은 식별ID와 음성데이터로 변환되어 제2이어셋(112)으로 전달되고, 상기 전달된 음성은 제2이어셋(112)에서 번역서버(200)로 전송된다. 상기 번역서버(200)에 대해서는 후술하기로 한다.
상기 번역서버(200)에서 TTS로 변환된 데이터를 다시 제2이어셋(112)으로 전달하고, 제2이어셋(112)은 사용자에게 음성데이터로 결과를 출력하게 된다.
즉, 상기 제2이어셋(112)은, 상기 제1이어셋(111)으로부터 전달받은 식별 ID(언어) 및 음성 데이터를 번역서버(200)로 전송하고, 상기 번역서버(200)에서 처리된 값인 TTS 데이터를 전송받아 음성데이터로 출력하게 된다.
상기 번역서버(200)는 전달받은 식별 ID와 음성데이터를 분석하여 언어 번역을 수행하게 된다. 상기 번역된 언어는 TTS로 변환되게 된다. 상기 번역서버(200)에서 TTS로 변환된 데이터는 제2이어셋(112)으로 전달되게 되고, 상기 제2이어셋(112)은 전달받은 TTS 데이터를 음성데이터로 출력하게 된다. 상기 번역서버(200)는 별도의 서버를 두어 이어셋과 통신하는 방식 일 수 있다.
이때, 언어번역을 수행하는 API(Application Programming interface)는 Google Cloud Platform, PAPAGO 등의 API가 사용될 수 있으며, 전술한 API외에도 다양한 API가 사용가능하며, 이에 한정하는 것은 아니다.
또한, 도 2는 두 사용자간의 사용을 나타냈으나, 이에 한정하는 것은 아니며, 1대 1, 1대 다수 또는 다수 대 다수가 동시에 대화하도록 연결하는 것 또한 가능하다.
또한, 상기 도 2는, 제1사용자의 제1이어셋(111)의 제1마이크(10)에서 인식된 음성이 제2사용자의 제2이어셋(112)에서 번역서버(200)로 전송되어 번역을 수행하였지만, 이에 한정하는 것은 아니며, 실시 예에 따라, 제1이어셋(111)에서 번역서버(200)로 식별ID와 음성데이터를 전송하여 번역한 뒤, 변환된 TTS 데이터를 제2이어셋(112)으로 전달하는 것 또한 가능하다.
즉, 사용자의 음성을 인식하는 마이크 및 이어폰을 포함하는 송수신 장치는, 1대 1, 1대 다수 또는 다수 대 다수로 구성되며, 상기 마이크에 인식된 음성을 언어 정보를 포함하는 ID 데이터와 음성데이터로 인코딩하는 송신단 및 상기 송신단으로부터 수신받은 ID 데이터와 음성데이터 음성데이터를 디코딩하는 수신단을 포함한다. 또한, 상기 송신단에서 전송되는 ID 데이터와 음성데이터를 수신 받아 미리 정의된 복수개의 언어별로 ID 데이터와 음성데이터를, 대응되는 타 송수신 장치의 수신단으로 전송하는 번역서버(200)를 포함한다.
또한, 만약 송수신 장치가 블루투스 형태의 송수신 장치라면, 상기 번역서버는 송수신 장치가 블루투스 페어링되는 스마트폰에 구현 될 수 있다. 이때, 상기 번역서버는 스마트폰에 소프트웨어의 형태(예를 들면 어플리케이션)로 구현되어, 실시간 다자 통역 서비스를 할 수 있는 송수신 장치와 연동될 수 있다.
또한 번역서버의 또다른 구체적인 실시예로는 번역API를 처리하는 부분을 클라우드 서버단에 구현하고, 스마트폰에는 송수신 장치와 연동하며 사용자와 인터페이스하는 부분만 어플리케이션의 형태로 구현되도록 할 수도 있다.
도3은 본 발명의 다른 실시예에 따른 실시간 다자 통역 무선 송수신 장치의 작동을 나타낸 도면이다. 도 3에 도시된 바와 같이, 상기 송수신 장치는 펜던트의 형태로 제조 될 수 있다. 즉, 귀에 착용하는 대신 펜던트 형태로 제조된 송수신 장치는 목걸이 등에 걸어 사용가능하다.
일예로, 영어를 사용하는 사용자와 한국어를 사용하는 사용자가 각각 펜던트를 소지하였을 경우, 영어를 사용하는 사용자가 영어로 말을 하게 되면, 펜던트는 인식된 영어를 한국어를 사용하는 사용자의 펜던트로 전송하게 되고, 한국어를 사용하는 사용자의 펜던트는 전달받은 영어를 한국어로 번역하게 된다.
번역된 한국어는 한국어를 사용하는 사용자에게 전달되고, 사용자는 그 내용을 듣고 한국어로 말을 대답을 하게 된다. 한국어를 사용하는 사용자의 펜던트는 상기 한국어를 인식하고, 영어를 사용하는 사용자의 펜던트에 한국어를 전달하고 상기 펜던트는 한국어를 영어로 번역하여 사용자에게 출력하게 된다.
상기와 같은 이어셋 또는 펜던트 형태의 번역 송수신 장치는, 수신받은 언어를 타 언어로 번역함에 있어, 번역 서버 내의 API를 선택하여 번역한다. 본 발명의 일 실시예에 따른 송수신 장치는, 번역을 진행할 시, 인식률이 높은 API를 사용자의 기호에 따라 선택하여 사용자 맞춤으로 사용가능하다.
예를 들어, 파파고과 같은 번역 API의 경우, 한국어 인식률이 뛰어난 반면, 중국어 인식률은 상대적으로 뛰어나지 못해, 한글을 중국어로 번역하는 것은 뛰어나지만 중국어를 한국어로 번역하는 것은 뛰어나지 못하다. 이와 마찬가지로 구글은 영어 인식률이 더 높아 영어를 타 언어로 번역하는 것이 뛰어나다. 이러한 경우, 본 발명의 일 실시예에 따른 송수신 장치는, 한국어를 인식할 시에는 파파고를 선택하여 이용하고 영어를 인식할 시에는 구글을 선택하여 번역 하는 등, 언어에 따라 인식률이 높은 API를 선택 가능하다.
따라서, 번역서버에 복수개의 API(파파고, 구글, 바이두 등)를 미리 구비하여, 각국 언어를 번역할 시 해당 언어의 인식률이 높은 API를 선택하여 사용할 수 있도록 한다. 즉, 번역서버에서 번역과 관련된 API를 언어별로 최적화하여 쉽게 번경가능하며, 해당 번역 API의 발전 또는 업그레이드에 따른 마이그레이션(migration) 또한 용이하다.
상기 API를 선택할 시, 해당 언어를 인식하여 자동으로 API를 선택할 수도 있고, 사용자가 직접 API를 선택하여 사용하는 것 또한 가능하다.
도 4는 본 발명의 다른 실시예에 따른 실시간 다자 통역 무선 송수신 장치의 작동 예를 나타낸 도면이다. 도 4를 참조하면, 사용자가 상기 송수신 장치를 이용하여 서로 다른 언어를 사용하는 사람과 대화를 진행할 시, 번역을 수행하는 API(Application Programming interface) 대신 직접 통역사를 거칠 수도 있다.
예를 들어, 서로 다른 언어를 쓰는 사용자와 대화를 하고자 할 시, 모바일 또는 기타 기기를 통해 전문 통역사를 선택할 수 있다. 상기 모바일 기기 또는 기타 기기를 통해, 확보된 전문 통역사 중 본인이 선택하고자 하는 전문 통역사를 선택할수 있다. 즉, 한국인(Korean)이 영어로 통역이 필요할 경우, 통역사 중 한국인이 원하는 조건, 예를 들면 나이, 학교, 전공등을 입력하고 그게 맞는 통역사를 선택할 수 있다. 이와 마찬가지로, 미국인, 중국인도 각각 API 대신 통역사를 선택 가능하며, 전문 통역사에 의해 통역된 말을 상대방은 듣게 된다.
또한, 상기 전문 통역사는 앱 등의 서버에 데이터베이스로 저장되어 관리되며, 실시간으로 채팅 또는 대화를 가능하도록 설정할 수 있다.
또한, 사용자는 전문 통역사를 통한 번역 서비스를 이용하는 경우, 해당 서비스에 대한 만족도, 평가 등을 서버와 데이터베이스에 온라인 피드백의 형태로 반영하고, 이러한 반영된 만족도와 평가 등은 사용자 들이 전문 통역사를 선택하는 데 참조될 수 있다. 이러한 온라인 피드백을 통해 전통적인 오프라인 통번역사의 서비스가 불만족스럽더라도 이를 다른 사용자들에게 적극적으로 알릴 수 없는 단점을 극복할 수 있고, 또한 온라인을 통한 전문 통역사 서비스는 오프라인 통역사가 미팅에 반드시 참석해야 하는 점을 극복할 수 있기 때문에, 오프라인 통번역 서비스보다 더 경제적인 서비스를 제공할 수도 있다.
또한 해당 서비스에 참여한 전문 통역사도 마찬가지로 사용자에 대한 만족도, 평가 등을 온라인 피드백의 형태로 서버에 반영하도록 하여, 전문 통역사들 또한 평가가 좋지 않은 사용자에 대해서는 선택적으로 통번역 서비스를 제공하도록 할 수 있다.
즉, 도 4에 도시된 바와 같이, 세명의 한국인(Korean), 미국인(American), 중국인(Chinese)이 대화를 할 시, 각자 모바일기기를 이용하여, 본인이 원하는 조건의 전문 통역사를 선택하게 된다. 세명의 사람과 각각 선택된 통역사는 실시간으로 연결되어 통역을 진행하게 된다.
도 5는 송수신 장치의 내부를 개략적으로 나타낸 블록도로서, 본 발명의 송수신장치(100)는 ID 세팅부(110), 송신단(120) 및 수신단(130)를 포함할 수 있다.
먼저, 이러한 송수신 장치(100)는 본 발명의 일실시예에서 송신장치와 수신장치가 하나의 장치에 함께 장착된 것을 가정하였지만, 이에 한정되는 것이 아니고, 송신장치와 수신장치가 별도의 장치에 분리되어 장착되어서 서로 송수신하면서 하나의 세트로 구성되게 할 수도 있고, 송신장치 하나와 다수개의 수신장치의 세트로 구성되게 할 수도 있다. 다시 말하면, 다수명이 서로 동시에 대화하는 회의 같은 경우에는 송신장치와 수신장치과 하나의 세트로 구성되도록 하는 것이 바람직하고 한명이 다수명에게 발표하는 경우에는 하나의 송신장치와 다수개의 수신장치의 구성으로 이루어지도록 하는 것이 바람직하다고 할 수 있다.
ID 세팅부(110)는 사용자의 언어 정보를 설정하는 기능을 수행한다. 다시 말하면, 사용자가 자신의 국적, 즉, 듣고자 원하는 자기 나라의 언어를 설정하게 되면 해당 언어에 대한 정보를 생성하여 송수신 장치(100)의 송신부(120) 및 수신부(130)로 전송할 수 있도록 한다. 본 발명의 일실시예에서는 ID 세팅부(110)를 장치의 외부에 인식 가능한 디스플레이와 버튼의 조합이거나, 터치스크린 등으로 이루어지는 것으로 가정하였는데, ID 세팅부(110)가 위의 예에 한정되는 것은 아니고 유사한 기능의 다른 수단으로 얼마든지 변용이 가능함은 당연하다 할 것이다.
송신단(120)은, 음성을 입력받아 ID 데이터와 음성데이터를 인코딩하여 전송하는 기능을 수행하는데, 음성입력부(121), 제1 헤더분석부(122), 인코딩부(123) 및 송신부(124)를 포함할 수 있다.
음성입력부(121)는 음성을 입력받아 전기 신호를 변환하는 기능을 수행하는데, 본 발명의 일실시예에서는 음성입력부(121)가 다양한 종류의 마이크로폰으로 이루어지는 것으로 가정하였다. 물론 이러한 음성입력부(121) 이외에도 텍스트 입력 장치 또는 터치펜 등의 다양한 입력기기가 대체 사용될 수도 있다 하겠다.
제1 헤더분석부(122)는 ID 세팅부(110)의 신호를 전송받아 분석하는 기능을 수행하는데, 사용자가 자신의 언어, 즉, 듣고자 하는 해당 언어를 설정하게 되면 그에 따라 ID 세팅부(110)에 의해 해당 언어의 정보가 포함한 ID 신호가 발생하고 이러한 신호는 수신단(120)으로 전송되어 제1 헤더분석부(122)로 전송되며, 제1 헤더분석부(122)는 해당 신호를 분석하여 이후 인코딩부(123)에서 변활될 데이터 형식에 적합한 신호를 생성해내게 된다.
인코딩부(123)는, 입력된 음성과 제1 헤더분석부(122)에서 분석된 ID 신호를 데이터로 변환하고 결합하는 기능을 수행하는데, 이와 같이 함으로써 번역서버(200)로 전송되는 데이터는 ID 신호에 해당하는 헤드 데이티와 입력된 음성에 해당하는 음성 데이터로 이루어지도록 한다.
송신부(124)는, 인코딩부(123)에서 변환된 음성데이터와 ID 데이터가 결합된 데이터를 번역서버(200)로 송신하는 기능을 수행한다. 본 발명의 일실시예에서 송신부(124)는 일정 거리 이상 떨어진 번역서버(200)와 무선으로 송수신할 수 있도록 송신부(124)가 RF 통신모듈, Wifi 모듈 등으로 이루어지는 것으로 가정하였는데, 이외에도 다양한 통신 모듈이 사용될 수 있음은 당연하다 할 것이다.
수신단(130)은 ID 데이터와 음성데이터를 수신받아 디코딩하여 해당 언어로 출력하는 기능을 수행하는데, 음성출력부(131), 제2 헤더분석부(132), 디코딩부(133) 및 수신부(134)를 포함할 수 있다.
음성출력부(131)는, 해당 언어를 음성으로 출력하는 기능을 수행하는데, 본 발명의 일실시예에서는 보통 스피커로 구성될 수 있고, 이어폰을 이용할 수 있도록 구성될 수 있고, 이들 모두를 포함하여 구성될 수도 있다.
제2 헤더분석부(132)는, ID 데이터를 분석하여 해당 언어 정보를 추출하고 매칭시키는 기능을 수행한다. 다시 말하면, 번역서버(200)에서 전파되는 다양한 언어에 대한 데이터를 전송받아 전송 데이터열의 헤드부만을 빠르게 분석함으로써 헤드부에 수록된 ID 데이터의 해당 언어 정보를 쉽게 추출하게 된다. 이와 같이 함으로써 종래의 번역기처럼 음성 자체를 인식하여 내부의 미리 저장된 언어와 비교하지 않아도 해당 번역기가 원하는 언어를 빠르게 통역할 수 있게 된다.
디코딩부(133)는, 음성데이터와 ID 데이터가 결합된 데이터를 디코딩하여 음성데이터와 ID 데이터로 분리하는 기능을 수행하게 된다. 다시 말하면, 번역서버(200)에서 전파되는 다양한 언어에 대한 데이터 중에서 제2 헤더분석부(132)가 해당 번역기에 맞는 데이터를 선택하면 선택된 데이터를 디코딩하여 음성데이터와 ID 데이터로 분리하고 분리된 음성데이터를 변환하여 음성 신호로 바꿀 수 있도록 한다.
수신부(134)는, 번역서버(200)로부터 음성데이터와 ID 데이터가 결합된 데이터를 전송 받는 기능을 수행한다. 본 발명의 일실시예에서 수신부(134)는 일정 거리이상 떨어진 번역서버(200)와 무선으로 송수신할 수 있도록 RF 통신모듈, Wifi 모듈 등으로 이루어지는 것으로 가정하였는데, 이외에도 다양한 통신 모듈이 사용될 수 있음은 당연하다 할 것이다.
번역서버(200)는 1 대 다수 또는 다수 대 다수로 구성되는 다수개의 송수신 장치(100)의 송신부(124)에서 전송되는 ID 데이터와 음성데이터를 수신 받아 미리 정의된 복수개의 언어별로 ID 데이터와 음성데이터를 상기 다수개의 송수신 장치(100)의 수신부(134)로 전송하는 기능을 수행한다.
번역서버(200)는 본 발명의 일실시예에서 내부에 다양한 언어별 데이터 베이스와, 이들 데이터 베이스에 수록된 데이터를 이용하여 각각의 언어로 번역하는 알고리즘이 수록된 연산장치, 데이터 신호를 송수신 할 수 있는 통신부를 포함하는 것으로 가정하였다.
이상과 같이 구성되는 본 발명의 실시간 다자 통역 무선 송수신 시스템의 작동을 간략하게 설명하면 다음과 같다.
먼저, 사용자가 송수신 장치(100)의 ID 세팅부(110)를 조작한다.
다음으로 송신단(120)은 입력되는 음성과 ID 세팅부(110)의 신호를 인코딩하고 합쳐서 번역서버(200)로 송신한다.
다음으로, 번역서버(200)는 복수개의 송수신 장치(100)로부터 송신되는 데이터를 전송받아 송수신 장치(100)의 구성을 파악하여 ID를 정의한 후, 실시간으로 입력되는 어느 하나의 송수신 장치(100)의 데이터를 미리 정의된 ID에 따라 다수개의 국가별 언어 데이터를 생성하여 송수신 장치(100)로 전파하게 된다.
마지막으로, 수신단(130)은 이러한 다수개의 국가별 언어 데이터를 수신한 후 수신된 데이터의 ID 데이터를 분석하여 해당 기기의 ID 정보와 일치하는 데이터를 선택하여 디코딩하고 음성으로 출력하게 된다.
도 7은 본 발명의 일실시예에 따른 실시간 다자 통역 무선 송수신 방법을 나타낸 순서도로서, 본 발명의 실시간 다자 통역 무선 송수신 방법은, 노드설정단계(S310), 통신방식결정단계(S320), 마스터/슬레이브결정단계(S330), ID정의단계(S340) 및 통번역단계(S350)를 포함할 수 있다.
노드설정단계(S310)는, 번역서버(200)가 대상 송수신 장치(100)의 수를 결정하는 단계이다. 상술한 바와 같이 본 발명의 일실시예에서는 다수의 사용자가 동시에 대화를 하는 회의 석상이나, 한 명이 다수명에게 발표를 하는 경우를 상정하였고, 이에 따라 번역기에 해당하는 송수신 장치(100)가 다수개가 필요하게 되므로 번역서버(200)는 실시간 다자 통역을 위해서 전체적인 송수신 장치(100)의 개수를 파악할 필요가 있다.
통신방식결정단계(S320)는, 번역서버(200)가 1 대 다수 또는 다수 대 다수의 통신 방식을 결정하는 단계로서, 상술한 바와 같이 파악된 다수개의 송수신 장치(100)가 어떠한 방식으로 서로 연결되어 구성되는가를 파악하여 브로드 캐스팅 방식으로 시스템을 운용할 것인지 다자간 쌍방향 방식으로 시스템을 운용할 것인지를 결정하여야 한다.
본 발명의 일실시예에서는 크게 1 대 다수 이거나 다수 대 다수의 통신방식으로 송수신 장치(100)가 구성되는 것을 가정하였지만, 이외에도 다양한 방식으로 송수신 장치(100)가 구성되어 그에 따른 통신 방식으로 시스템이 운용될 수 있음은 당연하다 할 것이다.
통신방식결정단계(S320)에서 송수신 장치(100)의 구성이 1 대 다수이면 이후의 마스터/슬레이브결정단계(S330)로 진행하고, 송수신 장치(100)의 구성이 1 대 다수가 아니고 다수 대 다수이면 ID정의단계(S340)로 진행하게 된다.
마스터/슬레이브결정단계(S330)는, 번역서버(200)가 상기 통신 방식이 1 대 다수이면 다수개의 송수신 장치(100) 중에서 마스터/슬레이브를 결정하는 단계로서, 가령, 송수신 장치(100)가 번역서버(200)에 의해 1 대 다수의 통신방식으로 구성되었다고 판단하게 되면 그 중 송신을 담당하는 송수신 장치(100)를 찾아서 마스터로 지정하고 수신을 담당하는 송수신 장치(100)를 찾아서 슬레이브로 지정하게 된다. 예를 들면 마스터로 지정된 송수신 장치(100)의 경우에는 회의 석상의 발표자인 것을 예상할 수 있고 슬레이브로 지정된 송수신 장치(100)의 경우에는 발표자의 발표를 청취하는 참석자인 것을 예상할 수 있다.
ID정의단계(S340)는, 번역서버(200)가 ID를 정의하는 단계로서, 앞의 단계에서처럼 이어셋(100)을 파악하여 통신방식을 정하고 난 후, 송수신 장치(100)로부터 전송되는 데이터를 전송받아 각각의 송수신 장치(100)에 저장된 ID 데이터에 따라 각각의 언어로 데이터를 생성하여 송출을 준비하는 단계이다. 따라서, 이후, 어느 하나의 송수신 장치(100)에서라도 음성데이터가 실린 신호가 전송되면 ID정의단계(S340)에서 정해진 모든 ID 데이터의 언어별 데이터를 생성하여 실시간으로 송수신 장치(100)로 송출하기 위함이다.
통번역단계(S350)는, 다수개의 송수신 장치가 번역서버를 통해 데이터를 송신 또는 수신받아 통번역하는 단계이다. 이 단계에서 사용자는 비로소 자신이 말한 음성이 상대방에게 해당 언어로 통역되어 들리게 되고 상대방이 말한 음성이 사용자의 언어로 통역되어 들리게 된다.
통번역단계(S350)는, 구체적으로 송신단계와 수신단계로 나누어 볼 수 있다.
도 8은 도 7에 도시된 통번역단계의 송신단계를 나타낸 순서도로서, 통번역단계(S350)에서 송수신 장치(100)가 번역서버(200)를 통해 데이터를 송신받는 송신단계는, 음성입력단계(S410), 송신ID분석단계(S420), 인코딩단계(S430) 및 데이터송신단계(S440)를 포함할 수 있다.
음성입력단계(S410)는, 음성입력부(121)로 음성을 입력받는 단계로서, 마이크 등을 통해 사용자가 말할 때 그 음성을 입력 받아 전기적 신호로 변환한다.
송신ID분석단계(S420)는, 제1 헤더 분석부(122)가 ID 세팅부(110)의 신호를 전송받아 분석함으로써 이후의 인코딩단계(S430)에서 데이터로 변환될 수 있도록 한다.
인코딩단계(S430)는, 음성입력단계(S410)에서 전송된 음성과 상기 송신ID분석단계(S420)에서 분석된 신호를 데이터로 변환하고 결합하는 단계이다. 상술한 바와 같이 이와 같이 송수신 장치(100)가 번역서버(200)로 송수신하는 데이터 신호열을 헤드부의 ID 데이터와 음성부의 음성데이터로 구성함으로써 차후에 음성을 직접 인식하지 않고서도 해당 데이터 신호가 어떠한 언어에 해당하는지를 쉽게 빠르게 파악할 수 있도록 한다.
데이터송신단계(S440)는, 인코딩단계(S430)에서 전송되는 음성데이터와 ID 데이터를 번역서버(200)로 전송하는 단계이다.
도 9는 도 7에 도시된 통번역단계의 수신단계를 나타낸 순서도로서, 통번역단계에서 송수신 장치가 번역서버를 통해 데이터를 수신받는 수신단계는, 데이터수신단계(S510), 수신ID분석단계(S520), 디코딩단계(S530) 및 음성출력단계(S540)를 포함할 수 있다.
데이터수신단계(S510)는, 번역서버(200)로부터 음성데이터와 ID 데이터가 결합된 데이터를 전송 받는 단계로서, 번역서버(200)는 ID정의단계(S34)에서 정의된 바와 같이 미리 정해진 각각의 송수신 장치(100)에 해당한 ID 별로 데이터를 만들어 동시에 송출하면 송수신 장치(100)가 이를 수신하게 된다.
수신ID분석단계(S520)는, ID 데이터를 분석하여 해당 언어 정보를 추출하여 상기 송수신 장치(100)에 설정된 ID와 매칭되는 ID 데이터와 음성데이터를 선택하는 단계이다. 다시 말하면, 동시에 송출되는 각각의 언어별 데이터 신호를 수신 받은 후 각각의 데이터 신호에서 빠르게 ID 데이터만을 분석하여 해당 송수신 장치(100)에서 요구하는 언어별 ID 데이터가 수록된 데이터 신호를 선택하는 단계이다.
디코딩단계(S530)는, 음성데이터와 ID 데이터가 결합된 데이터를 디코딩하여 음성데이터와 ID 데이터로 분리하고 음성으로 변환하는 단계로서, 선택된 데이터 신호를 디코딩함으로써 이후 음성출력단계(S340)에서 실제처로 스피커 또는 이어폰을 울릴 수 있도록 해당 음성데이터를 전기적 신호로 변환하는 단계이다.
음성출력단계(S540)는, 디코딩단계(S330)에서 변환된 해당 언어를 음성으로 출력하는 단계이다.
도 10과 도 11에는 송수신 장치(100)의 구성 방식을 개략적으로 도형으로 표시한 것을 표시하였다.
도 10의 좌측상단에는 피어 투 피어 일방향 네트워크로 송수신 장치(100)가 구성되는 것을 나타내었다. 즉, 여기서 사용되는 송수신 장치(100)는 송신장치와 수신장치가 별도로 구성되어 일방향으로만 통신되는 것을 표시한 것이다.
그 아래에는 피어 투 피어 양방향 네트워크로 송수신 장치(100)가 구성되는 것을 나타내었다. 즉, 여기서 사용되는 송수신 장치(100)는 송신장치와 수신장치가 별도로 구성되어 양방향으로만 통신되는 것을 표시한 것이다.
그 아래에는 일 대 다수 네트워크로 송수신 장치(100)가 구성되는 것을 나타내었다. 즉, 여기서는 송수신 장치(100)가 송신장치 하나와 다수개의 수신장치로 구성되어 송신장치 하나에서 일방향으로 전파되는 것을 표시한 것이다. 이를 방송국의 송출방식과 유사하므로 브로드캐스트 네트워크라고 지칭하기도 한다.
우측에는 성형망 네트워크로 송수신 장치(100)가 다수개가 서로 서로 송수신하도록 구성되는 것을 나타내었다. 다시 말하면, 송수신 장치(100)가 분리되지 않고 일체로 작동하여 다수개가 서로 서로 양방향 통신을 하는 것을 표시한 것이다.
이외에도, 도 11에 도시한 것과 같이 성형망 네트워크가 중간에 릴레이로 중계되어 서로 연결도록 송수신 장치(100)가 구성될 수도 있다. 다시 말하면 2개의 성형망 네트워크가 일종의 통신장치인 릴레이로 연결되는 것을 표시한 것으로, 가령, 공간이 분리된 장소에서 하나의 공간과 하나의 공간이 서로 연결되는 경우를 예정한 것이다.
이상에서 설명한 바와 같이 본 발명은 종래의 통역기가 장치에 하드웨어적으로 해당 언어정보에 대한 ID를 부여받아 언어를 분석 및 인식하는 것과는 달리 실시간 다자 통역 무선 송수신 장치가 입력된 음성과 해당 언어정보에 대한 ID 신호가 결합되는 데이터를 번역서버를 통해 송수신하고 있기 때문에, 실시간 다자 통역 무선 송수신 장치는 상기 번역 서버에서 전송되는 데이터 중에서 ID 신호만을 분석하면 곧바로 해당 언어를 통역할 수 있어 음성을 인식할 때 발생하는 인식 지연 및 인식 불량이 발생하지 않는 효과가 있다.
또한, 본 발명은 상기 실시간 다자 통역 무선 송수신 방법을 이용하여 사용자가 원하는 언어로 주제문을 추출 하는 방법을 구현할 수 있다.
상기 주제문 추출 방법은, 상기 실시간 다자 통역 무선 송수신 방법의 상기 통번역단계 이후에 주제문 추출단계를 더 포함할 수 있다.
상기 주제문추출단계는 주제문을 추출하기 위해, 상기 통번역단계의 결과물인 변환된 해당 언어의 출력물을 문서화하여, 하나의 문서로 생성하고, 상기 문서를 바탕으로 주제문을 추출할 수 있다.
후술한 핵심문장을 추출하는 방법을 통해 주제문을 추출하게 되고, 그 과정에서 상술한 실시간 다자 통역 무선 송수신 방법의 통번역 결과물을 활용하게 되면, 사용자들은 다국적 인사들과의 회의 직후, 자신이 원하는/설정한 언어로 작성되 미팅의 주제문을 쉽게 확인할 수 있다. 이러한 주제문은 일종의 회의록 등과 같이 사용되어, 해당 미팅의 참석자들이 미팅의 결과물을 빠르고 쉽게 획득하는 효과도 있고, 한편 미팅의 결론에 대해서 일종의 공적인 기록물로서 활용될 수 있는 효과도 있다.
상기 주제문은 핵심문장을 추출하는 방법을 통해 추출하게 되는데, 상기 핵심문장을 추출하는 방법에 대해 상세히 설명한다.
도 12는 본 발명의 일 실시예에 따른 핵심문장 추출 방법의 예시도이다.
핵심문장 추출 방법은 문서의 문장을 구분하는 단계; 문장을 샘플링하는 단계; 샘플링 데이터로 지도 학습 데이터를 생성하는 단계; 문장에 대해 룩업 테이블을 생성하는 단계; 룩업 테이블을 이용하여 문장별 핵심문장 확률을 추출하고, 지도 학습된 뉴럴 네트워크 모델을 입력하는 단계; 및 뉴럴 네트워크 모델의 문장별 확률값으로 상위 문장을 추출하는 단계를 포함한다.
핵심문장 추출 장치는 구분하는 단계, 샘플링하는 단계, 생성하는 단계, 룩업 테이블을 생성하는 단계, 입력하는 단계, 및 추출하는 단계를 수행한다.
구분하는 단계는 구두점인 마침표, 물음표, 느낌표를 이용하여 문서의 문장을 구분한다. 샘플링하는 단계는 해당 문장을 포함한 전, 후 다수의 문장을 한 문장으로 묶어 데이터를 샘플링한다. 생성하는 단계는 샘플링 데이터로 지도 학습 데이터를 생성한다. 룩업 테이블을 생성하는 단계는 문장을 형태소 분석기를 이용하여 어근단위로 나눈 후 어근에 임의의 실수를 N차원만큼 생성한다. 입력하는 단계는 룩업 테이블을 이용하여 문장별 핵심문장 확률을 추출하고, 지도 학습된 뉴럴 네트워크 모델을 입력한다. 추출하는 단계는 뉴럴 네트워크 모델의 문장별 확률값으로 상위 문장을 추출한다.
도 13은 본 발명의 일 실시예에 따른 마침표의 예외 사항을 보인 예시도이다.
마침표의 예외 사항에서 구분하는 단계는 마침표의 예외 사항을 처리한다. 구분하는 단계는 소수점을 예외 사항으로 처리하고, 성과 이름의 구분점을 예외 사항으로 처리한다.
핵심문장 추출 장치는 소수점을 예외 사항으로 처리하고, 성과 이름의 구분점을 예외 사항으로 처리한다. 핵심문장 추출 장치는 문장에서 마침표 예외 사항을 처리해야 한다. 소수점과 성과 이름에는 마침표가 포함되는데 핵심문장 추출 장치는 소수점, 성과 이름에 포함된 마침표를 예외 사항으로 처리한다. 소수점, 성과 이름은 문장이 아니므로 핵심문장 추출 장치는 이를 예외 사항으로 처리할 수 있다.
도 14는 본 발명의 일 실시예에 따른 구두점 구분 방법을 보인 예시도이다.
구두점 구분 방법에서 구분하는 단계는 구두점을 이용한 문장을 구분하는 단계; 마침표 뒤 따옴표를 판별하여 소수점 예외사항을 보안하는 단계; 마침표 전, 두번째 뒤칸의 알파벳을 판별하여 구분점 예외사항을 보안하는 단계를 포함한다.
핵심문장 추출 장치는 구두점을 이용하여 문장을 구분하고, 마침표 뒤 따옴표를 판별하여 소수점 예외사항을 보안하고, 마침표 전, 두번째 뒤칸의 알파벳을 판별하여 구분점 예외사항을 보안한다. 구두점 구분 알고리즘은 문장에 포함된 구두점에 대해 소수점 예외사항과 구분점 예외사항을 처리한다. 핵심문장 추출 장치는 소수점과 성과 이름에 대해 소수점 예외사항과 구분점 예외사항을 처리해서 문장을 구분한다.
도 15는 본 발명의 일 실시예에 따른 샘플링 방법을 보인 예시도이다.
샘플링하는 단계는 해당 문장을 포함한 전, 후 다수의 문장을 한 문장으로 묶어 데이터를 샘플링하는 단계를 포함한다.
핵심문장 추출 장치는 해당 문장을 포함한 전, 후 다수의 문장을 한 문장으로 묶어 데이터를 샘플링한다. 핵심문장 추출 장치는 단일 문장을 사용하지 않고 해당 문장을 포함하는 전, 후 다수의 문장을 한 문장으로 묶어 샘플링한다. 핵심문장 추출 장치는 다수의 문장에 핵심문장이 포함되어 있음을 추론할 수 있도록 다수의 문장을 샘플링한다. 핵심문장은 단일 문장으로 구성될 수도 있으나 다수의 문장을 이룰 수 있으므로 이를 고려해서 다수의 문장이 한 문장으로 묶여 샘플링된다. 실시예로, 해당 문장과 전, 후 다수의 문장이 샘플링될 수 있다.
도 16은 본 발명의 일 실시예에 따른 학습 데이터 세트를 보인 예시도이다.
생성하는 단계는 샘플링 데이터를 입력데이터로 설정하고, 핵심문장을 0, 비 핵심문장을 1로 두어 정답데이터를 이진 분류하는 단계를 포함한다.
핵심문장 추출 장치는 샘플링 데이터를 입력데이터로 설정하고, 핵심문장을 0, 비 핵심문장을 1로 두어 정답데이터를 이진 분류한다. 뉴럴 네트워크가 학습되기 위해 학습 데이터 세트가 준비되어야 한다. 핵심문장 추출 장치는 샘플링 데이터를 입력데이터로 정답데이터를 이진 분류하여 학습 데이터 세트를 준비한다. 학습 데이터 세트는 뉴럴 네트워크를 학습시키는 용도로 사용된다. 이후 문서의 샘플링 데이터가 뉴럴 네트워크에 입력되면서 다시 학습될 수 있다.
도 17은 본 발명의 일 실시예에 따른 룩업 테이블을 보인 예시도이다.
룩업 테이블을 생성하는 단계는 문장을 형태소 분석기를 이용하여 어근단위로 나눈 후 어근에 -1~1사이의 임의의 실수를 N차원만큼 생성하고, 학습을 진행하여 룩업 테이블 값을 업데이트하는 단계를 포함한다.
핵심문장 추출 장치는 문장을 형태소 분석기를 이용하여 어근단위로 나눈 후 어근에 -1~1사이의 임의의 실수를 N차원만큼 생성하고, 학습을 진행하여 룩업 테이블 값을 업데이트한다. 핵심문장 추출 장치는 룩업 테이블을 이용한다. 룩업 테이블은 어근에 -1~1 상의 임의의 실수가 N차원 생성된 테이블이다. 핵심문장 추출 장치는 문장을 어근단위로 나눈 후 어근에 임의의 실수를 N차원만큼 생성한 룩업 테이블로 학습을 진행하여 룩업 테이블 값을 업데이트한다.
도 18은 본 발명의 일 실시예에 따른 추론 방법을 보인 예시도이다.
입력하는 단계는 룩업 테이블을 입력받아 딥러닝 알고리즘을 이용하여 핵심문장 가능성을 추론하는 단계를 포함한다.
핵심문장 추출 장치는 룩업 테이블을 입력받아 딥러닝 알고리즘을 이용하여 핵심문장 가능성을 추론한다. 딥러닝 알고리즘은 룩업 테이블로 핵심문장 가능성을 추론한다. 핵심문장 추출 장치는 룩업 테이블을 딥러닝 알고리즘에 적용해서 핵심문장 가능성을 추론한다.
핵심문장 추출 장치는 CNN 모델의 출력값을 이진 분류하여 학습 결과를 출력하고, 학습 결과와 샘플링 결과를 비교하여 룩업 테이블을 업데이트한다.
도 19는 본 발명의 일 실시예에 따른 딥러닝 알고리즘 학습 모델을 보인 예시도이다.
추론하는 단계는 룩업 테이블을 CNN 모델에 입력하여 멀티플 필터를 사용한 컨벌루션 레이어를 생성하고, 맥스 풀링드 알고리즘을 이용하여 멀티플 필터의 가장 높은 확률을 선택해 풀링 레이어를 구성하고, 풀리 커넥티드 레이어를 이용하여 풀링 레이어를 1*1행렬로 치환하여 가능성을 추론하는 단계를 포함한다.
핵심문장 추출 장치는 룩업 테이블을 CNN 모델에 입력하여 멀티플 필터를 사용한 컨벌루션 레이어(91)를 생성하고, 맥스 풀링드 알고리즘을 이용하여 멀티플 필터의 가장 높은 확률을 선택해 풀링 레이어(92)를 구성하고, 풀리 커넥티드 레이어(93)를 이용하여 풀링 레이어(92)를 1*1행렬로 치환하여 가능성을 추론한다. 뉴럴 네트워크는 CNN 모델이고, 컨벌루션 레이어(91), 풀링 레이어(92), 풀리 커넥티드 레이어(93)로 구성된다. 컨벌루션 레이어(91)는 멀티플 필터를 사용하고, 풀링 레이어(92)는 맥스 풀링드 알고리즘을 이용하여 멀티플 필터의 가장 높은 확률을 선택하고, 풀리 커넥티드 레이어(93)는 풀링 레이어(92)를 1*1행렬로 치환하여 가능성을 추론한다. 맥스-풀링(max pooling) 알고리즘은 단순히 결과 배열을 2x2 정사각형으로 나누어 각각에서 가장 큰 숫자만을 취합한다. 이 아이디어는 각 2x2 사각형 격자(square grid)를 구성하는 4개의 입력 타일에서 흥미로운 것을 찾으면, 가장 흥미로운 것도 유지할 수 있다. 이를 통해 가장 중요한 부분을 유지하면서도 배열의 크기를 줄일 수 있다.
풀링(Pooling) 레이어는 사소한 변화를 무시해준다. 풀링 레이어는 컨볼루션 레이어의 출력 이미지에서 주요값만 뽑아 크기가 작은 출력 영상을 만든다. 이것은 지역적인 사소한 변화가 영향을 미치지 않도록 한다.
도 20은 본 발명의 일 실시예에 따른 추출 방법을 보인 예시도이다.
추출하는 단계는 문장별 확률값을 토대로 내림차순으로 정렬시킨 후 상위 N개의 문장을 출력하는 단계를 포함한다.
핵심문장 추출 장치는 문장별 확률값을 토대로 내림차순으로 정렬시킨 후 상위 N개의 문장을 출력한다. 핵심문장 추출 장치는 N개의 문장을 핵심 문장으로 출력한다. 핵심문장 추출 장치는 핵심 문장을 추출하기 위해 문장별 확률값을 토대로 내림차순으로 정렬시킨 후 상위 N개의 문장을 핵심 문장으로 출력한다.
상기 핵심문장 추출 장치는 문서의 문장을 구분하는 구분부; 문장을 샘플링하는 샘플링부; 샘플링 데이터로 지도 학습 데이터를 생성하는 생성부; 문장에 대해 룩업 테이블을 생성하는 테이블 생성부; 룩업 테이블을 이용하여 문장별 핵심문장 확률을 추출하고, 지도 학습된 뉴럴 네트워크 모델을 입력하는 입력부; 및 뉴럴 네트워크 모델의 문장별 확률값으로 상위 문장을 추출하는 추출부를 포함한다.
구분부는 구두점인 마침표, 물음표, 느낌표를 이용하여 문서의 문장을 구분한다. 샘플링부는 해당 문장을 포함한 전, 후 다수의 문장을 한 문장으로 묶어 데이터를 샘플링한다. 생성부는 샘플링 데이터로 지도 학습 데이터를 생성한다. 테이블 생성부는 문장을 형태소 분석기를 이용하여 어근단위로 나눈 후 어근에 임의의 실수를 N차원만큼 생성한다. 입력부는 룩업 테이블을 이용하여 문장별 핵심문장 확률을 추출하고, 지도 학습된 뉴럴 네트워크 모델을 입력한다. 추출부는 뉴럴 네트워크 모델의 문장별 확률값으로 상위 문장을 추출한다.
마침표의 예외 사항에서 구분부는 마침표의 예외 사항을 처리한다. 구분부는 소수점을 예외 사항으로 처리하고, 성과 이름의 구분점을 예외 사항으로 처리한다.
구분부는 소수점을 예외 사항으로 처리하고, 성과 이름의 구분점을 예외 사항으로 처리한다. 구분부는 문장에서 마침표 예외 사항을 처리해야 한다. 소수점과 성과 이름에는 마침표가 포함되는데 구분부는 소수점, 성과 이름에 포함된 마침표를 예외 사항으로 처리한다.
구두점 구분 방법에서 구분부는 구두점을 이용한 문장을 구분하는 문장 구분부; 마침표 뒤 따옴표를 판별하여 소수점 예외사항을 보안하는 제1보안부; 마침표 전, 두번째 뒤칸의 알파벳을 판별하여 구분점 예외사항을 보안하는 제2보안부를 포함한다.
구분부는 구두점을 이용하여 문장을 구분하고, 마침표 뒤 따옴표를 판별하여 소수점 예외사항을 보안하고, 마침표 전, 두번째 뒤칸의 알파벳을 판별하여 구분점 예외사항을 보안한다. 구두점 구분 알고리즘은 문장에 포함된 구두점에 대해 소수점 예외사항과 구분점 예외사항을 처리한다. 구분부는 소수점과 성과 이름에 대해 소수점 예외사항과 구분점 예외사항을 처리해서 문장을 구분한다.
샘플링부는 해당 문장을 포함한 전, 후 다수의 문장을 한 문장으로 묶어 데이터를 샘플링하는 문장 샘플링부를 포함한다.
문장 샘플링부는 해당 문장을 포함한 전, 후 다수의 문장을 한 문장으로 묶어 데이터를 샘플링한다. 문장 샘플링부는 단일 문장을 사용하지 않고 해당 문장을 포함하는 전, 후 다수의 문장을 한 문장으로 묶어 샘플링한다. 문장 샘플링부는 다수의 문장에 핵심문장이 포함되어 있음을 추론할 수 있도록 다수의 문장을 샘플링한다.
생성부는 샘플링 데이터를 입력데이터로 설정하고, 핵심문장을 0, 비 핵심문장을 1로 두어 정답데이터를 이진 분류하는 분류부를 포함한다.
분류부는 샘플링 데이터를 입력데이터로 설정하고, 핵심문장을 0, 비 핵심문장을 1로 두어 정답데이터를 이진 분류한다. 뉴럴 네트워크가 학습되기 위해 학습 데이터 세트가 준비되어야 한다. 분류부는 샘플링 데이터를 입력데이터로 정답데이터를 이진 분류하여 학습 데이터 세트를 준비한다.
테이블 생성부는 문장을 형태소 분석기를 이용하여 어근단위로 나눈 후 어근에 -1~1사이의 임의의 실수를 N차원만큼 생성하고, 학습을 진행하여 룩업 테이블 값을 업데이트하는 업데이트부를 포함한다.
업데이트부는 문장을 형태소 분석기를 이용하여 어근단위로 나눈 후 어근에 -1~1사이의 임의의 실수를 N차원만큼 생성하고, 학습을 진행하여 룩업 테이블 값을 업데이트한다. 업데이트부는 룩업 테이블을 이용한다. 룩업 테이블은 어근에 -1~1 상의 임의의 실수가 N차원 생성된 테이블이다. 업데이트부는 문장을 어근단위로 나눈 후 어근에 임의의 실수를 N차원만큼 생성한 룩업 테이블로 학습을 진행하여 룩업 테이블 값을 업데이트한다.
입력부는 룩업 테이블을 입력받아 딥러닝 알고리즘을 이용하여 핵심문장 가능성을 추론부를 포함한다.
추론부는 룩업 테이블을 입력받아 딥러닝 알고리즘을 이용하여 핵심문장 가능성을 추론한다. 딥러닝 알고리즘은 룩업 테이블로 핵심문장 가능성을 추론한다. 추론부는 룩업 테이블을 딥러닝 알고리즘에 적용해서 핵심문장 가능성을 추론한다.
추론부는 룩업 테이블을 CNN 모델에 입력하여 멀티플 필터를 사용한 컨벌루션 레이어를 생성하고, 맥스 풀링드 알고리즘을 이용하여 멀티플 필터의 가장 높은 확률을 선택해 풀링 레이어를 구성하고, 풀리 커넥티드 레이어를 이용하여 풀링 레이어를 1*1행렬로 치환하여 가능성을 추론한다.
뉴럴 네트워크는 CNN 모델이고, 컨벌루션 레이어, 풀링 레이어, 풀리 커넥티드 레이어로 구성된다. 컨벌루션 레이어는 멀티플 필터를 사용하고, 룰링 레이어는 맥스 풀링드 알고리즘을 이용하여 멀티플 필터의 가장 높은 확률을 선택하고, 풀리 커넥티드 레이어는 풀링 레이어를 1*1행렬로 치환하여 가능성을 추론한다.
추출부는 문장별 확률값을 토대로 내림차순으로 정렬시킨 후 상위 N개의 문장을 출력하는 출력부를 포함한다.
출력부는 문장별 확률값을 토대로 내림차순으로 정렬시킨 후 상위 N개의 문장을 출력한다. 출력부는 N개의 문장을 핵심 문장으로 출력한다. 출력부는 핵심 문장을 추출하기 위해 문장별 확률값을 토대로 내림차순으로 정렬시킨 후 상위 N개의 문장을 핵심 문장으로 출력한다.
[실시예 1]
핵심문장 추출 장치는 출력 결과인 핵심 문장에 대한 사용자 피드백을 반영하여 뉴럴 네트워크에 대한 룩업 테이블의 업데이트를 조정할 수 있다. 핵심 문장에 대한 사용자 피드백이 높은 경우 핵심문장 추출 장치는 룩업 테이블의 업데이트를 지시하고 사용자 피드백이 낮은 경우 룩업 테이블의 업데이트를 중단할 수 있다. 계속되는 사용자 피드백이 높은 경우에만 룩업 테이블의 업데이트가 계속되어 핵심 문장의 신뢰도가 상승할 수 있다.
[실시예 2]
핵심문장 추출 장치는 사용자 피드백을 다른 핵심문장 추출 장치로 전파해서 다수의 핵심문장 추출 장치의 신뢰도를 상승시킬 수 있다. 사용자 피드백 전파를 위해 핵심문장 추출 장치는 중앙 서버와 클라이언트간의 통신을 포함할 수 있다. 중앙 서버는 사용자 피드백에 관련된 데이터를 수집하고, 클라이언트인 다수의 핵심문장 추출 장치로 전파할 수 있다.
[실시예 3]
핵심문장 추출 장치는 문장을 순차 샘플링 또는 문단 형식을 고려한 우선 샘플링을 수행할 수 있다. 문단 형식을 고려한 우선 샘플링은 문단에서 핵심 문장이 놓여지는 두괄식, 미괄식, 또는 중괄식을 고려해서 우선 샘플링 문장을 샘플링하고, 순차 샘플링되는 문장에 포함시킬 수 있다. 핵심문장 추출 장치는 우선 샘플링 문장과 순차 샘플링 문장을 혼합해서 문장 샘플링을 처리할 수 있다.
상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
이상의 설명에서는 본 발명의 다양한 실시예들을 제시하여 설명하였으나 본 발명이 반드시 이에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능함을 쉽게 알 수 있을 것이다.

Claims (17)

  1. 사용자의 음성을 인식하는 마이크 및 이어폰을 포함하는 송수신기;
    상기 송수신기는
    1대 1, 1대 다수 또는 다수 대 다수로 구성되며,
    상기 마이크에 인식된 음성을 언어 정보를 포함하는 ID 데이터와 음성데이터로 인코딩하는 송신단; 및
    상기 송신단으로부터 수신받은 ID 데이터와 음성데이터를 디코딩하는 수신단;을 포함하는 것을 특징으로 하는 주제문 추출 가능한 실시간 다자 통역 무선 송수신 시스템.
  2. 제1항에 있어서, 상기 송수신기는
    상기 송신단에서 전송되는 ID 데이터와 음성데이터를 수신 받아 미리 정의된 복수개의 언어별로 ID 데이터와 음성데이터를 번역하여, 대응되는 타 송수신기의 수신단으로 전송하는 번역서버와 연결되는 것을 특징으로 하는 주제문 추출 가능한 실시간 다자 통역 무선 송수신 시스템.
  3. 제1항 내지 제2항 중 선택되는 어느 한 항의 송수신기를 포함하고,
    상기 송신단에서 전송되는 ID 데이터와 음성데이터를 수신 받아 미리 정의된 복수개의 언어별로 ID 데이터와 음성데이터를 번역하여, 대응되는 타 송수신기의 수신단으로 전송하는 번역서버를 포함하는 것을 특징으로 하는 주제문 추출 가능한 실시간 다자 통역 무선 송수신 시스템.
  4. 제1항에 있어서, 상기 송수신기는
    모바일기기 내 앱과 연결되며,
    상기 앱은 사용자가 통역사를 선택가능하도록 통역사 데이터베이스를 포함하는 것을 특징으로 하는 주제문 추출 가능한 실시간 다자 통역 무선 송수신 시스템.
  5. 제1항에 있어서, 상기 송신단은
    음성을 입력받아 전기 신호를 변환하는 음성입력부;
    상기 ID 세팅부의 신호를 전송받아 분석하는 제1 헤더분석부;
    입력된 음성과 제1 헤더 분석부에서 분석된 ID 신호를 데이터로 변환하고 결합하는 인코딩부; 및
    상기 인코딩부에서 변환된 음성데이터와 ID 데이터가 결합된 데이터를 상기 번역서버로 송신하는 송신부;를 포함하는 주제문 추출 가능한 실시간 다자 통역 무선 송수신 시스템.
  6. 제1항에 있어서, 상기 수신단은
    번역서버로부터 음성데이터와 ID 데이터가 결합된 데이터를 전송 받는 수신부;
    상기 음성데이터와 ID 데이터가 결합된 데이터를 디코딩하여 음성데이터와 ID 데이터로 분리하는 디코딩부;
    상기 ID 데이터를 분석하여 해당 언어 정보를 추출하고 매칭시키는 제2 헤더분석부; 및
    해당 언어를 음성으로 출력하는 음성출력부;를 포함하는 것을 특징으로 하는 주제문 추출 가능한 실시간 다자 통역 무선 송수신 시스템.
  7. 번역서버가 대상 송수신기의 수를 결정하는 노드설정단계;
    번역서버가 1 대 다수 또는 다수 대 다수의 통신 방식을 결정하는 통신방식결정단계;
    번역서버가 상기 통신 방식이 1 대 다수이면 다수개의 송수신기 중에서 마스터/슬레이브를 결정하는 마스터/슬레이브결정단계;
    번역서버가 ID를 정의하는 ID정의단계;
    다수개의 송수신기가 번역서버를 통해 데이터를 송신 또는 수신받아 통번역하는 통번역단계;를 포함하는 것을 특징으로 하는 주제문 추출 가능한 실시간 다자 통역 무선 송수신 방법.
  8. 제7항에 있어서, 상기 통번역단계에서 송수신기가 번역서버를 통해 데이터를 송신받는 송신단계는
    음성입력부로 음성을 입력받는 음성입력단계;
    제1 헤더 분석부가 ID 세팅부의 신호를 전송받아 분석하는 송신ID분석단계;
    상기 음성입력단계에서 전송된 음성과 상기 송신ID분석단계에서 분석된 신호를 데이터로 변환하고 결합하는 인코딩단계; 및
    상기 인코딩단계에서 전송되는 음성데이터와 ID 데이터를 번역서버로 전송하는 데이터송신단계;를 포함하는 것을 특징으로 하는 주제문 추출 가능한 실시간 다자 통역 무선 송수신 방법.
  9. 제7항에 있어서, 상기 통번역단계에서 송수신기가 번역서버를 통해 데이터를 수신받는 수신단계는
    상기 번역서버로부터 음성데이터와 ID 데이터가 결합된 데이터를 전송 받는 데이터수신단계;
    상기 ID 데이터를 분석하여 해당 언어 정보를 추출하여 상기 송수신기에 설정된 ID와 매칭되는 ID 데이터와 음성데이터를 선택하는 수신ID분석단계;
    상기 음성데이터와 ID 데이터가 결합된 데이터를 디코딩하여 음성데이터와 ID 데이터로 분리하고 음성으로 변환하는 디코딩단계; 및
    상기 디코딩단계에서 변환된 해당 언어를 음성으로 출력하는 음성출력단계;를 포함하는 것을 특징으로 하는 주제문 추출 가능한 실시간 다자 통역 무선 송수신 방법.
  10. 제7항의 실시간 다자 통역 무선 송수신 방법을 이용한 주제문 추출 방법에 있어서,
    상기 주제문 추출 방법은
    상기 실시간 다자 통역 무선 송수신 방법의 상기 통번역단계 이후에 주제문 추출단계를 더 포함하며,
    상기 주제문 추출단계는 상기 통번역단계의 결과물을 하나의 문서로 생성하고,
    문서의 문장을 구분하는 단계;
    상기 문장을 샘플링하는 단계;
    샘플링 데이터로 뉴럴 네트워크 모델의 지도 학습 데이터를 생성하는 단계;
    상기 문장에 대해 룩업 테이블을 생성하는 단계;
    상기 룩업 테이블을 이용하여 문장별 핵심문장 확률을 추출하고, 지도 학습된 상기 뉴럴 네트워크 모델에 입력하는 단계;
    상기 뉴럴 네트워크 모델의 문장별 확률값으로 상위 문장을 추출하는 단계를 포함하는 실시간 다자 통역 무선 송수신 방법을 이용한 주제문 추출 방법.
  11. 제 10항에 있어서,
    상기 구분하는 단계는 구두점을 이용한 상기 문장을 구분하는 단계;
    마침표 뒤 따옴표를 판별하여 소수점 예외사항을 보안하는 단계; 및
    마침표 전, 두번째 뒤칸의 알파벳을 판별하여 구분점 예외사항을 보안하는 단계를 포함하는 실시간 다자 통역 무선 송수신 방법을 이용한 주제문 추출 방법.
  12. 제 10항에 있어서,
    상기 샘플링하는 단계는 해당 문장을 포함한 전, 후 다수의 문장을 한 문장으로 묶어 데이터를 샘플링하는 단계를 포함하는 실시간 다자 통역 무선 송수신 방법을 이용한 주제문 추출 방법.
  13. 제10항에 있어서,
    상기 생성하는 단계는 상기 샘플링 데이터를 입력데이터로 설정하고, 핵심문장을 0, 비 핵심문장을 1로 두어 정답데이터를 이진 분류하는 단계를 포함하는 실시간 다자 통역 무선 송수신 방법을 이용한 주제문 추출 방법.
  14. 제10항에 있어서,
    상기 룩업 테이블을 생성하는 단계는 상기 문장을 형태소 분석기를 이용하여 어근단위로 나눈 후 어근에 -1~1사이의 임의의 실수를 N차원만큼 생성하고, 학습을 진행하여 상기 룩업 테이블의 값을 업데이트하는 단계를 포함하는 실시간 다자 통역 무선 송수신 방법을 이용한 주제문 추출 방법.
  15. 제10항에 있어서,
    상기 입력하는 단계는 상기 룩업 테이블을 입력받아 딥러닝 알고리즘을 이용하여 핵심문장 가능성을 추론하는 단계를 포함하는 실시간 다자 통역 무선 송수신 방법을 이용한 주제문 추출 방법.
  16. 제15항에 있어서,
    상기 추론하는 단계는 상기 룩업 테이블을 CNN 모델에 입력하여 멀티플 필터를 사용한 컨벌루션 레이어를 생성하고, 맥스 풀링드 알고리즘을 이용하여 상기 멀티플 필터의 가장 높은 확률을 선택해 풀링 레이어를 구성하고, 풀리 커넥티드 레이어를 이용하여 상기 풀링 레이어를 1*1행렬로 치환하여 상기 핵심문장 가능성을 추론하는 단계를 포함하는 실시간 다자 통역 무선 송수신 방법을 이용한 주제문 추출 방법.
  17. 제10항에 있어서,
    상기 추출하는 단계는 상기 문장별 확률값을 토대로 내림차순으로 정렬시킨 후 상위 N개의 문장을 출력하는 단계를 포함하는 실시간 다자 통역 무선 송수신 방법을 이용한 주제문 추출 방법.
PCT/KR2018/010398 2018-02-23 2018-09-06 주제문 추출 가능한 실시간 다자 통역 무선 송수신 시스템 및 이를 이용한 송수신 방법 WO2019164078A1 (ko)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
KR1020180021969A KR102042247B1 (ko) 2018-02-23 2018-02-23 실시간 다자 통역 무선 송수신 시스템 및 그 방법
KR10-2018-0021969 2018-02-23
KR1020180031774A KR102118603B1 (ko) 2018-03-20 2018-03-20 딥러닝 알고리즘 기반의 핵심문장 추출 방법
KR10-2018-0031774 2018-03-20
KR10-2018-0086950 2018-07-26
KR1020180086950A KR102170902B1 (ko) 2018-07-26 2018-07-26 실시간 다자 통역 무선 이어셋 및 이를 이용한 송수신 방법

Publications (1)

Publication Number Publication Date
WO2019164078A1 true WO2019164078A1 (ko) 2019-08-29

Family

ID=67687754

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2018/010398 WO2019164078A1 (ko) 2018-02-23 2018-09-06 주제문 추출 가능한 실시간 다자 통역 무선 송수신 시스템 및 이를 이용한 송수신 방법

Country Status (1)

Country Link
WO (1) WO2019164078A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111739538A (zh) * 2020-06-05 2020-10-02 北京搜狗科技发展有限公司 一种翻译方法、装置、耳机和服务器
CN112818708A (zh) * 2021-01-19 2021-05-18 传神语联网网络科技股份有限公司 多终端多语种视频会议的语音翻译实时处理系统与方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100754210B1 (ko) * 2006-03-08 2007-09-03 삼성전자주식회사 복수개의 유무선 통신 기기를 이용한 다채널 음악 재생방법 및 장치
KR101223975B1 (ko) * 2011-11-16 2013-01-21 재단법인 제주테크노파크 멀티 코덱, 멀티 채널 기반의 동시 통역 음성 전송 시스템 및 방법
CN106776580A (zh) * 2017-01-20 2017-05-31 中山大学 混合的深度神经网络cnn和rnn的主题句识别方法
CN107133211A (zh) * 2017-04-26 2017-09-05 中国人民大学 一种基于注意力机制的作文评分方法
US20170357643A1 (en) * 2011-12-12 2017-12-14 Google Inc. Auto-translation for multi user audio and video

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100754210B1 (ko) * 2006-03-08 2007-09-03 삼성전자주식회사 복수개의 유무선 통신 기기를 이용한 다채널 음악 재생방법 및 장치
KR101223975B1 (ko) * 2011-11-16 2013-01-21 재단법인 제주테크노파크 멀티 코덱, 멀티 채널 기반의 동시 통역 음성 전송 시스템 및 방법
US20170357643A1 (en) * 2011-12-12 2017-12-14 Google Inc. Auto-translation for multi user audio and video
CN106776580A (zh) * 2017-01-20 2017-05-31 中山大学 混合的深度神经网络cnn和rnn的主题句识别方法
CN107133211A (zh) * 2017-04-26 2017-09-05 中国人民大学 一种基于注意力机制的作文评分方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DONG-WOOK LEE ET AL: "Document Summarization Using Mutual Recommendation with LSA and Sense Analysis", JOURNAL OF KOREAN INSTITUTE OF INTELIGENT SYSTEMS, vol. 22, no. 5, October 2012 (2012-10-01), pages 656 - 662, XP055633335, DOI: 10.5391/JKIIS.2012.22.5.656 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111739538A (zh) * 2020-06-05 2020-10-02 北京搜狗科技发展有限公司 一种翻译方法、装置、耳机和服务器
CN111739538B (zh) * 2020-06-05 2022-04-26 北京搜狗科技发展有限公司 一种翻译方法、装置、耳机和服务器
CN112818708A (zh) * 2021-01-19 2021-05-18 传神语联网网络科技股份有限公司 多终端多语种视频会议的语音翻译实时处理系统与方法
CN112818708B (zh) * 2021-01-19 2023-09-08 传神语联网网络科技股份有限公司 多终端多语种视频会议的语音翻译实时处理系统与方法

Similar Documents

Publication Publication Date Title
US10176366B1 (en) Video relay service, communication system, and related methods for performing artificial intelligence sign language translation services in a video relay service environment
WO2016021937A1 (ko) 문자 데이터의 내용을 문자 데이터 송신자의 음성으로 출력하는 방법
WO2019156314A1 (ko) 챗봇과 대화하기 위한 전자 장치 및 그의 동작 방법
US9063931B2 (en) Multiple language translation system
WO2015005679A1 (ko) 음성 인식 방법, 장치 및 시스템
WO2021034038A1 (en) Method and system for context association and personalization using a wake-word in virtual personal assistants
WO2016133319A1 (en) Method and device for providing information
WO2020159288A1 (ko) 전자 장치 및 그 제어 방법
WO2021002584A1 (ko) 음성을 통한 전자문서 제공 방법, 음성을 통한 전자문서 작성 방법 및 장치
EP3545487A1 (en) Electronic apparatus, controlling method of thereof and non-transitory computer readable recording medium
WO2018174443A1 (en) Electronic apparatus, controlling method of thereof and non-transitory computer readable recording medium
WO2020111532A1 (ko) 복수 챗봇의 협업에 의한 대화형 정보제공 시스템 및 그 방법
WO2018026200A1 (en) Language translation device and language translation method
WO2019164078A1 (ko) 주제문 추출 가능한 실시간 다자 통역 무선 송수신 시스템 및 이를 이용한 송수신 방법
WO2018097439A1 (ko) 발화의 문맥을 공유하여 번역을 수행하는 전자 장치 및 그 동작 방법
WO2015041434A1 (ko) 다국어 메시지 번역 시스템 및 그 방법
WO2021060728A1 (ko) 사용자 발화를 처리하는 전자 장치 및 그 작동 방법
CN103533129A (zh) 实时的语音翻译通信方法、系统及所适用的通讯设备
WO2015170799A1 (ko) 메시지 제공 방법 및 메시지 제공 장치
WO2021020825A1 (ko) 전자장치와 그의 제어방법, 및 기록매체
WO2022092721A1 (ko) 대용어를 포함하는 텍스트에 관한 보이스 어시스턴트 서비스를 제공하는 시스템 및 방법
WO2022255850A1 (ko) 다국어 번역 지원이 가능한 채팅시스템 및 제공방법
WO2019225997A1 (en) System including electronic device of processing speech of user and method of controlling speech recognition on electronic device
KR102170902B1 (ko) 실시간 다자 통역 무선 이어셋 및 이를 이용한 송수신 방법
US11848026B2 (en) Performing artificial intelligence sign language translation services in a video relay service environment

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18906719

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18906719

Country of ref document: EP

Kind code of ref document: A1