WO2015030340A1 - 핸즈프리 자동 통역 서비스를 위한 단말 장치 및 핸즈프리 장치와, 핸즈프리 자동 통역 서비스 방법 - Google Patents

핸즈프리 자동 통역 서비스를 위한 단말 장치 및 핸즈프리 장치와, 핸즈프리 자동 통역 서비스 방법 Download PDF

Info

Publication number
WO2015030340A1
WO2015030340A1 PCT/KR2014/003839 KR2014003839W WO2015030340A1 WO 2015030340 A1 WO2015030340 A1 WO 2015030340A1 KR 2014003839 W KR2014003839 W KR 2014003839W WO 2015030340 A1 WO2015030340 A1 WO 2015030340A1
Authority
WO
WIPO (PCT)
Prior art keywords
interpretation
information
hands
user
voice
Prior art date
Application number
PCT/KR2014/003839
Other languages
English (en)
French (fr)
Inventor
김상훈
김기현
왕지현
김동현
윤승
이민규
이담허
최무열
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020140022712A external-priority patent/KR101834546B1/ko
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to US14/914,390 priority Critical patent/US10216729B2/en
Publication of WO2015030340A1 publication Critical patent/WO2015030340A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Definitions

  • a terminal device for hands-free automatic interpretation service and hands-free device and a method for hands-free automatic interpretation service (TERMINAL AND HANDSFREE DEVICE FOR SERVICING HANDSFREE AUTOMATIC INTERPRETATION, AND METHOD THEREOF). It is about technology that supports automatic interpretation between the two.
  • the present invention provides a terminal device and a method for servicing an automatic interpretation using a hands-free method, and a hands-free device.
  • a terminal device for hands-free automatic interpretation service may perform a pairing with a hands-free device according to a request of the hands-free device, and interpret the user's voice information received from the hands-free device.
  • the interpretation result is received from the interpretation broker and the counterpart terminal, which transmits the interpretation result to the counterpart terminal and receives the interpretation result from the counterpart terminal's voice information
  • the interpretation result of the counterpart is interpreted based on the initialized interpretation environment.
  • an interpreter processing unit configured to synthesize the voice information and transmit the synthesized voice information to the hands-free device.
  • the interpretation environment initialization unit may receive, from the counterpart terminal, the environment information receiver which receives the interpretation environment information including one or more of the language information and the gender information of the other party, and the interpretation environment information based on the received interpretation environment information. It may include an interpretation environment setting unit for setting the information.
  • the interpretation processor may include a speech synthesis unit configured to synthesize the interpretation result into a male or female voice based on the set synthesis tone information.
  • the speech synthesis unit may synthesize the speech by reflecting one or more of a user's speech rate and emotional state based on the received additional information.
  • the terminal device may further include an additional information collecting unit configured to collect additional information including one or more of user state information and personal information, wherein the user state information is one of a speech rate and an emotional state extracted from the voice information of the user.
  • the personal information may include one or more of name, nationality, and image information input from the user.
  • the interpreter broker When the interpreter broker receives the voice information from the hands-free device, the interpreter broker transmits the voice information to the interpreter server and transmits the interpreter server to the counterpart terminal according to the predefined interpreter protocol. It may include a terminal intermediary.
  • the terminal device may further include a situation information collecting unit configured to collect situation information including at least one of current location information and background sound information of the user, and the server intermediary unit may collect the voice information and the collected situation information received from the hands-free device. Can be sent to an interpreter server.
  • a situation information collecting unit configured to collect situation information including at least one of current location information and background sound information of the user
  • the server intermediary unit may collect the voice information and the collected situation information received from the hands-free device. Can be sent to an interpreter server.
  • the interpretation result of the user's voice information includes one or more of the interpretation data and the interpretation error correction data
  • the interpretation of the voice information in a text or speech format the error correction data is similar intention sentence and N-best (N -best) may contain one or more of the recognition data.
  • the interpretation result may include an interpretation error correction unit for modifying the interpretation data based on the selection information of one or more of the user from the error correction data.
  • the hands-free automatic interpretation service method performed by the user terminal device may include pairing with the hands-free device according to a request of the hands-free device, initializing an interpretation environment, and receiving voice information of the user from the hands-free device. Transmitting the received voice information of the user to an interpreter server, receiving an interpreted result from the interpreter server, transmitting the received interpreted result to the counterpart terminal, receiving an interpreted result of interpreting the voice information of the counterpart from the counterpart terminal.
  • the method may include synthesizing the interpretation result received from the counterpart terminal into speech based on the initialized interpretation environment, and transmitting the synthesized speech information to the hands-free device.
  • Initializing the interpretation environment includes receiving interpretation environment information including at least one of language information and gender information of the other party from the other terminal and interpreting at least one of interpretation language information and synthesized sound information based on the received interpretation environment information. And setting the environment information.
  • the interpretation result when the interpretation result is received from the counterpart terminal, the interpretation result may be synthesized into a male or female voice based on the set synthesis tone information.
  • the voice when additional information is further received from the counterpart terminal, the voice may be synthesized by reflecting one or more of a user's speech rate and emotional state based on the received additional information.
  • the interpreting method may further include collecting context information including one or more of the user's current location information and background sound information, and the step of transmitting the user's voice information to the interpreter server may be received from a hands-free device. Voice information and the collected situation information can be transmitted to an interpretation server.
  • the interpreting method if the interpretation result received from the interpretation server includes error correction data, outputting error correction data on the display, receiving one or more selection information from the error correction data from the user and received selection The method may further include modifying the interpretation data based on the information.
  • a hands-free device for hands-free automatic interpretation service including a microphone and a speaker may perform pairing with a user terminal when an interpretation request of a user is input, and execute an interpretation function for requesting the user terminal to initialize an interpretation environment. It may include a control unit for controlling the communication unit to transmit the voice information of the user input through the unit and the microphone to the user terminal, and outputs the voice information received from the user terminal by the communication unit through the speaker.
  • the interpreter execution unit may execute an interpreter application installed in the user terminal to request to initialize the interpreter environment.
  • the interpretation function execution unit may detect an interpreter counterpart terminal located at a short distance, and transmit the detected counterpart terminal information to the user terminal through the communication unit to request to initialize the interpretation environment with the counterpart terminal.
  • the hands-free device may further include a motion recognition unit that recognizes a user's motion using a motion recognition sensor including at least one of an acceleration sensor and a gyro sensor, and the controller may be configured to display the user terminal on the display of the user terminal based on the recognized motion. You can control the selection of the error correction data that is output.
  • a motion recognition unit that recognizes a user's motion using a motion recognition sensor including at least one of an acceleration sensor and a gyro sensor
  • the controller may be configured to display the user terminal on the display of the user terminal based on the recognized motion. You can control the selection of the error correction data that is output.
  • the microphone may include one or more of a first microphone located near the user's mouth, a second microphone located near the user's ear, and a bone conduction microphone.
  • FIG. 1 is a block diagram of a hands-free based automatic interpretation system according to an embodiment.
  • FIG 2 and 3 schematically illustrate the flow of automatic interpretation performed in the automatic interpretation system according to an embodiment.
  • FIGS. 4 and 5 are structural diagrams of a hands-free device according to one embodiment.
  • FIG. 6 is a block diagram of a hands-free device for hands-free based automatic interpretation according to one embodiment.
  • FIG. 7 is a block diagram of a terminal device for hands-free based automatic interpretation according to an embodiment.
  • FIG. 8 is a detailed block diagram of an interpretation environment initialization unit in the terminal device of FIG. 7.
  • FIG. 9 is a detailed block diagram of an interpretation broker in the terminal device of FIG. 7.
  • FIG. 9 is a detailed block diagram of an interpretation broker in the terminal device of FIG. 7.
  • FIG. 10 is a detailed block diagram of an interpretation processing unit in the terminal device of FIG. 7.
  • 11 is a block diagram of an interpretation server for hands-free based automatic interpretation according to an embodiment.
  • FIG. 12 is a flowchart of a hands-free based automatic interpretation method according to an embodiment.
  • FIG. 13 is a flowchart of an automatic interpretation method performed in a hands-free device according to one embodiment.
  • FIG. 14 is a flowchart illustrating an automatic interpretation method performed in a terminal device according to an embodiment.
  • 1 is a block diagram of a hands-free based automatic interpretation system according to an embodiment.
  • 2 and 3 schematically illustrate the flow of automatic interpretation performed in the automatic interpretation system according to an embodiment.
  • the hands-free based automatic interpretation system 1 may include a hands-free device 100, a terminal device 200, and an interpretation server 300.
  • the hands-free device 100 performs pairing with a user's terminal device 200 for automatic interpretation.
  • the hands-free device 100 performs pairing with a user terminal using short-range communication methods such as Bluetooth, Zigbee, NFC (Near Field Communication), Wi-Fi (WiFi), and Wi-Fi Direct. can do.
  • short-range communication methods such as Bluetooth, Zigbee, NFC (Near Field Communication), Wi-Fi (WiFi), and Wi-Fi Direct. can do.
  • the hands-free apparatus 100 may automatically execute an interpreter application installed in the user terminal apparatus 200 to request to initialize the interpreter environment.
  • the hands-free device 100 receives voice information for interpretation from the user and transmits it to the user's terminal device 200 to request an interpretation.
  • the hands-free device 100 may receive a synthesis sound obtained by synthesizing the interpretation result of the other party from the terminal device 200 and output the synthesized sound to the user.
  • the terminal device 200 may initialize the communication connection and interpretation environment with the counterpart terminal at the request of the hands-free device 100.
  • the terminal device 200 may include various communication terminal devices such as a smart phone, a smart pad, and a notebook.
  • the terminal device 200 performs pairing through short-range communication such as Bluetooth, Wi-Fi, and Wi-Fi Direct with the counterpart terminal, and initializes environment information required from the counterpart terminal, for example, Information such as language information and gender information may be received and an interpretation environment may be initialized based on the information.
  • the interpreter may transmit the input voice information to the interpretation server 300 to request an interpretation.
  • the automatic interpretation system 1 may access the same automatic interpretation server 300 through the hands-free device 100 and the terminal device 200 to use the automatic interpretation service. That is, user A connects to the interpretation server 300 using his handsfree device 100a and the terminal device 200a, and user B uses the hands free device 100b and the terminal device 200b to interpret the same interpretation server. 300 can be connected. At this time, the hands-free device 100 may wear only one of the two users.
  • user A and user B access a preferred interpretation server to receive an interpretation request and a result, and transmit the received interpretation result to a counterpart using a standardized interpretation protocol. It is also possible.
  • the terminal device 200 may access the interpreter server 300 through wireless mobile communication.
  • the wireless mobile communication includes 3G, LTE, LTE Advanced (LTE Advanced), etc., but is not particularly limited in the communication method, it is apparent that various communication methods developed in accordance with future technology development may be used.
  • the terminal device 200 may collect current status information of the user by using various mounted sensors (eg, GPS) and transmit the collected information to the interpretation server together.
  • various mounted sensors eg, GPS
  • the terminal device 200 obtains additional information such as a speech rate or an emotional state from the voice information, and receives the obtained additional information from the interpreter server 300. It can be transmitted to the other terminal with the interpretation result.
  • the terminal device 200 may synthesize the speech using the received interpretation result.
  • the voice of the corresponding gender may be synthesized based on gender (eg, male and female) information of the other party set at the time of initializing the interpretation environment.
  • the synthesized sound may be generated by reflecting the received additional information.
  • the interpreter server 300 may recognize the received voice, convert the received voice into text, and translate the converted text to match the language of the counterpart.
  • the translated result may be converted into a text form or a voice form, and the converted interpretation result may be transmitted to the user terminal device 200.
  • the contextual information is received together with the voice information from the user terminal device 200, the current contextual information of the user may be determined and translated according to the determined context.
  • FIGS. 4 and 5 are structural diagrams of the hands-free device 10 according to one embodiment.
  • the hands-free device 10 shown in FIGS. 4 and 5 is an embodiment of the hands-free device 100 of FIG. 1 and may be manufactured in a form that can be worn by a user, in particular, a form that can be worn on an ear.
  • the hands-free device 10 includes one or more microphones 11, 12, and 16, a volume control button 13, a push to talk (PTT) button 14, and a speaker 15. can do.
  • PTT push to talk
  • the hands-free device 10 may receive the user's voice in two channels through the microphone 11 located near the mouth, that is, channel 1 and the microphone 12 located near the ear, that is, channel 2, as shown in FIG. Can be.
  • the user terminal or the interpretation server receiving the voice input through the two channels can perform the two-channel noise processing, thereby increasing the voice recognition success rate even in a high noise environment.
  • the microphone 11 of the channel 1 may be manufactured in the form of a spring or an input / output as shown in order to adjust the length according to the user's body shape.
  • Handsfree device 10 may include bone conduction microphone 16 as shown in FIG. 3.
  • the bone conduction microphone 16 may be formed together with the microphones 11 and 12 of the other channel 1 or the channel 2 to configure three channels, or may be separately formed.
  • the bone conduction microphone 16 may be formed in a ring portion, ie, the auricle portion, that is applied to the ear to receive bone conduction voice so as to be used for detecting the end point of the voice input from the user terminal.
  • the hands-free device 10 may include a PTT button 14, and the PTT button 14 may conveniently input voice by requesting an interpreter by pressing the PTT button whenever a user speaks.
  • the user terminal may facilitate voice start and end point detection.
  • the PTT button 14 may be omitted when the bone conduction microphone 16 is formed.
  • the speaker 15 outputs the interpretation result synthesized tone information received from the user terminal to the user.
  • the volume control button 13 adjusts the size of the volume output to the user according to the user's request.
  • the hands-free device 10 may include a motion recognition sensor such as a gyro sensor or an acceleration sensor therein.
  • the hands-free device 10 may control the interface output to the user terminal according to the motion recognized through the built-in motion recognition sensor.
  • FIG. 6 is a block diagram of a hands-free device for hands-free based automatic interpretation according to one embodiment.
  • the hands-free device 100 includes a microphone 110, a speaker 120, a motion recognition sensor 130, and a controller 140. , An interpreter function execution unit 150, a communication unit 160, and a motion recognition unit 170 may be included.
  • the controller 140 performs various control operations of the hands free device 100. For example, when a user inputs a predefined interpretation start request voice (eg, “interpretation start”) through the microphone 110, the user may recognize the input voice to determine whether the interpretation request is an interpretation request. If it is determined that the interpreter request, the interpreter function execution unit 150 may request to execute the interpreter function. Alternatively, when the interpreter request button is mounted on the hands-free device 100, the interpreter request may be recognized and the interpreter function execution unit 150 may be requested to execute the interpreter function.
  • a predefined interpretation start request voice eg, “interpretation start”
  • the interpreter function execution unit 150 may request to execute the interpreter function.
  • the controller 140 may output a predefined sound through the speaker when an interpreter start request is input from the user to complete execution of the interpreter function or when the interpreter end request is input and the interpreter function ends. This allows the user to recognize that the interpreter function has been executed and input the interpreted voice information.
  • the controller 140 recognizes this and determines whether the interpretation interpretation request voice is an interpretation target voice. If it is determined that the interpretation end request is voiced, the interpretation application of the terminal device may be automatically terminated.
  • a pre-defined interpretation end request voice e.g. "interpretation termination”
  • the interpreter function execution unit 150 may notify the connected terminal device that the interpreter request has been received under the control of the controller 140 and request to initialize the interpreter environment.
  • the interpretation function execution unit 150 performs pairing with the user's terminal device using short-range communication.
  • the interpreter application installed in the terminal device may be automatically executed to allow the terminal device to initialize the necessary interpreter environment.
  • the terminal device may set environment information such as pairing with the counterpart terminal, access to an interpreter server, language and gender information of the counterpart, and the like, at the request of the interpreter function execution unit 150.
  • the interpreter function execution unit 150 detects an interpreter counterpart terminal located at a short distance (for example, within a radius of 2 m) and uses the detected counterpart terminal information via the communication unit 160. Can be sent to.
  • the user terminal device When the interpreter environment initialization request including the counterpart terminal information is input from the interpreter function execution unit 150, the user terminal device connects to the counterpart terminal using the counterpart terminal information and receives necessary environment information from the counterpart terminal. Can be. In this case, the user terminal and the counterpart terminal may be connected through Bluetooth pairing.
  • the control unit 140 causes the communication unit 160 to transmit the input voice information to the terminal device, and the communication unit 160.
  • the controller 140 controls the motion recognition sensor 130 and the motion recognition unit 170 such as a gyro sensor or an acceleration sensor, and transmits a signal measured by the motion recognition sensor 130 to the motion recognition unit 170. It can be recognized as a predefined motion.
  • the user's selection in the interface output to the display of the user terminal can be controlled through the recognized motion.
  • the user may move a selection of a menu or an item (eg, error correction data) output on the interface of the terminal device up and down. For example, if you quickly nod your head or move left or right while a menu or item is selected, you can enter that item as the last item you selected.
  • a menu or an item eg, error correction data
  • the terminal device when the terminal device receives an interpretation result and error correction data such as an N-best or similar meaning sentence from an interpretation server and outputs the error correction data to the display of the terminal device, the user directly touches the terminal device with his or her hand. You can easily enter correction data without having to select it.
  • FIG. 7 is a block diagram of a terminal device for hands-free based automatic interpretation according to an embodiment.
  • 8 is a detailed block diagram of an interpretation environment initialization unit in the terminal device of FIG. 7.
  • FIG. 9 is a detailed block diagram of an interpretation broker in the terminal device of FIG. 7.
  • FIG. 10 is a detailed block diagram of an interpretation processing unit in the terminal device of FIG. 7.
  • the terminal device 200 for hands-free based automatic interpretation will be described.
  • the terminal device 200 includes an interpretation environment initialization unit 210, an interpretation broker 220, and an interpretation processor 230.
  • the situation information collecting unit 240 and the additional information collecting unit 250 may be included.
  • the interpretation environment initialization unit 210 may perform pairing with the hands-free device according to the request of the hands-free device and initialize the interpretation environment.
  • the interpretation environment information may include language information and gender (male and female) information of the counterpart user.
  • the interpretation environment initialization unit 210 includes an initialization request receiving unit 211, a pairing performing unit 212, an environment information receiving unit 213, and the like.
  • An interpretation environment setting unit 214 may be included.
  • the initialization request receiver 211 receives an interpretation environment initialization request from the hands-free device.
  • the hands-free device may automatically execute the interpreter application installed in the terminal device 200.
  • the hands-free device may recognize the interpreter environment initialization and the interpreter request of the hands-free device. have.
  • the pairing performer 212 may connect to a predefined interpretation server or a preferred interpretation server by accessing the mobile communication network.
  • the pairing request is transmitted to the counterpart terminal through short-range communication such as Bluetooth, and the pairing acknowledgment is received from the counterpart terminal, it may be connected to the counterpart terminal.
  • the environment information receiver 213 may receive language information and gender information of the counterpart from the counterpart terminal.
  • an environment information transmitter for receiving environment information such as language information or gender information from a user through an interface provided to the user or transmitting preset environment information to a terminal of the counterpart can do.
  • the terminal device 200 may be used by a plurality of users in some cases, when an interpreter request is received from a hands-free device, the terminal device 200 may provide a user with an interface for receiving environment information, and the user may need environment information through the interface. Received may be transmitted to the other terminal.
  • the hands-free device may execute an interpreter application installed in the terminal device 200. When the interpreter application is executed, the hands-free device may receive environment information necessary for interpreting using an interface provided by the interpreter application. .
  • the interpretation environment setting unit 214 receives language information and gender information from the counterpart terminal, and when environment information such as language information and gender information of the user is input, an interpretation environment such as an interpretation language and a synthesized sound using the input environment information. Can be set.
  • the interpretation broker 220 receives the user's interpretation target voice information from the hands-free device, and transmits the interpretation result of the interpretation target voice information to the counterpart terminal. In addition, an interpretation result of interpreting the voice information of the counterpart is received from the counterpart terminal.
  • an interpreter broker 220 may include a server broker 221 and a terminal broker 222 and perform an interpreter through an interpreter server.
  • the present invention is not limited thereto, and if the terminal device 200 has an interpreter function, the user may directly interpret the user's voice information according to the language of the correspondent using the interpreter function without having to go through an interpreter server. Do.
  • the server intermediary unit 221 may transmit the received voice information to the interpretation server to request an interpretation.
  • the server mediator 221 may check the language information of the user and the language information of the counterpart in the preset interpretation environment information, and transmit the information along with the interpretation target voice information.
  • the server intermediary unit 221 may detect the voice start point and the voice end point when the voice information of the user starts to be input from the hands-free device, and transmit the voice information to the interpretation server when the voice end point is detected.
  • the server intermediary 221 may easily detect the voice start point and the end point.
  • the server intermediary 221 may receive an interpretation result of the user's voice information in the language of the counterpart from the interpretation server.
  • the interpretation result may include interpretation data of text form or speech form in which the user's voice information is interpreted in the language of the other party, and additionally, one or more error correction data among similar intention sentences or N-best recognition data may be used. It may include.
  • the terminal intermediary 222 may transmit the received interpretation result to the counterpart terminal device.
  • the terminal broker 222 may transmit and receive an interpretation result according to a predefined interpretation protocol with the counterpart terminal device.
  • the terminal intermediary 222 may receive an interpretation result of the other party's voice information from the other terminal device.
  • the situation information collection unit 240 may collect current situation information of the user. For example, the current location information of the user or a place where the user is located using a location sensor or a microphone such as an external GPS sensor that is embedded in the terminal device 200 or connected to the terminal device 200 (for example, an airport, Background sound information of restaurants, hotels, streets, etc.).
  • a location sensor or a microphone such as an external GPS sensor that is embedded in the terminal device 200 or connected to the terminal device 200 (for example, an airport, Background sound information of restaurants, hotels, streets, etc.).
  • the interpretation broker 220 may transmit the current situation information of the user by the situation information collector 240 to transmit the collected situation information to the interpretation server. In this way, by interpreting by reflecting the user's current situation information, more accurate interpretation is possible.
  • the additional information collecting unit 250 may collect status information of the user as additional information. For example, when the voice information of the user is received from the hands-free device, the additional information collecting unit 250 may analyze the received voice information of the user and extract the user's speech rate or emotional state. In this case, the speech rate information may measure the speech rate ratio by comparing the length of the vowel in the syllable from the recognized speech information with the vowel length of a predetermined steady state. Emotional state information can be extracted for each speech by the height of the sentence pitch, the sentence speech rate, and the average loudness without having to predict it through a separate statistical model. However, the present invention is not limited thereto, and various other known methods may be used.
  • the additional information collecting unit 250 may collect personal information of the user as additional information.
  • the additional information collecting unit 250 may receive information such as an image, a name, a nationality, etc. of the user from the user through an interface provided to the user.
  • the interpretation broker 220 may transmit the additional information to the counterpart terminal together with the interpretation result.
  • the interpretation processor 230 may process the interpretation result received from the interpretation server or the interpretation result received from the counterpart terminal and transmit the result to the hands-free device of the user or to the counterpart terminal.
  • the interpreter processor 230 may be described in more detail.
  • the interpreter processor 230 may include a voice synthesizer 231, a text output unit 232, and an interpreter error corrector 233. have.
  • the speech synthesis unit 231 may synthesize the interpretation result into a male voice or a female voice using the synthesized tone information based on gender information of the counterpart.
  • the additional information when additional information is received together from the other terminal, the additional information may be reflected in the synthesized voice.
  • the synthesized male or female voice reflects the speech rate
  • the emotional state information in the additional information when the emotional state information in the additional information is received, the height of the sentence pitch in the emotional state information, the sentence speech rate , The average loudness may be reflected as a rhyme adjustment parameter of the voice synthesizer to reflect the emotional state.
  • the voice synthesizer 231 may output the synthesized voice through a speaker built in the terminal device 200.
  • the text output unit 232 may output the interpretation result of the counterpart to the display of the terminal device 200 in a text format so that the user visually confirms it.
  • the terminal device 200 of the user is assumed to be connected to the hands-free device.
  • the user or the counterpart may use the interpretation function without the help of the hands-free device.
  • the interpretation result may be output to the display in a text format.
  • the interpretation error correction unit 233 displays the error correction data on the interface of the display of the terminal device 200. You can print out this to make the user correct the interpretation error.
  • the interpretation error correction unit 233 modifies the interpretation data in the interpretation result using the selected data and causes the interpretation broker 220 to contact the other party. It can be transmitted to the terminal device.
  • the user may select the error correction data output to the interface of the terminal device 200 by performing a motion while wearing the hands-free device as described above.
  • 11 is a block diagram of an interpretation server for hands-free based automatic interpretation according to an embodiment.
  • the interpreter server 300 may include an interpreter information receiver 310, a voice recognizer 320, a translator 330, an interpreter result transmitter 340, and a situation determiner 350. have.
  • the interpreter information receiver 310 receives the interpreter information from the terminal device 200.
  • the interpretation information may include contextual information such as voice information for interpretation, language information of the user and the counterpart, the current location of the user, and background sound information.
  • the voice recognition unit 320 may recognize the voice information to be interpreted and convert the recognized voice into text.
  • the situation determination unit 350 may determine the user's situation using the situation information, if the received interpretation information includes the user's situation information. For example, the situation determination unit 350 may grasp the surrounding area where the user is currently located by using the location information of the user in the context information, and further, the background sound model GMM (Gaussian Mixture Model) pre-modeled through the background sound information. ), And the model with the highest agreement can be determined as the specific situation.
  • GMM Garnier Mixture Model
  • the voice recognition unit 320 may recognize the voice accurately by using an acoustic model suitable for the situation or by processing a noise removing signal suitable for background noise.
  • the translation unit 330 converts the text to match the language of the other party using language information of the user and the other party.
  • the translation unit 330 may extract the N-best recognition result or similar intention sentence and generate the extracted result as error correction data.
  • the interpretation result transmission unit 340 transmits the translation result or the error correction data to the terminal device 200 as an interpretation result.
  • FIG. 12 is a flowchart of a hands-free based automatic interpretation method according to an embodiment.
  • FIG. 12 may be an embodiment of an automatic interpretation method performed by the hands-free automatic interpretation system of FIG. 1.
  • the user's hands-free device 100a may request the user's terminal device 200a to execute an interpretation function (step 412).
  • an interpreter application installed in the user terminal device 200 may be automatically executed to request an initialization environment.
  • the terminal device 200a When the user's terminal device 200a receives an interpreter function execution request from the hands-free device 100a, the terminal device 200a requests the interpreter environment information from the counterpart terminal device 200b, and the interpreter environment information of the other party, for example, from the counterpart terminal device 200b. Language information, gender information, and the like may be received (step 413).
  • the interpretation environment may be initialized using the received environment information (step 414).
  • the terminal device 200a detects an end point of the received voice information (step 416), and transmits the voice information to the interpretation server 300. May transmit (step 417).
  • the user's context information such as the user's location information and the background sound information may be collected (step 416), and the collected user's context information may be transmitted together (step 417).
  • the interpreter server 300 may determine the situation based on the received voice information or the situation information, and recognize the correct voice based on the result of the situation determination (step 418). In addition, when the voice is recognized, it may be converted into text.
  • the translated text may be translated according to the language of the other party (step 419), and the interpretation result and the error correction data may be transmitted to the user's terminal device 200a (step 420).
  • the terminal device 200a of the user may transmit the interpretation result to the terminal device 200b of the other party (step 421).
  • the terminal device 200b of the other party may synthesize the voice to match the gender of the user based on the set interpretation environment information (step 422) and transmit the synthesized sound to the hands-free device 100b. (Step 423).
  • the hands-free device 100b of the other party may output the received synthesized sound (step 424).
  • FIG. 13 is a flowchart illustrating an automatic interpretation method performed by a hands-free device according to an embodiment, and may be an embodiment of the automatic interpretation method performed by the hands-free device of FIG. 6.
  • a hands-free device receives an interpretation request from a user (step 510).
  • the user may request the interpretation start by inputting a predefined voice as described above.
  • an interpreter request may be input through an interpreter request button provided separately in the hands-free device.
  • the hands-free device may perform pairing with the terminal device and request an interpreter initialization from the terminal device (step 520).
  • the hands-free device may perform pairing using short-range communication such as Bluetooth, Zigbee, NFC, or the like.
  • the interpreter environment may be requested by executing an interpreter application installed in the terminal device.
  • the user may receive the interpretation target voice information through the microphone (step 530).
  • the microphone may be composed of two or more channels, and the voice information input through the microphone may easily remove noise from the terminal device or the interpretation server.
  • the microphone may include a bone conduction microphone, and may facilitate end point detection of a voice input through the conduction microphone.
  • the received interpretation target voice information may be transmitted to the connected terminal device (step 540).
  • voice information obtained by synthesizing the interpretation result of the other party from the user terminal may be received (step 550), and the received synthesized sound information may be output to the user through the speaker (step 560).
  • FIG. 14 is a flowchart illustrating an automatic interpretation method performed by a terminal device according to an embodiment, and may be an embodiment of the automatic interpretation method performed by the terminal device 200 of FIG. 7.
  • the terminal device 200 may perform pairing with the hands-free device according to the request of the hands-free device and initialize the interpretation environment (step 610).
  • the terminal device 200 may connect to the hands-free device by approving the pairing request and connect the interpretation server or the counterpart terminal device to the mobile terminal through the mobile communication network or the local area network.
  • an interpreter environment may be set by receiving environment information such as language information or gender information of the other party from the other terminal device.
  • the voice information is transmitted to the interpretation server to request an interpretation (step 620).
  • the language information of the user and the counterpart may be transmitted to the interpretation server.
  • context information such as background sound information of the user's current location or the location where the user is located may be collected and transmitted together with the interpretation server.
  • the interpretation result may be transmitted to the other terminal (step 630).
  • the interpretation result may be transmitted to the other terminal (step 630).
  • error correction data exists in the received interpretation result, it is output to the interface, and the user can correct the interpretation result and transmit the corrected interpretation result to the counterpart terminal.
  • an interpreter result of interpreting the voice information of the other party is received from the counterpart terminal (step 640), and the received interpreter result may be synthesized into voice based on the interpretation environment information (step 660).
  • the speech may be synthesized by reflecting the speech rate or the emotional state of the counterpart in the interpretation result.
  • the synthesized voice information may then be sent to the hands-free device (step 660).
  • the hands-free device does not exist, it is also possible to directly output the synthesized sound through the speaker of the terminal device.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

핸즈프리 자동 통역 서비스를 위한 자동 통역 시스템에 관한 것이다. 핸즈프리 기반의 자동 통역 시스템은 핸즈프리 장치, 단말 장치 및 통역 서버를 포함할 수 있다. 이때, 단말 장치는 핸즈프리 장치의 요청에 따라 통역 환경을 초기화하는 통역 환경 초기화부와, 사용자 및 상대방의 통역 결과를 중개하는 통역 중개부 및 상대방의 통역 결과를 설정된 통역 환경에 기초하여 음성으로 합성하여 핸즈프리 장치에 전송하는 통역 처리부를 포함할 수 있다. 이와 같이, 핸즈프리 장치를 통하여 통역 서비스를 제공함으로써 사용자 편의성이 향상될 수 있다.

Description

핸즈프리 자동 통역 서비스를 위한 단말 장치 및 핸즈프리 장치와, 핸즈프리 자동 통역 서비스 방법
핸즈프리 자동 통역 서비스를 위한 단말 장치 및 핸즈프리 장치와, 핸즈프리 자동 통역 서비스 방법(TERMINAL AND HANDSFREE DEVICE FOR SERVICING HANDSFREE AUTOMATIC INTERPRETATION, AND METHOD THEREOF)에 관한 것으로, 보다 상세하게는 핸즈프리 장치 및 사용자 단말을 이용하여 사용자들 사이에 자동 통역을 지원하는 기술에 관한 것이다.
종래 스마트폰을 이용한 자동 통역 방법은 스마트폰을 손에 들고 자동 통역 앱 화면의 인터페이스를 터치하여 자동 통역 앱을 실행해야 하기 때문에 양손을 이용해야 하는 불편이 있었다. 특히 여행 상황에서는 가방을 들거나, 여권을 보여주는 등 양손을 사용해야 하는 경우가 매우 빈번하게 발생하는데, 이런 상황에서 손에 들고 하는 스마트폰 통역은 언어 소통이라는 매우 편리한 기능을 제공함에도 불구하고, 실제 환경에서의 사용성 불편으로 자동통역 기능의 효과를 저하시키는 원인이 되고 있다. 또한, 일반적인 스마트폰을 이용한 자동통역은 자신이 가지고 있는 상대방에게 주어서 상대방이 타인의 스마트폰에 발성을 하고, 스마트폰에서 나오는 합성음을 상대편이 듣는 것으로 양방향 자동통역이 이루어지고 있는데, 이러한 상황도 양방향 자동 통역을 부자연스럽게 하는 요인이 된다. 한국 공개 특허 제10-2010-0068965호는 자동 통역 장치 및 그 방법에 대해 개시하고 있다. 이와 같이, 일반적인 스마트폰 환경에서의 자동통역 사용상의 불편하기 위한 핸즈프리 방식의 자동 통역 기술이 필요하다.
핸즈프리 방식을 이용하여 편리하게 자동 통역을 수행할 수 있도록 서비스하는 단말 장치 및 방법과, 그 핸즈프리 장치를 제시한다.
일 양상에 따르면, 핸즈프리 자동 통역 서비스를 위한 단말 장치는 핸즈프리 장치의 요청에 따라 핸즈프리 장치와 페어링을 수행하고, 통역 환경을 초기화하는 통역 환경 초기화부, 핸즈프리 장치로부터 수신된 사용자의 음성 정보를 통역한 통역 결과를 상대방 단말에 전송하고, 상대방 단말로부터 상대방의 음성 정보를 통역한 통역 결과를 수신하는 통역 중개부 및 상대방 단말로부터 통역 결과가 수신되면, 초기화된 통역 환경에 기초하여 상대방의 통역 결과를 음성으로 합성하고, 합성된 음성 정보를 핸즈프리 장치에 전송하는 통역 처리부를 포함할 수 있다.
통역 환경 초기화부는 상대방 단말로부터 상대방의 언어 정보 및 성별 정보 중의 하나 이상을 포함하는 통역 환경 정보를 수신하는 환경 정보 수신부 및 수신된 통역 환경 정보에 기초하여, 통역 언어 정보 및 합성음 정보 중의 하나 이상의 통역 환경 정보를 설정하는 통역 환경 설정부를 포함할 수 있다.
통역 처리부는 상대방 단말로부터 통역 결과가 수신되면, 설정된 합성음 정보에 기초하여 그 통역 결과를 남성 또는 여성 음성으로 합성하는 음성 합성부를 포함할 수 있다.
음성 합성부는 상대방 단말로부터 부가 정보가 더 수신되면, 수신된 부가 정보를 기초로 사용자의 발화 속도 및 감정 상태 중의 하나 이상을 반영하여 음성으로 합성할 수 있다.
또한, 단말 장치는 사용자 상태 정보 및 개인 정보 중의 하나 이상을 포함하는 부가 정보를 수집하는 부가 정보 수집부를 더 포함할 수 있고, 사용자 상태 정보는 사용자의 음성 정보로부터 추출된 발화 속도 및 감정 상태 중의 하나 이상을 포함하고, 개인 정보는 사용자로부터 입력된 이름, 국적 및 이미지 정보 중의 하나 이상을 포함할 수 있다.
통역 중개부는 핸즈프리 장치로부터 음성 정보가 수신되면, 통역 서버에 그 음성 정보를 전송하고, 통역 서버로부터 통역 결과를 수신하는 서버 중개부 및 수신된 통역 결과를 미리 정의된 통역 프로토콜에 따라 상대방 단말에 전송하는 단말 중개부를 포함할 수 있다.
또한, 단말 장치는 사용자의 현재 위치 정보 및 배경음 정보 중의 하나 이상을 포함하는 상황 정보를 수집하는 상황 정보 수집부를 더 포함할 수 있고, 서버 중개부는 핸즈프리 장치로부터 수신된 음성 정보 및 수집된 상황 정보를 통역 서버에 전송할 수 있다.
이때, 사용자의 음성 정보를 통역한 통역 결과는 음성 정보를 텍스트 또는 음성 형식으로 통역한 통역 데이터 및 통역 오류 수정 데이터 중의 하나 이상을 포함하고, 오류 수정 데이터는 유사의도문장 및 N-베스트(N-best) 인식 데이터 중의 하나 이상을 포함할 수 있다.
통역 처리부는 통역 결과에 오류 수정 데이터가 포함되어 있으면, 상기 오류 수정 데이터 중에서 하나 이상의 사용자의 선택 정보를 기초로 상기 통역 데이터를 수정하는 통역 오류 수정부를 포함할 수 있다.
일 양상에 따르면, 사용자 단말 장치가 수행하는 핸즈프리 자동 통역 서비스 방법은, 핸즈프리 장치의 요청에 따라 핸즈프리 장치와 페어링을 수행하고, 통역 환경을 초기화하는 단계, 핸즈프리 장치로부터 사용자의 음성 정보가 수신되면, 수신된 사용자의 음성 정보를 통역 서버에 전송하고, 통역 서버로부터 통역 결과를 수신하는 단계, 수신된 통역 결과를 상대방 단말에 전송하는 단계, 상대방 단말로부터 상대방의 음성 정보를 통역한 통역 결과를 수신하는 단계, 상대방 단말로부터 수신된 통역 결과를 초기화된 통역 환경에 기초하여 음성으로 합성하는 단계 및 합성된 음성 정보를 핸즈프리 장치에 전송하는 단계를 포함할 수 있다.
통역 환경을 초기화하는 단계는 상대방 단말로부터 상대방의 언어 정보 및 성별 정보 중의 하나 이상을 포함하는 통역 환경 정보를 수신하는 단계 및 수신된 통역 환경 정보에 기초하여, 통역 언어 정보 및 합성음 정보 중의 하나 이상의 통역 환경 정보를 설정하는 단계를 포함할 수 있다.
음성을 합성하는 단계는 상대방 단말로부터 통역 결과가 수신되면, 설정된 합성음 정보에 기초하여 그 통역 결과를 남성 또는 여성 음성으로 합성할 수 있다.
음성을 합성하는 단계는 상대방 단말로부터 부가 정보가 더 수신되면, 수신된 부가 정보를 기초로 사용자의 발화 속도 및 감정 상태 중의 하나 이상을 반영하여 음성으로 합성할 수 있다.
또한, 그 통역 방법은 사용자의 현재 위치 정보 및 배경음 정보 중의 하나 이상을 포함하는 상황 정보를 수집하는 단계를 더 포함할 수 있고, 사용자의 음성 정보를 통역 서버에 전송하는 단계는 핸즈프리 장치로부터 수신된 음성 정보 및 상기 수집된 상황 정보를 통역 서버에 전송할 수 있다.
또한, 그 통역 방법은 통역 서버로부터 수신된 통역 결과에 오류 수정 데이터가 포함되어 있으면, 오류 수정 데이터를 디스플레이에 출력하는 단계, 사용자로부터 오류 수정 데이터 중에서 하나 이상의 선택 정보를 수신하는 단계 및 수신된 선택 정보를 기초로 통역 데이터를 수정하는 단계를 더 포함할 수 있다.
일 양상에 따르면, 마이크 및 스피커를 포함하는 핸즈프리 자동 통역 서비스를 위한 핸즈프리 장치는, 사용자의 통역 요청이 입력되면 사용자 단말과의 페어링을 수행하며, 사용자 단말에 통역 환경을 초기화하도록 요청하는 통역 기능 실행부 및 마이크를 통해 입력된 사용자의 음성 정보를 통신부로 하여금 사용자 단말에 전송하도록 제어하며, 통신부에 의해 사용자 단말로부터 수신된 음성 정보를 스피커를 통해 출력하는 제어부를 포함할 수 있다.
통역 기능 실행부는 사용자의 통역 요청이 입력되면, 사용자 단말에 설치된 통역 애플리케이션을 실행하여 통역 환경을 초기화하도록 요청할 수 있다.
통역 기능 실행부는 근거리에 위치한 통역 대상 상대방 단말을 검출하고, 검출된 상대방 단말 정보를 통신부를 통해 사용자 단말에 전송하여 상대방 단말과의 통역 환경을 초기화하도록 요청할 수 있다.
또한, 핸즈프리 장치는 가속도 센서 및 자이로 센서 중의 하나 이상을 포함하는 모션 인식 센서를 이용하여 사용자의 모션을 인식하는 모션 인식부를 더 포함할 수 있고, 제어부는 인식된 모션에 기초하여 사용자 단말의 디스플레이에 출력된 오류 수정 데이터의 선택을 제어할 수 있다.
이때, 마이크는 사용자의 입 근처에 위치하는 제1 마이크, 사용자의 귀 근처에 위치하는 제2 마이크 및 골도 마이크 중의 하나 이상을 포함할 수 있다.
핸즈프리 방식을 이용하여 자동 통역 서비스를 제공함으로써 양손을 통한 제스처 입력 등의 완전한 멀티모달이 가능해져 자연스러운 통역 서비스를 제공할 수 있고 이와 동시에 사용자 편의성이 향상될 수 있다.
또한, 잡음에 강한 자동 통역이 가능하고, 사용자의 현재 상황 정보나 발화속도나 감정 상태 등의 부가 정보를 활용하여 통역 서비스를 제공함으로써 통역 성능을 향상시킬 수 있다.
도 1은 일 실시예에 따른 핸즈프리 기반의 자동 통역 시스템의 블록도이다.
도 2 및 도 3은 일 실시예에 따른 자동 통역 시스템에서 수행되는 자동 통역의 흐름을 개략적으로 도시한 것이다.
도 4 및 도 5는 일 실시예에 따른 핸즈프리 장치의 구조도이다.
도 6은 일 실시예에 따른 핸즈프리 기반의 자동 통역을 위한 핸즈프리 장치의 블록도이다.
도 7은 일 실시예에 따른 핸즈프리 기반의 자동 통역을 위한 단말 장치의 블록도이다.
도 8은 도 7의 단말 장치 중의 통역 환경 초기화부의 상세 블록도이다.
도 9는 도 7의 단말 장치 중의 통역 중개부의 상세 블록도이다.
도 10은 도 7의 단말 장치 중의 통역 처리부의 상세 블록도이다.
도 11는 일 실시예에 따른 핸즈프리 기반의 자동 통역을 위한 통역 서버의 블록도이다.
도 12는 일 실시예에 따른 핸즈프리 기반의 자동 통역 방법의 흐름도이다.
도 13은 일 실시예에 따른 핸즈프리 장치에서 수행되는 자동 통역 방법의 흐름도이다.
도 14는 일 실시예에 따른 단말 장치에서 수행되는 자동 통역 방법의 흐름도이다.
기타 실시예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다. 기재된 기술의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
이하, 핸즈프리 자동 통역 서비스를 위한 단말 장치 및 핸즈프리 장치와, 핸즈프리 자동 통역 서비스 방법의 실시예들을 도면들을 참고하여 자세히 설명하도록 한다.
도 1은 일 실시예에 따른 핸즈프리 기반의 자동 통역 시스템의 블록도이다. 도 2 및 도 3은 일 실시예에 따른 자동 통역 시스템에서 수행되는 자동 통역의 흐름을 개략적으로 도시한 것이다.
도 1을 참조하면, 일 실시예에 따른 핸즈프리 기반의 자동 통역 시스템(1)은 핸즈프리 장치(100), 단말 장치(200) 및 통역 서버(300)를 포함할 수 있다.
도 1을 참조하면, 핸즈프리 장치(100)는 자동 통역을 위하여 사용자의 단말 장치(200)와 페어링을 수행한다. 이때, 핸즈프리 장치(100)는 블루투스(Bluetooth), 지그비(Zigbee), NFC(Near Field Communication), 와이파이(WiFi) 및 와이파이 다이렉트(WiFi Direct) 등의 근거리 통신 방식을 이용하여 사용자 단말과 페어링을 수행할 수 있다.
핸즈프리 장치(100)는 사용자로부터 통역 요청이 입력되면 사용자 단말 장치(200)에 설치되어 있는 통역 애플리케이션을 자동 실행하여 통역 환경을 초기화하도록 요청할 수 있다.
핸즈프리 장치(100)는 단말 장치(200)의 통역 초기화가 완료되면, 사용자로부터 통역을 위한 음성 정보를 입력받고 이를 사용자의 단말 장치(200)에 전송하여 통역을 요청한다. 또한, 핸즈프리 장치(100)는 단말 장치(200)로부터 상대방의 통역 결과를 음성으로 합성한 합성음을 수신하고, 이를 사용자에게 출력할 수 있다.
단말 장치(200)는 핸즈프리 장치(100)의 요청에 따라 상대방 단말과의 통신 연결 및 통역 환경을 초기화할 수 있다. 단말 장치(200)는 스마트폰, 스마트 패드, 노트북 등의 다양한 통신 단말 장치를 포함할 수 있다. 이때, 단말 장치(200)는 상대방 단말과의 블루투스(Bluetooth), 와이파이(WiFi), 와이파이 다이렉트(WiFi Direct) 등의 근거리 통신을 통하여 페어링을 수행하고, 상대방 단말로부터 필요한 초기화 환경 정보, 예컨대 상대방의 언어 정보, 성별 정보 등의 정보를 수신하고 이를 기초로 통역 환경을 초기화할 수 있다.
또한, 핸즈프리 장치(100)로부터 통역을 위한 음성 정보가 입력되면, 입력된 음성 정보를 통역 서버(300)에 전송하여 통역을 요청할 수 있다.
한편, 자동 통역 시스템(1)은 도 2에 도시된 바와 같이, 사용자들은 핸즈프리 장치(100) 및 단말 장치(200)를 통해 동일한 자동 통역 서버(300)에 접속하여 자동 통역 서비스를 이용할 수 있다. 즉, 사용자 A는 자신의 핸즈프리 장치(100a) 및 단말 장치(200a)를 이용하여 통역 서버(300)에 접속하고, 사용자 B는 핸즈프리 장치(100b) 및 단말 장치(200b)를 이용하여 동일한 통역 서버(300)에 접속할 수 있다. 이때, 핸즈프리 장치(100)는 양 사용자 중의 어느 일방만이 착용하는 것도 가능하다.
다른 실시예에 따르면, 도 3에 도시된 바와 같이 사용자 A 및 사용자 B는 각자 선호하는 통역 서버에 접속하여 통역 요청 및 결과를 수신하고, 수신된 통역 결과를 상대방에게 표준화된 통역 프로토콜을 이용하여 전송하는 것도 가능하다.
한편, 단말 장치(200)는 무선 이동 통신을 통하여 통역 서버(300)에 접속할 수 있다. 이때, 무선 이동 통신은 3G, LTE, LTE 어드밴스드(LTE Advanced) 등을 포함하지만, 통신 방식에 있어서 특별히 제한이 되는 것은 아니며 향후 기술 발전에 따라 개발되는 다양한 통신 방식이 이용될 수 있음은 자명하다.
또한, 단말 장치(200)는 탑재된 다양한 센서(예: GPS 등)를 이용하여 사용자의 현재 상황 정보를 수집하고, 수집된 정보를 통역 서버에 함께 전송할 수 있다.
또한, 단말 장치(200)는 핸즈프리 장치(100)로부터 음성 정보가 수신되면, 그 음성 정보에서 발화속도나 감정 상태 등의 부가 정보를 획득하고, 획득된 부가 정보를 통역 서버(300)로부터 수신된 통역 결과와 함께 상대방 단말에 전송할 수 있다.
또한, 단말 장치(200)는 상대방 단말로부터 상대방이 입력한 음성 정보를 통역한 통역 결과를 수신하면, 수신된 통역 결과를 이용하여 음성으로 합성할 수 있다. 이때, 통역 환경 초기화시 설정된 상대방의 성별(예: 남성, 여성) 정보에 기초하여 해당하는 성별의 음성으로 합성할 수 있다. 또한, 상대방 단말로부터 부가 정보가 함께 수신되면, 수신된 부가 정보를 반영하여 합성음을 생성할 수 있다.
통역 서버(300)는 사용자의 단말 장치(200)로부터 음성 정보가 수신되면, 수신된 음성을 인식하여 텍스트로 변환하고, 변환된 텍스트를 상대방의 언어에 맞도록 번역할 수 있다. 그리고, 번역된 결과를 텍스트 형태 또는 음성 형태로 변환하고 변환된 통역 결과를 사용자 단말 장치(200)에 전송할 수 있다. 이때, 사용자 단말 장치(200)로부터 음성 정보와 함께 상황 정보가 수신되면, 사용자의 현재 상황 정보를 판단하고, 판단된 상황에 맞게 번역할 수 있다.
도 4 및 도 5는 일 실시예에 따른 핸즈프리 장치(10)의 구조도이다.
도 4 및 도 5에 도시된 핸즈프리 장치(10)는 도 1의 핸즈프리 장치(100)의 일 실시예로서 사용자가 착용할 수 있는 형태 특히, 귀에 착용할 수 있는 형태로 제작될 수 있다.
도 4 및 도 5를 참조하면, 핸즈프리 장치(10)는 하나 이상의 마이크(11,12,16), 볼륨 조절 버튼(13), PTT(Push To Talk) 버튼(14) 및 스피커(15)를 포함할 수 있다.
핸즈프리 장치(10)는 도 2에 도시된 바와 같이 입 근처에 위치하는 마이크(11) 즉, 채널 1과 귀 근처에 위치하는 마이크(12) 즉 채널 2를 통해 사용자의 음성을 2채널로 수신할 수 있다. 이와 같이, 2 채널로 입력되는 음성을 수신하는 사용자 단말이나 통역 서버는 2채널 잡음 처리를 할 수 있어 고잡음 환경에서도 음성 인식 성공률을 높일 수 있다.
이때, 채널 1의 마이크(11)는 사용자의 체형에 맞게 길이 조절을 할 수 있도록, 스프링 형태나 도시된 바와 같이 입출력되는 형태로 제작될 수 있다.
핸즈프리 장치(10)는 도 3에 도시된 바와 같이 골도 마이크(16)를 포함할 수 있다. 골도 마이크(16)는 다른 채널 1 또는 채널 2의 마이크(11,12)와 함께 형성되어 3 채널을 구성할 수 있으며, 또는 별도로 형성될 수 있다. 도시된 바와 같이, 골도 마이크(16)는 귀에 걸리는 고리 부분 즉, 귓바퀴 부분에 형성되어 골전도 음성을 수신함으로써 사용자 단말에서 입력된 음성의 끝점 검출에 활용하도록 할 수 있다.
한편, 본 실시예에 따르면, 핸즈프리 장치(10)는 PTT 버튼(14)을 포함할 수 있으며, PTT 버튼(14)은 사용자가 발화 때마다 PTT 버튼을 눌러 통역을 요청하도록 함으로써 편리하게 음성을 입력할 수 있고, 사용자 단말은 이를 통해 음성 시작점과 끝점 검출을 보다 용이하게 할 수 있다. 이때, PTT 버튼(14)는 골도 마이크(16)가 형성된 경우에는 생략이 가능하다.
스피커(15)는 사용자 단말로부터 수신되는 통역 결과 합성음 정보를 사용자에게 출력한다. 또한, 볼륨 조절 버튼(13)은 사용자의 요청에 따라 사용자에게 출력되는 볼륨의 크기를 조절한다.
또한, 도 4 및 도 5에는 도시되지 않았으나, 핸즈프리 장치(10)는 내부에 자이로 센서, 가속도 센서 등의 모션 인식 센서가 내장될 수 있다. 핸즈프리 장치(10)는 내장된 모션 인식 센서를 통하여 인식된 모션에 따라 사용자 단말에 출력된 인터페이스를 제어할 수 있다.
도 6은 일 실시예에 따른 핸즈프리 기반의 자동 통역을 위한 핸즈프리 장치의 블록도이다.
도 6을 참조하여, 자동 통역을 위한 핸즈프리 장치(100)를 좀 더 구체적으로 설명하면, 핸즈프리 장치(100)는 마이크(110), 스피커(120), 모션 인식 센서(130), 제어부(140), 통역 기능 실행부(150), 통신부(160) 및 모션 인식부(170)를 포함할 수 있다.
제어부(140)는 핸즈프리 장치(100)의 각종 제어 동작을 수행한다. 예를 들어, 사용자가 마이크(110)를 통하여 미리 정의된 통역 시작 요청 음성(예: "통역 시작")을 입력하게 되면, 입력된 음성을 인식하여 통역 요청인지를 판단할 수 있다. 판단 결과 통역 요청으로 판단되면 통역 기능 실행부(150)로 하여금 통역 기능을 실행하도록 요청할 수 있다. 또는, 핸즈프리 장치(100)에 장착된 통역 요청 버튼을 클릭하는 경우, 통역 요청으로 인식하고 통역 기능 실행부(150)로 하여금 통역 기능을 실행하도록 요청할 수 있다.
제어부(140)는 사용자로부터 통역 시작 요청이 입력되어 통역 기능이 실행이 완료되거나, 통역 종료 요청이 입력되어 통역 기능이 종료되면 스피커를 통하여 미리 정의된 효과음을 출력할 수 있다. 이로 인해 사용자는 통역 기능이 실행되었음을 인지하고 통역 대상 음성 정보를 입력할 수 있다.
또한, 제어부(140)는 통역이 완료되는 경우 즉, 사용자로부터 미리 정의된 통역 종료 요청 음성(예: "통역 종료")이 입력되면, 이를 인식하여 통역 종료 요청인, 통역 대상 음성인지를 판단하고 통역 종료 요청 음성으로 판단되면 단말 장치의 통역 애플리케이션을 자동으로 종료할 수 있다.
통역 기능 실행부(150)는 제어부(140)의 제어에 따라 연결된 단말 장치에 통역 요청이 수신되었음을 알리고, 통역 환경을 초기화하도록 요청할 수 있다.
예를 들어, 통역 기능 실행부(150)는 근거리 통신을 이용하여 사용자의 단말 장치와의 페어링을 수행한다. 또한, 통역 기능 실행부(150)는 사용자 단말 장치와 연결이 되면, 단말 장치에 설치되어 있는 통역 애플리케이션을 자동으로 실행시켜 단말 장치로 하여금 필요한 통역 환경을 초기화하도록 할 수 있다.
이때, 단말 장치는 통역 기능 실행부(150)의 요청에 따라 상대방 단말과의 페어링, 통역 서버 접속, 상대방의 언어 및 성별 정보 등의 환경 정보를 설정할 수 있다.
한편, 통역 기능 실행부(150)는 통역 요청이 입력되면, 근거리(예: 반경 2m 이내)에 위치한 통역 대상 상대방 단말을 검출하고, 검출된 상대방 단말 정보를 통신부(160)를 경유하여 사용자 단말 장치에 전송할 수 있다.
사용자 단말 장치는 통역 기능 실행부(150)로부터 상대방 단말 정보를 포함하는 통역 환경 초기화 요청이 입력되면, 상대방 단말 정보를 이용하여 상대방 단말과의 연결을 수행하고, 필요한 환경 정보를 상대방 단말로부터 수신할 수 있다. 이때, 사용자 단말과 상대방 단말 간에는 블루투스 페어링을 통하여 연결할 수 있다.
또한, 제어부(140)는 통역 기능이 실행된 후 사용자가 마이크(110)를 통해 통역 대상 음성 정보를 입력하면, 입력된 음성 정보를 통신부(160)로 하여금 단말 장치에 전송하도록 하고, 통신부(160)가 사용자의 단말 장치로부터 상대방의 음성 정보의 통역 결과 합성음 정보를 수신하면 스피커를 제어하여 사용자에게 합성음 정보를 출력할 수 있다.
또한, 제어부(140)는 자이로 센서나 가속도 센서 등의 모션 인식 센서(130) 및 모션 인식부(170)를 제어하여, 모션 인식 센서(130)에 의해 측정되는 신호를 모션 인식부(170)를 통해 미리 정의된 모션으로 인식할 수 있다. 또한, 인식된 모션을 통하여 사용자 단말의 디스플레이에 출력된 인터페이스에서의 사용자의 선택을 제어할 수 있다.
예를 들어, 사용자가 핸즈프리 장치(100)를 귀에 착용하고 고개를 상하로 움직이는 동작에 대응하여 단말 장치의 인터페이스에 출력된 메뉴나 항목(예: 오류 수정 데이터)의 선택을 상하로 이동시킬 수 있고, 특정 메뉴나 항목을 선택한 상태에서 고개를 빠르게 끄덕이거나 좌우로 움직이는 경우 그 항목을 사용자가 최종 선택한 항목으로 입력할 수 있다.
즉, 단말 장치가 통역 서버로부터 통역 결과와, N-베스트 또는 유사의미문장 등의 오류 수정 데이터를 수신하여 그 오류 수정 데이터를 단말 장치의 디스플레이에 출력하게 되면, 사용자는 직접 손으로 단말 장치를 터치하여 선택할 필요없이 손쉽게 수정 데이터를 입력할 수 있다.
도 7은 일 실시예에 따른 핸즈프리 기반의 자동 통역을 위한 단말 장치의 블록도이다. 도 8은 도 7의 단말 장치 중의 통역 환경 초기화부의 상세 블록도이다. 도 9는 도 7의 단말 장치 중의 통역 중개부의 상세 블록도이다. 도 10은 도 7의 단말 장치 중의 통역 처리부의 상세 블록도이다.
도 7 내지 도 10을 참조하여 핸즈프리 기반의 자동 통역을 위한 단말 장치(200)를 설명하면, 단말 장치(200)는 통역 환경 초기화부(210), 통역 중개부(220), 통역 처리부(230), 상황 정보 수집부(240), 부가 정보 수집부(250)를 포함할 수 있다.
통역 환경 초기화부(210)는 핸즈프리 장치의 요청에 따라 핸즈프리 장치와 페어링을 수행하고, 통역 환경을 초기화할 수 있다. 이때, 통역 환경 정보는 상대방 사용자의 언어 정보 및 성별(남자, 여자) 정보를 포함할 수 있다.
도 8을 참조하여, 통역 환경 초기화부(210)를 좀 더 구체적으로 설명하면, 통역 환경 초기화부(210)는 초기화 요청 수신부(211), 페어링 수행부(212), 환경 정보 수신부(213) 및 통역 환경 설정부(214)를 포함할 수 있다.
초기화 요청 수신부(211)는 핸즈프리 장치로부터 통역 환경 초기화 요청을 수신한다. 이때, 전술한 바와 같이, 핸즈프리 장치는 단말 장치(200)에 설치되어 있는 통역 애플리케이션을 자동으로 실행시킬 수 있으며, 통역 애플리케이션이 자동 실행되면, 이를 핸즈프리 장치의 통역 환경 초기화 및 통역 요청으로 인식할 수 있다.
페어링 수행부(212)는 초기화 요청 수신부(211)가 통역 환경 초기화 요청을 수신하면, 이동 통신망에 접속하여 미리 정의된 통역 서버 또는 선호하는 통역 서버에 연결할 수 있다. 또한, 블루투스 등의 근거리 통신을 통하여 상대방 단말에 페어링 요청을 전송하고, 상대방 단말로부터 페어링 승인이 수신되면, 상대방 단말과 연결할 수 있다.
페어링 수행부(212)에 의해 통역 서버 및 상대방 단말과 연결이 완료되면, 환경 정보 수신부(213)는 상대방 단말로부터 상대방의 언어 정보 및 성별 정보를 수신할 수 있다.
추가적인 실시예에 따르면, 사용자에게 제공된 인터페이스를 통하여 사용자로부터 언어 정보나 성별 정보 등의 환경 정보를 입력받거나, 미리 설정되어 있는 환경 정보를 상대방의 단말에 전송하는 환경 정보 전송부(미도시)를 포함할 수 있다. 단말 장치(200)는 경우에 따라 다수의 사용자가 이용할 수 있으므로, 핸즈프리 장치로부터 통역 요청이 수신되는 경우 환경 정보를 입력받기 위한 인터페이스를 사용자에게 제공할 수 있고, 사용자로부터 그 인터페이스를 통하여 필요한 환경 정보를 입력받아 상대방 단말에 전송할 수 있다. 이때, 전술한 바와 같이 핸즈프리 장치는 단말 장치(200)에 설치되어 있는 통역 애플리케이션을 실행시킬 수 있고, 통역 애플리케이션이 실행되면 통역 애플리케이션에서 제공되는 인터페이스를 이용하여 통역에 필요한 환경 정보를 입력받을 수 있다.
통역 환경 설정부(214)는 상대방 단말로부터 언어 정보 및 성별 정보를 수신하고, 사용자의 언어 정보 및 성별 정보 등의 환경 정보가 입력되면, 입력된 환경 정보를 이용하여 통역 언어 및 합성음 등의 통역 환경을 설정할 수 있다.
통역 중개부(220)는 통역 환경이 설정되면 핸즈프리 장치로부터 사용자의 통역 대상 음성 정보를 수신하고, 그 통역 대상 음성 정보를 통역한 통역 결과를 상대방 단말에 전송한다. 또한, 상대방 단말로부터 상대방의 음성 정보를 통역한 통역 결과를 수신한다.
도 9를 참조하면, 일 실시예에 따른 통역 중개부(220)는 서버 중개부(221) 및 단말 중개부(222)를 포함하고, 통역 서버를 통하여 통역을 수행할 수 있다. 하지만, 이에 한정되는 것은 아니므로 단말 장치(200)에 통역 기능이 내장되어 있는 경우에는 통역 서버를 경유할 필요없이 그 통역 기능을 이용하여 바로 사용자의 음성 정보를 상대방의 언어에 맞게 통역하는 것도 가능하다.
서버 중개부(221)는 핸즈프리 장치로부터 통역 대상인 사용자의 음성 정보가 수신되면, 수신된 음성 정보를 통역 서버에 전송하여 통역을 요청할 수 있다. 이때, 서버 중개부(221)는 미리 설정된 통역 환경 정보 중의 사용자의 언어 정보 및 상대방의 언어 정보를 확인하고, 그 정보를 통역 대상 음성 정보와 함께 전송할 수 있다.
서버 중개부(221)는 핸즈프리 장치로부터 사용자의 음성 정보가 입력되기 시작되면 음성 시작점과 음성 끝점을 검출하고, 음성 끝점이 검출되면 그 음성 정보를 통역 서버에 전송할 수 있다. 서버 중개부(221)는 핸즈프리 장치에 탑재되는 골도 마이크 또는 PTT 버튼을 통하여 음성이 입력되는 경우 음성 시작점과 끝점을 용이하게 검출할 수 있다.
또한, 서버 중개부(221)는 통역 서버로부터 사용자의 음성 정보를 상대방의 언어로 통역한 통역 결과를 수신할 수 있다. 이때, 통역 결과는 사용자의 음성 정보를 상대방의 언어로 통역한 텍스트 형식 또는 음성 형식의 통역 데이터를 포함하고, 추가적으로 유사 의도문장이나 N-베스트(N-best) 인식 데이터 중의 하나 이상의 오류 수정 데이터를 포함할 수 있다.
단말 중개부(222)는 통역 서버로부터 사용자의 음성 정보를 통역한 통역 결과를 수신하면, 수신된 통역 결과를 상대방 단말 장치에 전송할 수 있다. 이때, 단말 중개부(222)는 상대방 단말 장치와 미리 정의된 통역 프로토콜에 따라 통역 결과를 송수신할 수 있다. 또한, 단말 중개부(222)는 상대방 단말 장치로부터 상대방의 음성 정보를 통역 결과를 수신할 수 있다.
다시 도 7을 참조하면, 상황 정보 수집부(240)는 통역 환경 초기화부(210)에 의해 통역 환경이 초기화되면, 사용자의 현재 상황 정보를 수집할 수 있다. 일 예로, 단말 장치(200)에 내장되거나, 단말 장치(200)와 연결된 외부의 GPS 센서 등의 위치 측정 센서나 마이크 등을 이용하여 사용자의 현재 위치 정보나, 사용자가 위치한 장소(예: 공항, 식당, 호텔, 길거리 등)의 배경음 정보를 수집할 수 있다.
통역 중개부(220)는 상황 정보 수집부(240)에 의해 사용자의 현재 상황 정보가 수집되면, 수집된 상황 정보를 통역 서버에 전송할 수 있다. 이와 같이 사용자의 현재 상황 정보를 반영하여 통역을 수행함으로써, 보다 정확한 통역이 가능해진다.
또한, 부가 정보 수집부(250)는 사용자의 상태 정보를 부가 정보로서 수집할 수 있다. 예를 들어, 부가 정보 수집부(250)는 핸즈프리 장치로부터 사용자의 음성 정보가 수신되면, 수신된 사용자의 음성 정보를 분석하여 사용자의 발화 속도나 감정 상태 등을 추출할 수 있다. 이때, 발화 속도 정보는 인식된 음성 정보로부터 음절 내 모음의 길이를 재서 미리 정의된 정상 상태의 모음 길이와 비교하여 발화 속도 비율을 측정할 수 있다. 감정 상태 정보는 별도의 통계적 모델을 통해 예측할 필요없이 문장 피치의 높낮이와 문장 발화 속도, 평균 음량의 크기를 각 발화별로 추출할 수 있다. 하지만, 이에 한정되는 것은 아니므로 그 밖의 알려진 다양한 방법이 이용될 수 있다.
또한, 부가 정보 수집부(250)는 사용자의 개인 정보를 부가 정보로서 수집할 수 있다. 부가 정보 수집부(250)는 사용자에게 제공된 인터페이스를 통하여 사용자로부터 사용자의 이미지, 이름, 국적 등의 정보를 입력받을 수 있다.
통역 중개부(220)는 부가 정보 수집부(250)에 의해 부가 정보가 수집되면, 통역 결과와 함께 상대방 단말에 전송할 수 있다.
통역 처리부(230)는 통역 서버로부터 수신된 통역 결과 또는 상대방 단말로부터 수신된 통역 결과를 처리하여 사용자의 핸즈프리 장치에 전송하거나, 상대방 단말에 전송하도록 할 수 있다.
도 10을 참조하여, 통역 처리부(230)를 좀 더 상세하게 설명하면, 통역 처리부(230)는 음성 합성부(231), 텍스트 출력부(232) 및 통역 오류 수정부(233)를 포함할 수 있다.
음성 합성부(231)는 상대방 단말로부터 통역 결과가 수신되면, 상대방의 성별 정보 등을 기초로 설정된 합성음 정보를 이용하여, 통역 결과를 남성 음성 또는 여성 음성으로 합성할 수 있다.
또한, 상대방 단말로부터 부가 정보가 함께 수신되면, 합성되는 음성에 부가 정보를 반영할 수 있다. 예를 들어, 부가 정보 중의 발화 속도 정보가 수신되면 합성된 남성 또는 여성 음성을 발화 속도를 반영하고, 또한, 부가 정보 중의 감정 상태 정보가 수신되면, 감정 상태 정보 중의 문장 피치의 높낮이, 문장 발화 속도, 평균 음량의 크기 등을 음성합성기의 운율 조절 파라미터로 반영하여 감정 상태를 반영할 수 있다.
한편, 음성 합성부(231)는 단말 장치(200)와 연결된 핸즈프리 장치가 없는 경우에는 단말 장치(200)에 내장된 스피커를 통하여 합성된 음성을 출력하는 것도 가능하다.
텍스트 출력부(232)는 상대방의 통역 결과를 텍스트 형식으로 단말 장치(200)의 디스플레이에 출력하여 사용자가 시각적으로 확인하도록 할 수 있다. 즉, 사용자의 단말 장치(200)가 핸즈프리 장치와 연결되어 있는 것으로 전제하고 설명하였으나, 사용자나 상대방은 핸즈프리 장치의 도움 없이 통역 기능을 이용할 수 있다. 이와 같이, 핸즈프리 장치가 연결되어 있지 않은 경우 통역 결과를 텍스트 형식으로 디스플레이에 출력할 수 있다.
통역 오류 수정부(233)는 통역 서버로부터 수신된 통역 결과에 유사의도문장이나 N-베스트 인식 결과 등의 오류 수정 데이터가 포함되어 있으면, 그 오류 수정 데이터를 단말 장치(200)의 디스플레이의 인터페이스에 출력하여 사용자로 하여금 통역 오류를 수정하도록 할 수 있다.
통역 오류 수정부(233)는 사용자가 인터페이스에 출력된 오류 수정 데이터 중의 가장 적절한 어느 하나의 데이터를 선택하면, 선택된 데이터를 이용하여 통역 결과 중의 통역 데이터를 수정하여 통역 중개부(220)로 하여금 상대방 단말 장치에 전송하도록 할 수 있다. 이때, 사용자는 전술한 바와 같이 핸즈프리 장치를 착용한 상태에서 모션을 수행하여 단말 장치(200)의 인터페이스에 출력된 오류 수정 데이터를 선택할 수 있다.
도 11은 일 실시예에 따른 핸즈프리 기반의 자동 통역을 위한 통역 서버의 블록도이다.
도 11을 참조하면, 통역 서버(300)는 통역 정보 수신부(310), 음성 인식부(320), 번역부(330), 통역 결과 전송부(340) 및 상황 판단부(350)를 포함할 수 있다.
통역 정보 수신부(310)는 단말 장치(200)로부터 통역 정보를 수신한다. 이때, 통역 정보는 통역 대상 음성 정보, 사용자 및 상대방의 언어 정보, 사용자의 현재 위치, 배경음 정보 등의 상황 정보를 포함할 수 있다.
음성 인식부(320)는 통역 대상 음성 정보를 인식하고, 인식된 음성을 텍스트로 변환할 수 있다.
한편, 상황 판단부(350)는 수신된 통역 정보에 사용자의 상황 정보가 포함된 경우, 상황 정보를 이용하여 사용자의 상황을 판단할 수 있다. 예를 들어, 상황 판단부(350)는 상황 정보 중의 사용자의 위치 정보를 이용하여, 사용자가 현재 위치한 주변 지역을 대략적으로 파악하고, 또한, 배경음 정보를 통해 미리 모델링 된 배경음별 GMM(Gaussian Mixture Model)과 비교하고, 가장 일치도가 높은 모델을 구체적인 상황으로 결정할 수 있다.
이때, 음성 인식부(320)는 상황 판단부(350)에 의해 구체적인 상황이 판단되면, 그 상황에 적합한 음향 모델을 이용하거나 배경 잡음에 적합한 잡음 제거 신호 처리를 하여 정확하게 음성을 인식할 수 있다.
번역부(330)는 음성 인식부(320)에 의해 사용자의 음성 정보가 텍스트로 변환되면, 사용자 및 상대방의 언어 정보를 이용하여 상대방의 언어에 맞도록 텍스트를 변환한다.
*이때, 번역부(330)는 N-베스트 인식 결과나 유사의도문장을 추출하고 추출된 결과를 오류 수정 데이터로 생성할 수 있다.
통역 결과 전송부(340)는 번역 결과 또는 오류 수정 데이터를 통역 결과로서 단말 장치(200)에 전송한다.
도 12는 일 실시예에 따른 핸즈프리 기반의 자동 통역 방법의 흐름도이다.
도 12는 도 1의 핸즈프리 기반의 자동 통역 시스템에 의해 수행되는 자동 통역 방법의 일 실시예일 수 있다.
먼저, 사용자의 핸즈프리 장치(100a)는 사용자로부터 통역 요청을 수신하면(단계 411), 사용자의 단말 장치(200a)에 통역 기능을 실행하도록 요청할 수 있다(단계 412). 이때, 사용자 단말 장치(200)에 설치되어 있는 통역 애플리케이션을 자동 실행하여 통역 환경을 초기화하도록 요청할 수 있다.
사용자의 단말 장치(200a)는 핸즈프리 장치(100a)의 통역 기능 실행 요청이 입력되면, 상대방 단말 장치(200b)에 통역 환경 정보를 요청하고, 상대방 단말 장치(200b)로부터 상대방의 통역 환경 정보, 예컨대 언어 정보, 성별 정보 등을 수신할 수 있다(단계 413).
그 다음, 상대방 단말 장치(200b)로부터 통역 환경 정보가 수신되면(단계 413), 수신된 환경 정보를 이용하여 통역 환경을 초기화할 수 있다(단계 414).
그 다음, 사용자의 단말 장치(200a)는 핸즈프리 장치(100a)로부터 사용자의 통역 대상 음성 정보를 수신하면, 수신된 음성 정보의 끝점을 검출하고(단계 416), 음성 정보를 통역 서버(300)에 전송할 수 있다(단계 417). 이때, 사용자의 위치 정보나 배경음 정보 등의 사용자의 상황 정보를 수집할 수 있고(단계 416), 수집된 사용자의 상황 정보를 함께 전송할 수 있다(단계 417).
그 다음, 통역 서버(300)는 수신된 음성 정보 또는 상황 정보를 기초로 상황을 판단하고, 상황 판단 결과를 기초로 정확한 음성을 인식할 수 있다(단계 418). 또한, 음성이 인식되면, 이를 텍스트로 변환할 수 있다.
그 다음, 변환된 텍스트를 이용하여 상대방의 언어에 맞게 번역하고(단계 419), 통역 결과 및 오류 수정 데이터를 사용자의 단말 장치(200a)에 전송할 수 있다(단계 420).
그 다음, 사용자의 단말 장치(200a)는 통역 결과를 수신하면, 통역 결과를 상대방의 단말 장치(200b)에 전송할 수 있다(단계 421).
그 다음, 상대방의 단말 장치(200b)는 통역 결과를 수신하면, 설정된 통역 환경 정보에 기초하여 사용자의 성별에 맞도록 음성을 합성하고(단계 422), 합성음을 핸즈프리 장치(100b)에 전송할 수 있다(단계 423).
마지막으로, 상대방의 핸즈프리 장치(100b)는 수신한 합성음을 출력할 수 있다(단계 424).
도 13은 일 실시예에 따른 핸즈프리 장치에서 수행되는 자동 통역 방법의 흐름도로서, 도 6의 핸즈프리 장치가 수행하는 자동 통역 방법의 일 실시예일 수 있다.
도 13을 참조하면, 먼저, 핸즈프리 장치는 사용자로부터 통역 요청을 수신한다(단계 510). 이때, 사용자는 전술한 바와 같이 미리 정의된 음성을 입력함으로써 통역 시작을 요청할 수 있다. 또는, 핸즈프리 장치에 별도로 구비된 통역 요청 버튼을 통하여 통역 요청을 입력할 수 있다.
핸즈프리 장치는 통역 요청이 입력되면 단말 장치와의 페어링을 수행하고 단말 장치에 통역 초기화를 요청할 수 있다(단계 520). 이때, 핸즈프리 장치는 블루투스, 지그비, NFC 등의 근거리 통신을 이용하여 페어링을 수행할 수 있다. 또한, 단말 장치와 페어링이 수행되면 단말 장치에 설치되어 있는 통역 애플리케이션을 실행하여 통역 환경 초기화를 요청할 수 있다.
그 다음, 단말 장치에 의해 통역 환경 초기화가 완료되어 통역 기능이 실행되면, 마이크를 통해 사용자로부터 통역 대상 음성 정보를 수신할 수 있다(단계 530). 이때, 마이크는 둘 이상의 채널로 구성될 수 있고, 이를 통해 입력된 음성 정보는 단말 장치 또는 통역 서버에서 잡음을 용이하게 제거하도록 할 수 있다. 또한, 마이크는 골도 마이크를 포함할 수 있으며, 골도 마이크를 통하여 입력되는 음성의 끝점 검출을 용이하게 할 수 있다.
그 다음, 수신된 통역 대상 음성 정보를 연결된 단말 장치에 전송할 수 있다(단계 540).
그 다음, 사용자 단말로부터 상대방의 통역 결과를 음성으로 합성한 음성 정보를 수신하고(단계 550), 수신된 합성음 정보를 스피커를 통하여 사용자에게 출력할 수 있다(단계 560).
도 14는 일 실시예에 따른 단말 장치에서 수행되는 자동 통역 방법의 흐름도로서, 도 7의 단말 장치(200)에 의해 수행되는 자동 통역 방법의 일 실시예일 수 있다.
도 14를 참조하면, 단말 장치(200)는 핸즈프리 장치의 요청에 따라 핸즈프리 장치와 페어링을 수행하고, 통역 환경을 초기화할 수 있다(단계 610). 단말 장치(200)는 핸즈프리 장치로부터 페어링 요청이 감지되면, 이를 승인함으로써 핸즈프리 장치와 연결하고, 통역 서버 또는 상대방 단말 장치와 이동통신망이나 근거리 통신망을 통하여 연결할 수 있다. 또한, 상대방 단말 장치로부터 상대방의 언어 정보나 성별 정보 등의 환경 정보를 수신하여 통역 환경을 설정할 수 있다.
그 다음, 핸즈프리 장치로부터 음성 정보가 수신되면, 통역 서버에 음성 정보를 전송하여 통역을 요청한다(단계 620). 이때, 통역 서버에 사용자 및 상대방의 언어 정보를 함께 전송할 수 있다. 또한, 사용자의 현재 위치나 사용자가 위치한 장소의 배경음 정보 등의 상황 정보를 수집하고, 이를 통역 서버에 함께 전송할 수 있다.
그 다음, 통역 서버로부터 통역 결과를 수신하면, 상대방 단말에 통역 결과를 전송할 수 있다(단계 630). 이때, 수신된 통역 결과에 오류 수정 데이터가 존재하면 이를 인터페이스에 출력하고, 사용자로 하여금 통역 결과를 수정하고 수정된 통역 결과를 상대방 단말에 전송할 수 있다.
그 다음, 상대방 단말로부터 상대방의 음성 정보를 통역한 통역 결과를 수신하고(단계 640), 수신된 통역 결과를 통역 환경 정보에 기초하여 음성으로 합성할 수 있다(단계 660). 이때, 상대방 단말로부터 발화속도나 감정 상태 등의 부가 정보가 함께 수신되면, 통역 결과에 상대방의 발화속도나 감정 상태를 반영하여 음성으로 합성할 수 있다.
그 다음, 합성된 음성 정보를 핸즈프리 장치에 전송할 수 있다(단계 660). 이때, 연결된 핸즈프리 장치가 존재하지 않는 경우에는 단말 장치의 스피커를 통해 합성음을 바로 출력하는 것도 가능하다.
본 실시예들이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

Claims (20)

  1. 핸즈프리 장치의 요청에 따라 핸즈프리 장치와 페어링을 수행하고, 통역 환경을 초기화하는 통역 환경 초기화부;
    핸즈프리 장치로부터 수신된 사용자의 음성 정보를 통역한 통역 결과를 상대방 단말에 전송하고, 상대방 단말로부터 상대방의 음성 정보를 통역한 통역 결과를 수신하는 통역 중개부; 및
    상대방 단말로부터 통역 결과가 수신되면, 상기 초기화된 통역 환경에 기초하여 상대방의 통역 결과를 음성으로 합성하고, 합성된 음성 정보를 상기 핸즈프리 장치에 전송하는 통역 처리부를 포함하는 핸즈프리 자동 통역 서비스를 위한 단말 장치.
  2. 제1항에 있어서,
    상기 통역 환경 초기화부는
    상대방 단말로부터 상대방의 언어 정보 및 성별 정보 중의 하나 이상을 포함하는 통역 환경 정보를 수신하는 환경 정보 수신부; 및
    상기 수신된 통역 환경 정보에 기초하여, 통역 언어 정보 및 합성음 정보 중의 하나 이상의 통역 환경 정보를 설정하는 통역 환경 설정부를 포함하는 핸즈프리 자동 통역 서비스를 위한 단말 장치.
  3. 제2항에 있어서,
    상기 통역 처리부는
    상대방 단말로부터 통역 결과가 수신되면, 상기 설정된 합성음 정보에 기초하여 그 통역 결과를 남성 또는 여성 음성으로 합성하는 음성 합성부를 포함하는 핸즈프리 자동 통역 서비스를 위한 단말 장치.
  4. 제3항에 있어서,
    상기 음성 합성부는
    상대방 단말로부터 부가 정보가 더 수신되면, 수신된 부가 정보를 기초로 사용자의 발화 속도 및 감정 상태 중의 하나 이상을 반영하여 상기 음성으로 합성하는 핸즈프리 자동 통역 서비스를 위한 단말 장치.
  5. 제1항에 있어서,
    사용자 상태 정보 및 개인 정보 중의 하나 이상을 포함하는 부가 정보를 수집하는 부가 정보 수집부를 더 포함하고,
    상기 사용자 상태 정보는
    상기 사용자의 음성 정보로부터 추출된 발화 속도 및 감정 상태 중의 하나 이상을 포함하고,
    상기 개인 정보는
    사용자로부터 입력된 이름, 국적 및 이미지 정보 중의 하나 이상을 포함하는 핸즈프리 자동 통역 서비스를 위한 단말 장치.
  6. 제1항에 있어서,
    상기 통역 중개부는
    상기 핸즈프리 장치로부터 음성 정보가 수신되면, 통역 서버에 그 음성 정보를 전송하고, 상기 통역 서버로부터 통역 결과를 수신하는 서버 중개부; 및
    상기 수신된 통역 결과를 미리 정의된 통역 프로토콜에 따라 상대방 단말에 전송하는 단말 중개부를 포함하는 핸즈프리 자동 통역 서비스를 위한 단말 장치.
  7. 제6항에 있어서,
    사용자의 현재 위치 정보 및 배경음 정보 중의 하나 이상을 포함하는 상황 정보를 수집하는 상황 정보 수집부를 더 포함하고,
    상기 서버 중개부는
    상기 핸즈프리 장치로부터 수신된 음성 정보 및 상기 수집된 상황 정보를 통역 서버에 전송하는 핸즈프리 자동 통역 서비스를 위한 단말 장치.
  8. 제1항에 있어서,
    상기 사용자의 음성 정보를 통역한 통역 결과는
    상기 음성 정보를 텍스트 또는 음성 형식으로 통역한 통역 데이터 및 통역 오류 수정 데이터 중의 하나 이상을 포함하고,
    상기 오류 수정 데이터는
    유사의도문장 및 N-베스트(N-best) 인식 데이터 중의 하나 이상을 포함하는 핸즈프리 자동 통역 서비스를 위한 단말 장치.
  9. 제8항에 있어서,
    상기 통역 처리부는
    상기 통역 결과에 오류 수정 데이터가 포함되어 있으면, 상기 오류 수정 데이터 중에서 하나 이상의 사용자의 선택 정보를 기초로 상기 통역 데이터를 수정하는 통역 오류 수정부를 포함하는 핸즈프리 자동 통역 서비스를 위한 단말 장치.
  10. 사용자 단말 장치가 수행하는 핸즈프리 자동 통역 서비스 방법으로서,
    핸즈프리 장치의 요청에 따라 핸즈프리 장치와 페어링을 수행하고, 통역 환경을 초기화하는 단계;
    핸즈프리 장치로부터 사용자의 음성 정보가 수신되면, 수신된 사용자의 음성 정보를 통역 서버에 전송하고, 통역 서버로부터 통역 결과를 수신하는 단계;
    상기 수신된 통역 결과를 상대방 단말에 전송하는 단계;
    상대방 단말로부터 상대방의 음성 정보를 통역한 통역 결과를 수신하는 단계;
    상대방 단말로부터 수신된 통역 결과를 상기 초기화된 통역 환경에 기초하여 음성으로 합성하는 단계; 및
    상기 합성된 음성 정보를 핸즈프리 장치에 전송하는 단계를 포함하는 핸즈프리 자동 통역 서비스 방법.
  11. 제10항에 있어서,
    상기 통역 환경을 초기화하는 단계는
    상대방 단말로부터 상대방의 언어 정보 및 성별 정보 중의 하나 이상을 포함하는 통역 환경 정보를 수신하는 단계; 및
    상기 수신된 통역 환경 정보에 기초하여, 통역 언어 정보 및 합성음 정보 중의 하나 이상의 통역 환경 정보를 설정하는 단계를 포함하는 핸즈프리 자동 통역 서비스 방법.
  12. 제11항에 있어서,
    상기 음성을 합성하는 단계는
    상대방 단말로부터 통역 결과가 수신되면, 상기 설정된 합성음 정보에 기초하여 그 통역 결과를 남성 또는 여성 음성으로 합성하는 핸즈프리 자동 통역 서비스 방법.
  13. 제12항에 있어서,
    상기 음성을 합성하는 단계는
    상대방 단말로부터 부가 정보가 더 수신되면, 수신된 부가 정보를 기초로 사용자의 발화 속도 및 감정 상태 중의 하나 이상을 반영하여 상기 음성으로 합성하는 핸즈프리 자동 통역 서비스 방법.
  14. 제10항에 있어서,
    사용자의 현재 위치 정보 및 배경음 정보 중의 하나 이상을 포함하는 상황 정보를 수집하는 단계를 더 포함하고,
    상기 사용자의 음성 정보를 통역 서버에 전송하는 단계는
    상기 핸즈프리 장치로부터 수신된 음성 정보 및 상기 수집된 상황 정보를 통역 서버에 전송하는 핸즈프리 자동 통역 서비스 방법.
  15. 제10항에 있어서,
    상기 통역 서버로부터 수신된 통역 결과에 오류 수정 데이터가 포함되어 있으면, 상기 오류 수정 데이터를 디스플레이에 출력하는 단계;
    사용자로부터 상기 오류 수정 데이터 중에서 하나 이상의 선택 정보를 수신하는 단계; 및
    상기 수신된 선택 정보를 기초로 상기 통역 데이터를 수정하는 단계를 더 포함하는 핸즈프리 자동 통역 서비스 방법.
  16. 마이크 및 스피커를 포함하는 핸즈프리 자동 통역 서비스를 위한 핸즈프리 장치에 있어서,
    사용자의 통역 요청이 입력되면 사용자 단말과의 페어링을 수행하며, 사용자 단말에 통역 환경을 초기화하도록 요청하는 통역 기능 실행부; 및
    상기 마이크를 통해 입력된 사용자의 음성 정보를 통신부로 하여금 사용자 단말에 전송하도록 제어하며, 통신부에 의해 사용자 단말로부터 수신된 음성 정보를 상기 스피커를 통해 출력하는 제어부를 포함하는 핸즈프리 장치.
  17. 제16항에 있어서,
    상기 통역 기능 실행부는
    사용자의 통역 요청이 입력되면, 사용자 단말에 설치된 통역 애플리케이션을 실행하여 통역 환경을 초기화하도록 요청하는 핸즈프리 장치.
  18. 제16항에 있어서,
    상기 통역 기능 실행부는
    근거리에 위치한 통역 대상 상대방 단말을 검출하고, 검출된 상대방 단말 정보를 통신부를 통해 사용자 단말에 전송하여 상대방 단말과의 통역 환경을 초기화하도록 요청하는 핸즈프리 장치.
  19. 제16항에 있어서,
    가속도 센서 및 자이로 센서 중의 하나 이상을 포함하는 모션 인식 센서를 이용하여 사용자의 모션을 인식하는 모션 인식부를 더 포함하고,
    상기 제어부는
    상기 인식된 모션에 기초하여 사용자 단말의 디스플레이에 출력된 오류 수정 데이터의 선택을 제어하는 핸즈프리 장치.
  20. 제16항에 있어서,
    상기 마이크는
    사용자의 입 근처에 위치하는 제1 마이크, 사용자의 귀 근처에 위치하는 제2 마이크 및 골도 마이크 중의 하나 이상을 포함하는 핸즈프리 장치.
PCT/KR2014/003839 2013-08-28 2014-04-30 핸즈프리 자동 통역 서비스를 위한 단말 장치 및 핸즈프리 장치와, 핸즈프리 자동 통역 서비스 방법 WO2015030340A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US14/914,390 US10216729B2 (en) 2013-08-28 2014-04-30 Terminal device and hands-free device for hands-free automatic interpretation service, and hands-free automatic interpretation service method

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR20130102267 2013-08-28
KR10-2013-0102267 2013-08-28
KR1020140022712A KR101834546B1 (ko) 2013-08-28 2014-02-26 핸즈프리 자동 통역 서비스를 위한 단말 장치 및 핸즈프리 장치와, 핸즈프리 자동 통역 서비스 방법
KR10-2014-0022712 2014-02-26

Publications (1)

Publication Number Publication Date
WO2015030340A1 true WO2015030340A1 (ko) 2015-03-05

Family

ID=52586852

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2014/003839 WO2015030340A1 (ko) 2013-08-28 2014-04-30 핸즈프리 자동 통역 서비스를 위한 단말 장치 및 핸즈프리 장치와, 핸즈프리 자동 통역 서비스 방법

Country Status (1)

Country Link
WO (1) WO2015030340A1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106531169A (zh) * 2016-11-30 2017-03-22 泸县玉流机械制造有限责任公司 语音识别控制电路
WO2017171304A1 (ko) * 2016-03-29 2017-10-05 주식회사 시코드 Ptt 통신용 핸즈프리, 이를 이용한 ptt 통신 시스템 및 방법
CN108447473A (zh) * 2018-03-06 2018-08-24 深圳市沃特沃德股份有限公司 语音翻译方法和装置
KR102248701B1 (ko) * 2020-07-08 2021-05-06 주식회사 엔디소프트 다국어 음성 자동 통역 채팅시 통역의 시점과 종점과 소정 정보 제공을 소정의 음성으로 제어하는 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000072073A (ko) * 2000-07-21 2000-12-05 백종관 음성 인식 및 음성 합성 기술을 이용한 자동동시통역서비스 방법 및 그 시스템
KR20020054192A (ko) * 2000-12-27 2002-07-06 오길록 외국인을 위한 전화안내 자동 통역시스템 및 방법
US20030115068A1 (en) * 2001-12-13 2003-06-19 Boesen Peter V. Voice communication device with foreign language translation
JP2005012833A (ja) * 1995-01-11 2005-01-13 Fujitsu Ltd 音声応答サービス装置
KR20130052862A (ko) * 2011-11-14 2013-05-23 현대모비스 주식회사 핸즈프리 시스템 및 그 제어 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005012833A (ja) * 1995-01-11 2005-01-13 Fujitsu Ltd 音声応答サービス装置
KR20000072073A (ko) * 2000-07-21 2000-12-05 백종관 음성 인식 및 음성 합성 기술을 이용한 자동동시통역서비스 방법 및 그 시스템
KR20020054192A (ko) * 2000-12-27 2002-07-06 오길록 외국인을 위한 전화안내 자동 통역시스템 및 방법
US20030115068A1 (en) * 2001-12-13 2003-06-19 Boesen Peter V. Voice communication device with foreign language translation
KR20130052862A (ko) * 2011-11-14 2013-05-23 현대모비스 주식회사 핸즈프리 시스템 및 그 제어 방법

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017171304A1 (ko) * 2016-03-29 2017-10-05 주식회사 시코드 Ptt 통신용 핸즈프리, 이를 이용한 ptt 통신 시스템 및 방법
CN106531169A (zh) * 2016-11-30 2017-03-22 泸县玉流机械制造有限责任公司 语音识别控制电路
CN108447473A (zh) * 2018-03-06 2018-08-24 深圳市沃特沃德股份有限公司 语音翻译方法和装置
WO2019169686A1 (zh) * 2018-03-06 2019-09-12 深圳市沃特沃德股份有限公司 语音翻译方法、装置和计算机设备
KR102248701B1 (ko) * 2020-07-08 2021-05-06 주식회사 엔디소프트 다국어 음성 자동 통역 채팅시 통역의 시점과 종점과 소정 정보 제공을 소정의 음성으로 제어하는 방법

Similar Documents

Publication Publication Date Title
KR102069237B1 (ko) 핸즈프리 자동 통역 서비스를 위한 단말 장치 및 핸즈프리 장치와, 핸즈프리 자동 통역 서비스 방법
WO2012081788A1 (ko) 온라인 음성인식을 처리하는 음성인식 클라이언트 시스템, 음성인식 서버 시스템 및 음성인식 방법
WO2015030340A1 (ko) 핸즈프리 자동 통역 서비스를 위한 단말 장치 및 핸즈프리 장치와, 핸즈프리 자동 통역 서비스 방법
KR20160093529A (ko) 청각 장애인을 위한 착용형 장치
JP2004214895A (ja) 通信補助装置
KR101322394B1 (ko) 음성인식 정보검색 시스템 및 그 방법
CN112001189A (zh) 实时外语沟通系统
CN109686359B (zh) 语音输出方法、终端及计算机可读存储介质
JP6690749B2 (ja) 情報処理装置、通信制御方法およびコンピュータプログラム
CN109167880B (zh) 双面屏终端控制方法、双面屏终端及计算机可读存储介质
TW201941084A (zh) 翻譯系統、翻譯方法、以及翻譯裝置
CN112951236A (zh) 一种语音翻译设备及方法
JP2019012507A (ja) 電子機器の通訳機能提供方法およびイヤセット機器
CN108806675B (zh) 语音输入输出装置、无线连接方法、语音对话系统
CN108174030B (zh) 定制化语音控制的实现方法、移动终端及可读存储介质
WO2021080362A1 (ko) 이어셋을 이용한 언어 처리 시스템
KR101400754B1 (ko) 무선캡션대화 서비스 시스템
WO2020009261A1 (ko) 음성 인식이 가능한 디지털 디바이스 및 그 제어 방법
JP2016205865A (ja) 誘導システム、携帯端末、およびプログラム
WO2021118184A1 (ko) 사용자 단말 및 그 제어방법
KR102393112B1 (ko) 이어셋을 이용한 통역기능 제공 방법 및 장치
KR101906549B1 (ko) 청각 장애인을 위한 착용형 장치
CN108280189B (zh) 一种基于智能笔的语音搜题方法及系统
WO2019177437A1 (ko) 화면 제어 방법 및 이를 지원하는 전자 장치
WO2022177063A1 (ko) 전자 장치 및 이의 제어 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14839007

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 14914390

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14839007

Country of ref document: EP

Kind code of ref document: A1