WO2019045250A1 - Push-to-talk communication service operation method and system using same - Google Patents

Push-to-talk communication service operation method and system using same Download PDF

Info

Publication number
WO2019045250A1
WO2019045250A1 PCT/KR2018/007623 KR2018007623W WO2019045250A1 WO 2019045250 A1 WO2019045250 A1 WO 2019045250A1 KR 2018007623 W KR2018007623 W KR 2018007623W WO 2019045250 A1 WO2019045250 A1 WO 2019045250A1
Authority
WO
WIPO (PCT)
Prior art keywords
text
voice
terminal
data
speech
Prior art date
Application number
PCT/KR2018/007623
Other languages
French (fr)
Korean (ko)
Inventor
박규철
Original Assignee
주식회사 인스파이어모바일
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 인스파이어모바일 filed Critical 주식회사 인스파이어모바일
Publication of WO2019045250A1 publication Critical patent/WO2019045250A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/06Selective distribution of broadcast services, e.g. multimedia broadcast multicast service [MBMS]; Services to user groups; One-way selective calling services
    • H04W4/10Push-to-Talk [PTT] or Push-On-Call services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/18Information format or content conversion, e.g. adaptation by the network of the transmitted or received information for the purpose of wireless delivery to users or terminals

Definitions

  • the present invention relates to a service providing method for providing text based on voice recognition and converting text into voice data in a push to talk service application, and a system using the method.
  • a push-to-talk (PTT) communication is a two-way communication system in which a voice is transmitted to the other party while a button for transmitting voice is pressed to the other party, and a voice is received from the other party in a state in which the button is not pressed. It is a communication system in which the majority of people can perform simple communication.
  • IP internet protocol
  • PTT communication technologies are utilized for collaboration in existing industrial sites for the purpose of task assignment and distribution in distribution, transportation, logistics, airports, factories, and construction sites.
  • PTT push to talk
  • Another object of the present invention is to provide a method of operating a push to talk communication service in which a recipient does not miss an important message of a caller by sequentially displaying voice data transmitted in real time along with text on a dialog window basis.
  • a method of operating a push to talk (PTT) communication service includes: transmitting a PTT communication service, which is implemented in a user terminal equipped with a push to talk
  • a method of operating a service comprising: converting voice data received through a network from a user terminal, that is, input voice, into text through a voice recognition technique and transmitting the text to a receiver; Converting the text data including the text into speech through a speech synthesis technique and outputting the speech;
  • the method comprising the steps of applying an interactive user interface (UI) to the transmitted or received voice or text content, wherein the user terminal transmits text previously converted to voice and speech recognition according to a user input or a pre- And a display screen so that the user can confirm the contents.
  • UI interactive user interface
  • a method of operating a push to talk communication service comprising: establishing a communication channel with a second user terminal through a network; And detecting text to speech (TTS) input while supporting text-to-speech communication in an interactive text window of a push to talk service application; And generating a TTS request signal for converting the text data input from the first or second user terminal into voice data in the interactive text window according to the TTS input.
  • TTS text to speech
  • the TTS request signal may be communicated to a TTS manager of a service application installed in the first or second user terminal that generated the signal.
  • the TTS request signal may be transmitted to the speech synthesis supporting apparatus connected to the first or second user terminal through the network, which generates the TTS request signal together with the corresponding text data.
  • the TTS manager or the voice synthesis support apparatus can be transmitted to the counterpart terminal of the user terminal that converts the text data into voice data according to the TTS request signal.
  • a method of operating a push to talk communication service comprising: establishing a communication channel with a second user terminal through a network; And detecting a secret conversation setting input while supporting a text conversation communication in an interactive text window of a push to talk service application; And changing the mode of the calling user terminal to the voice transmission mode in the interactive text window according to the secret conversation setting input, wherein the receiving user terminal responds to the secret conversation setting input from the calling user terminal And switches the operation mode to the text reception mode according to the mode change request signal.
  • a service application installed on the calling user terminal or a voice recognition support device connected via a network with the first and second user terminals may be configured to allow the calling party
  • the voice data of the user terminal can be converted into text data and provided to the receiving side user terminal.
  • the voice data may be transmitted to the receiving user terminal together with or separately from the text data so that the receiver can check later.
  • a system using a push to talk communication service method including a push to talk service application capable of voice recognition mounted on a user terminal or a counterpart terminal,
  • the terminal includes a first functional unit for converting a voice signal into a text to speech-to-text (STT) function while pressing a button for transmitting voice;
  • a second function unit for simultaneously transmitting a plurality of converted texts together with speech;
  • a third function unit for mapping the contents transmitted with voice to the characters transmitted together to support the PTT voice contents delivered through the keyword search again.
  • the receiving-side wireless terminal may further include a fourth functional unit for providing the received text along with the received voice on a screen in the form of a dialog window; A fifth function unit for converting a text received through a text to speech (TTS) function into a real time voice and outputting the same if the voice is not received; And a sixth function unit for mapping the contents received by voice to the transmitted text and supporting the PTT voice contents delivered through the keyword search again.
  • a fourth functional unit for providing the received text along with the received voice on a screen in the form of a dialog window
  • a fifth function unit for converting a text received through a text to speech (TTS) function into a real time voice and outputting the same if the voice is not received
  • TTS text to speech
  • the calling terminal is a mobile terminal or a wireless terminal that is equipped with a push to talk service application.
  • the first mode is a first mode in which a button for transmitting a voice is pressed in a pressed state, A second mode for performing a text transmission service converted to a text mode and a third mode for transmitting only text, and in the case where the voice recognition service is not executed, Can be performed.
  • the receiving-side terminal is a mobile terminal or a wireless terminal equipped with a push to talk service application.
  • the first mode is a mode in which a voice receiving service is performed while the button for transmitting voice is not pressed.
  • the service application maps the converted text based on voice and voice transmitted and received to a group, provides a function of searching for a character history sent and received through a keyword, and outputs voice conversation contents associated with the retrieved character And a function for supporting the user's confirmation.
  • a system using a push to talk communication service including a server connected to a user terminal through a network, the system comprising: a first user terminal Or receiving a download request signal for a PTT service application from a second user terminal; And providing the PTT service application to the first user terminal or the second user terminal in response to the download request signal.
  • the PTT service application provides an interactive text window.
  • the PTT service application may control the operating mode of the calling user terminal in voice input mode according to a secret chat request or a pre-established request that is activated via the user interface of the interactive text window.
  • the PTT service application may control the operation mode of the receiving side user terminal in a text output mode according to a secret conversation request or a predetermined request that is activated through the user interface of the interactive text window.
  • the PTT service application may automatically convert the text data of the calling user terminal to voice data and transmit the voice data to the receiving user terminal according to a TTS request activated through another user interface of the interactive text window.
  • the system using the push to talk communication service operating method may comprise a mobile terminal, a personal computer, or a desktop computer.
  • various user terminals such as a mobile terminal and a personal computer, or a counterpart terminal, as a system using a push to talk service application method capable of voice recognition and using the push to talk communication service operation method described above, It is possible to provide a voice recognition support push to talk service that can be easily applied to various users and various environments only by installing a single service application.
  • the present invention it is possible to confirm the voice contents of the PTT communication at a receiver terminal through keyword search even after a predetermined time has elapsed.
  • FIG. 1 is a diagram schematically showing a configuration of a push to talk (PTT) communication service operating system according to an embodiment of the present invention.
  • PTT push to talk
  • FIG. 2 is a detailed diagram showing a configuration of a transmitting-side terminal and a receiving-side terminal that can be employed in the system of FIG.
  • FIG. 3 is a detailed block diagram of a control unit of a transmitting terminal according to an embodiment of the present invention.
  • FIG. 4 is a detailed block diagram of a controller of a receiving terminal according to an embodiment of the present invention.
  • FIG. 5 is a flowchart illustrating a push to talk communication service operation method according to another embodiment of the present invention.
  • FIG. 6 is an exemplary view of a display screen of a system using a push-to-talk communication service operating method according to another embodiment of the present invention.
  • FIG. 1 is a diagram schematically showing a configuration of a push to talk (PTT) communication service operating system according to an embodiment of the present invention.
  • PTT push to talk
  • the PTT communication service system of the present embodiment has a configuration in which a mobile terminal performs PTT communication with an external terminal based on a PTT (Push To Talk) communication service.
  • the PTT communication service operating system may include the PPT communication system 100, the transmitting terminal 200, the receiving terminal 300, the voice recognition support device 400, and the voice synthesis support device 500.
  • the speech recognition support apparatus 400 may be referred to as a speech processing support apparatus.
  • the speech synthesis supporting apparatus 500 which is referred to as a first server, may be referred to as a second server.
  • the transmitting terminal 200 transmits a user's voice signal to the receiving terminal 300 (300) in response to a pressing signal or an activating signal in a state where a button for transmitting a voice by a user is pressed or activated ).
  • the speech recognition support apparatus 400 may be operated according to a predetermined operation mode or a user's selection, and additional information of data transmitted from the calling terminal may be generated. According to this, the communication additional service can be operated in accordance with the user environment.
  • the receiving terminal 300 operates the voice synthesis support apparatus 500 according to a predetermined operation mode or a user's selection, converts the received text data into voice data, Audio data can be outputted through the speaker.
  • the communication additional service can be operated in accordance with the user environment.
  • the supplementary service can be one of a service for transmitting a voice signal from a user as text or a service for converting received text into voice and outputting the voice.
  • the PTT communication service operating system may be configured to transmit the data to the voice recognition supporting device 400 and the speech synthesis support apparatus 500.
  • the transmitting terminal 200 receives a speech to text (STT) service for recognizing a voice signal from the user and generating text Can be operated.
  • STT speech to text
  • the transmitting terminal 200 transmits the collected voice data to the receiving terminal 300 through the PTT communication system (corresponding to the network), and at the same time performs voice recognition in the voice recognition support device 400, Can be converted. This is to provide additional services within a range that does not violate the characteristics of the PTT communication service as much as possible.
  • the receiving terminal 300 can operate a text to speech (TTS) service for converting the received text into voice.
  • TTS text to speech
  • the receiving terminal 300 may output the received text to the display unit 340 or convert it into voice data through the voice synthesis support apparatus 500 and output the voice data to the speaker 330.
  • the voice recognition support apparatus 400 recognizes the voice data provided by the transmitting terminal 200 at the request of the transmitting terminal 200 and converts the recognized voice into text and provides it to the transmitting terminal 200 .
  • the speech recognition support apparatus 400 may be implemented as a separate server type that can be connected to the transmitting terminal 200 through wireless communication, for example, Wi-Fi or short-range wireless communication, Or may be implemented in a separate server form, or in the form of a service application internally driven by a calling or receiving user terminal.
  • the voice synthesis support apparatus 500 recognizes the text transferred to support the TTS service of the receiving terminal 300, converts the recognized text into voice data, and provides the voice data to the receiving terminal 300.
  • the voice synthesis support apparatus 500 may be implemented as a separate server that can be connected to the reception-side terminal 300 through a Wi-Fi or a short-range wireless communication scheme or as a separate server type that can be accessed through a mobile communication system or an Internet network Or may be implemented in a form that is driven internally by the terminal.
  • the PTT communication service operating system converts a voice signal into text using a voice recognition function, and converts the text into voice using a voice synthesis function, To utilize a more appropriate communication service environment.
  • the configurations of the transmitting terminal 200 and the receiving terminal 300 are illustrated as separate configurations, but the present invention is not limited thereto. That is, the transmitting terminal 200 may serve as a receiving terminal in the process of using the PTT communication service with the receiving terminal 300, and the receiving terminal 300 may serve as a transmitting terminal. As a result, the configurations of the transmitting terminal 200 and the receiving terminal 300, which will be described below, may be integrated into one PTT communication terminal.
  • the configuration of the transmitting terminal 200 can be understood as a configuration that the receiving terminal 300 can have while performing the transmitting function, and the configuration of the receiving terminal 300 can be understood as a constitution of the transmitting terminal 200, May be understood as a configuration that can be provided during the reception function.
  • FIG. 2 is a detailed diagram showing a configuration of a transmitting-side terminal and a receiving-side terminal that can be employed in the system of FIG.
  • the transmitting terminal 200 can convert a voice signal into text using the voice recognition support apparatus 400 and transmit the converted voice to the receiving terminal 300.
  • the transmitting terminal 200 may include a configuration of the input unit 210, the microphone 220, the display unit 240, the communication unit 250, and the control unit 260 in order to support the PTT communication service operation according to the present embodiment. have.
  • the transmitting terminal 200 of the present invention having the above-described configuration operates the voice recognition support apparatus 400 and converts the voice signal inputted from the user into text and transmits it to the receiving terminal 300 Speech To Text) service.
  • the transmitting terminal 200 can control voice conversion of the voice signal collected by the microphone 220 according to the terminal setting by voice recognition.
  • the transmission-side input unit 210 generates various input signals required for operation of the transmission-side terminal 200.
  • the input unit 210 may be formed as a button for transmitting a voice by a user or may be provided as a touch map.
  • the generated input signal is transmitted to the controller 260 and can perform a function support according to the input signal.
  • the transmitting-side microphone 220 is activated according to the functioning of the transmitting-side terminal 200 to collect a surrounding audio signal, particularly a voice signal.
  • the voice signal collected by the transmission-side microphone 220 is transmitted to the transmission-side control unit 260, is voice-recognized under the control of the transmission-side control unit 260, converted into text and transmitted to the reception-side terminal 200 .
  • the transmission-side display unit 240 provides various screen interfaces necessary for operation of the transmission-side terminal 200.
  • the transmitting-side display unit 240 can provide respective screens according to the type of communication service with the receiving-side terminal 300.
  • the transmission-side display unit 240 can output one of a screen showing a voice transmission status, a text service support screen, or a screen for outputting text generated by speech recognition, according to each service operation.
  • the transmitting side communication unit 250 can form a data communication channel with the receiving side terminal 300 through the communication system 100.
  • the communication unit 250 may be configured as a communication module that supports various types of communication methods according to device characteristics of the transmitting terminal 200.
  • the communication unit 250 may include various communication modules such as a mobile communication module supporting 2G, 3G, long term evolution (LTE) and the like, and a communication module supporting WiFi.
  • the communication unit 250 may form a data communication channel for text transmission based on the speech recognition according to the present embodiment with the receiving side terminal 300 according to user input.
  • the transmission-side control unit 260 supports a signal control required for operation of the transmission-side terminal 200 according to the present embodiment.
  • the transmission-side control unit 260 can control signal control and data transmission for supporting communication service operation of this embodiment.
  • the transmitting-side control unit 260 may include a configuration as shown in FIG.
  • FIG. 3 is a detailed block diagram of a control unit of a transmitting terminal according to an embodiment of the present invention.
  • the transmission-side control unit 260 may include a voice processing unit 261, a text processing unit 262, an STT manager 263, and a media synchronization processing unit 266.
  • the transmission-side audio processing section 261 is a configuration for processing audio signals collected by the transmission-side microphone 220 to generate audio data.
  • the transmitting-side voice processing unit 261 may be an encoding unit for processing voice signals.
  • the voice data processed by the transmission-side voice processing unit 261 can be transmitted to the STT manager 263.
  • the transmission-side text processing section 262 is a configuration for switching the signals inputted from the transmission-side input section 210 and the transmission-side display section 240 of the input function into characters.
  • the STT manager 263 controls the voice recognition function of the transmitting terminal 200.
  • the STT manager 263 can control the voice processing unit 261 to perform voice recognition of the voice data transmitted by the voice processing unit 261 and switch to text.
  • the STT manager 263 delivers the voice data provided by the voice processing unit 261 to the voice recognition support apparatus in real time.
  • the test processed by the STT manager 263 is transmitted to the network support unit 265.
  • the transmission side network support unit 265 can support activation control of the transmission side communication unit 250 and formation of a PTT communication service channel with the reception side terminal 300 through the transmission side communication unit 250. It is possible to transmit at least one of the voice data transmitted from the voice processing unit 261 and the text data transmitted from the STT manager 263 to the receiving side terminal 300 through the transmitting side communication unit 250 after the connection of the PTT communication service channel .
  • the transmission side media synchronization processing unit 266 may receive the time stamp information from which the voice signal is collected from the voice processing unit 261 and may include the received time stamp information in the text transmitted through the voice recognition support apparatus 400 to the receiving side terminal 300 have.
  • the transmitting terminal 200 can operate the STT service according to the terminal setting.
  • the receiving terminal 300 supports connection of a corresponding communication service according to a communication service connection request of the transmitting terminal 200 and a mode set in the terminal.
  • the receiving-side input unit 310 is a configuration for generating various input signals required for the operation of the receiving-side terminal 300.
  • the input unit 310 may be formed in a button shape or provided as a touch map.
  • the generated input signal is transmitted to the control unit 360 and can perform the function support according to the input signal.
  • the receiver-side speaker 330 can support the output of the audio signal received by the receiver-side communication unit 350 in a configuration supporting the output of the audio signal of the receiver-side terminal 300.
  • the receiving side speaker 330 can be activated according to the control of the receiving side controller 360 to support the output of the audio signal.
  • the TTS service is supported according to the setting of the receiving side terminal 300, It is possible to output a voice signal to the received text.
  • the receiving-side display unit 340 provides various screen interfaces necessary for the operation of the receiving-side terminal 300.
  • the receiving side display unit 340 can provide respective screens according to the communication service type with the transmitting side terminal 200.
  • the receiving-side display unit 340 can individually output one of a screen showing a voice receiving state, a text service supporting screen, or a screen for outputting received text according to each service operation.
  • the receiving side communication unit 350 can form a communication channel with the transmitting side communication unit 250 of the transmitting side terminal 200. To this end, the receiving side communication unit 350 performs communication with the transmitting side communication unit 250 Module.
  • the receiving-side control unit 360 supports the signal control necessary for the operation of the receiving-side terminal 300 according to the embodiment of the present invention.
  • the receiving-side controller 360 can control signal control and data transmission for supporting communication service operation of the present embodiment.
  • FIG. 4 is a detailed block diagram of a controller of a receiving terminal according to an embodiment of the present invention.
  • the receiving-side control unit 360 includes a receiving-side audio processing unit 361, a receiving-side text processing unit 362, a TTS manager 364, a network support unit 365, and a media synchronization processing unit 366 .
  • the receiving-side voice processing unit 361 processes the voice signal transmitted through the PTT communication system and outputs voice.
  • the receiving-side text processing unit 362 may transmit the text transmitted through the PTT communication system to the receiving-side display unit 340 or transmit the text to the TTS manager 364 to perform the voice synthesizing function.
  • the TTS manager 364 controls the voice synthesis function of the reception-side terminal 300.
  • the TTS manager 364 can control the text data transmitted by the reception-side text processing unit 362 to be switched to speech through the speech synthesis support apparatus 500 under the control.
  • the TTS manager 364 delivers the text data provided by the reception-side text processing unit 362 to the speech synthesis support apparatus 500 in real time.
  • the reception side network support unit 365 can support activation control of the reception side communication unit 350 and formation of a PTT communication service channel with the transmission side terminal 200 through the reception side communication unit 350. [ After the PTT communication service channel connection, at least one of the voice and text data transmitted through the receiving side communication unit 350 may be transmitted to the voice processing unit 361 or the text processing unit 362.
  • the receiving side media synchronization processing unit 366 can arrange the text data so as to match the timestamp of the voice data using the time stamp information extracted from the text data transmitted from the transmitting terminal 200.
  • the transmitting terminal 200 generates text through speech recognition using the speech recognition support apparatus 400, and transmits the text to the receiving terminal 300
  • the receiving-side terminal 300 can convert the text into speech using the speech synthesis supporting apparatus 500 and output the same.
  • the transmitting terminal and the receiving terminal may form a separate channel to support text transmission / reception in a state where a service channel for PTT communication is formed.
  • the transmitting terminal can transmit the text generated according to the Speech To Text (STT) service operation, which provides text based on speech recognition, to the receiving terminal together with the voice data transmitted for voice call service support.
  • STT Speech To Text
  • the transmitting terminal can synchronize text and voice data using time stamp information in which voice signals corresponding to the generated text data are collected.
  • the receiving-side terminal can extract the time stamp information of the received voice data corresponding to the received text data from the data transmitted by the transmitting-side terminal.
  • the receiving-side terminal can use the extracted time stamp information to arrange the text data on the screen so as to match the received voice.
  • the voice recognition support apparatus and the voice synthesis support apparatus may be implemented as a single server system having a voice recognition function and a voice synthesis function or may be implemented as a first user terminal corresponding to the calling terminal and / In a service application form.
  • the service application may include a voice recognition function and a voice synthesis function.
  • 5 is a flowchart illustrating a push to talk communication service operation method according to another embodiment of the present invention.
  • 6 is an exemplary view of a display screen of a system using a push-to-talk communication service operating method according to another embodiment of the present invention.
  • the push to talk communication service operating method includes a PTT communication service including a first user terminal 20, a second user terminal 30, a voice recognition support device 400 and a voice synthesis support device 500 System.
  • the first user terminal 20 may correspond to a transmitting terminal and the second user terminal 30 may correspond to a receiving terminal, but the present invention is not limited thereto.
  • the second user terminal 30 may correspond to a second computing device capable of transmitting and receiving signals and data through a second mobile terminal or a network.
  • the first user terminal 20 and the second user terminal 30 can establish a communication channel according to either one of the requests and at least one of the responses .
  • the information and the address of the speech recognition support device supporting the PTT communication service and the speech synthesis support device can be shared at the time of setting the communication channel.
  • the speech recognition support apparatus and the speech synthesis support apparatus may be referred to as a first server and a second server, respectively.
  • the first server and the second server may be implemented as a single server system 600 having a voice recognition unit and a voice synthesis unit.
  • the process of sharing information and addresses with respect to the first server and the second server may be omitted in the case where the voice recognition support apparatus and the voice synthesis support apparatus are implemented in a form of a functional form of a service application or a software module, .
  • the first user terminal 20 transmits the PTT communication service (hereinafter, simply referred to as PTT service) To the first user terminal 30 (S53).
  • PTT service the PTT communication service
  • the PTT transmit button may be at least one specific hardware button of the first user terminal 20.
  • the PTT transmission button may be a button provided in the user interface of the service application for the PTT service installed in the first user terminal 20.
  • the buttons provided in the user interface include a graphical user interface, but the present invention is not limited thereto and may include a virtual button recognized by voice recognition or screen image processing.
  • the second user terminal 30 can output the voice data received from the first user terminal 20 through the speaker (S55).
  • the second user terminal 30 may request the speech recognition support apparatus 400 to perform text conversion on the voice data (S57).
  • This STT request may be performed according to the usage environment of the second user terminal 30, user setting, or real time user input command.
  • the STT request message may include voice data or may include identification information of voice data.
  • the speech recognition support apparatus 400 may generate the additional information according to the STT request (S59). Wherein the generation of the additional information may comprise converting the voice data into text data.
  • the converted text data may be transmitted again to the second user terminal 30 (S61).
  • the second user terminal 30 may output the received text data on the screen of the PTT service application or on a screen displaying a text message or a multimedia message (S63).
  • the voice recognition support apparatus 400 monitors the voice data of the first user terminal 20 and automatically stores or converts the voice data into text data according to a user setting corresponding to the first user terminal 20 , And the converted text data may be provided to the second user terminal 30 in which the current data channel is registered or the preset location or address.
  • the first user terminal 20 is also connected to the second user terminal 30 via the interactive text window 60 of the push to talk (PTT) service application 50, And the text message (70).
  • the interactive text window 60 may include a user interface such as a character input window 80, a transmission button 86, and a keyboard 90, or an input / output interface.
  • the second user terminal 30 may also output the text message of the user and the text message transmitted from the first user terminal 20 to the interactive text window through the PTT service application.
  • the first user terminal 20 or the PTT service application (also simply referred to as a service application) To the second user terminal 30 through the data communication network (S73).
  • the text message may include a TTS request message requesting to convert the text data into voice data.
  • the TTS request may be entered in a toggle manner or on / off manner via the TTS button 82 located in the interactive text window 60, as shown in FIG.
  • the voice synthesis support apparatus 500 monitors the text data of the service user or the text message containing the text data in real time on the TTS communication system including the data communication network, and, in accordance with the TTS request message, The text data may be converted into voice data and transmitted to the second user terminal 30 (S75, S77).
  • the speech synthesis supporting apparatus 500 is mounted on the first user terminal 20 in the form of a software module
  • the TTS manager of the first user terminal 20 (see 364 in FIG. 4)
  • the TTS module may be installed in the TTS module according to a predetermined processing procedure corresponding to the command or may be converted into voice to be transmitted to the second user terminal 30 in cooperation with an external voice synthesis support device.
  • a first user terminal establishes a communication channel with a second user terminal via a network
  • a push to talk service application provides text to speech (TTS) while supporting text-to- And generate a TTS request signal for converting the text data input from the user terminal into voice data in the interactive text window according to the detected TTS input / command.
  • TTS text to speech
  • the generated TTS request signal may be transmitted to the TTS manager of the service application installed in the user terminal that generated the signal. Further, according to the implementation, the generated TTS request signal may be transmitted to the voice synthesis support apparatus connected to the user terminal that generates the TTS request signal together with the corresponding text data through the network. In this case, the TTS manager or the voice synthesis support apparatus can convert the text data into voice data according to the TTS request signal, and operate so that the converted voice data is transmitted to the other terminal of the user terminal.
  • the method for operating a push to talk communication service is characterized in that, after a first user terminal establishes a communication channel with a second user terminal through a network, a push to talk service is executed in an interactive text window of a push to talk service application Secret dialog setting input can be detected while supporting text chat communication.
  • the secret conversation setting input may be generated or suspended in a toggle manner or in an active / inactive manner via a predetermined button (S, 84) disposed in the interactive text window 60 as shown in FIG.
  • the first user terminal 20 or the calling user terminal is switched to the voice transmission mode in the interactive text window according to the secret conversation setting input
  • the second user terminal 30 or the receiving- The operation mode can be switched to the text receiving mode according to the mode switching request signal corresponding to the secret conversation setting input from the side user terminal.
  • the service application installed on the calling side user terminal or the voice recognition support device connected to the first or second user terminal through the network converts the text data of the calling side user terminal into voice data according to the signal corresponding to the TTS request To the receiving side user terminal.
  • the text data may be transmitted to the receiving user terminal together with the voice data or separately so that the user of the receiving user terminal can check later.
  • the voice synthesis support apparatus 500 may provide a dummy message for a text message to the second user terminal 30 (S81 ).
  • the dummy message may include no text message, information indicating a record to which the text message is delivered, and location information where the text message is stored.
  • the user of the second user terminal 30 can transmit a signal requesting the corresponding text data to the speech synthesis support apparatus 500 or the like at a later time such as after the TTS request is terminated (S83) .

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

Disclosed are a service operation method for providing speech recognition-based text and converting and providing the text into speech data in a push-to-talk (PTT) service application, and a system using the same. A push-to-talk communication service operation method is a PTT communication service operation method that is implemented in an user terminal equipped with a push-to-talk service application capable of speech recognition, and comprises the steps of: converting speech data, that is inputted speech, received from the user terminal through a network, into text through a speech recognition technique and transmitting the text to a receiver; converting text data including the text into speech through a speech synthesis technique and outputting the speech; and applying the transmitted and received speech or text content to an interactive user interface, wherein the user terminal operates to output, through a speaker and a display screen, previously transmitted speech according to a user input or a predetermined input and the text converted by the speech recognition, such that an user can confirm the corresponding content.

Description

푸시투톡 통신 서비스 운용 방법 및 이를 이용하는 시스템Push to talk communication service operation method and system using the same
본 발명은 푸시투톡(push to talk) 서비스 애플리케이션에서 음성 인식 기반의 텍스트 제공 및 텍스트를 음성 데이터로 전환하여 제공하는 서비스 운용 방법과 이를 이용하는 시스템에 관한 것이다.BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a service providing method for providing text based on voice recognition and converting text into voice data in a push to talk service application, and a system using the method.
푸시투톡(push to talk, PTT) 통신은 상대방에게 음성을 전송하기 위한 버튼을 가압한 상태에서 상대방에게 음성을 전송하고, 버튼을 가압하지 않은 상태에서는 상대방으로부터 음성을 수신하는 양방향 통신 시스템으로서 일대일 또는 일대다수가 간단한 의사소통을 수행할 수 있는 통신 시스템이다.A push-to-talk (PTT) communication is a two-way communication system in which a voice is transmitted to the other party while a button for transmitting voice is pressed to the other party, and a voice is received from the other party in a state in which the button is not pressed. It is a communication system in which the majority of people can perform simple communication.
인터넷 프로토콜(internet protocol, IP) 기반 PTT 통신은 Wi-Fi, 2G, 3G, LTE 및 위성 등 다양한 무선통신 환경에서 이동통신 데이터망을 이용해 이동통신 단말기의 음성 서비스망을 이용하지 않고도 무전기처럼 음성을 송수신할 수 있다.Internet protocol (PTT) communication based on internet protocol (IP) enables voice communication like a walkie-talkie without using voice service network of mobile communication terminal by using mobile communication data network in various wireless communication environments such as Wi-Fi, 2G, 3G, LTE and satellite It can transmit and receive.
이러한 PTT 통신 기술은 유통, 운송, 물류, 공항, 공장, 건설현장 등에서 임무 하달, 상황 전파 등을 목적으로 기존 산업 현장에서의 협업을 위해 활용되고 있다.These PTT communication technologies are utilized for collaboration in existing industrial sites for the purpose of task assignment and distribution in distribution, transportation, logistics, airports, factories, and construction sites.
그러나, 국내 조선소, 자동차 공장, 건설 현장 등과 같이 환경이 열악한 곳에서 PPT 통신을 사용하는 경우, 사용자 주변 잡음이 매우 강하면, 발신자의 음성이 명확히 전달되지 않고 수신자가 발신자의 음성일 제대로 알아듣기 어렵다.However, when PPT communication is used in a poor environment such as a domestic shipyard, a car factory, or a construction site, if the user's surrounding noise is very strong, the voice of the caller is not clearly transmitted and it is difficult for the caller to properly understand the voice of the caller.
또한, PTT 통신 시, 발신자와 수신자간 의사전달의 매체가 음성이기 때문에 수신자가 다른 업무에 몰두하는 상황 등과 같이 수신자의 현재 상태와는 상관없이 발성자의 음성은 수신자 단말로 바로 전달되기 때문에 수신자가 발신자의 중요 전달 음성을 놓치는 경우도 빈번히 발생한다.Also, in PTT communication, since the voice of the speaker is directly transmitted to the recipient terminal regardless of the current state of the recipient, such as a situation where the recipient is engaged in another task because the medium of communication between the sender and the recipient is voice, The important transmission of voice is often missed.
상기와 같은 문제점을 개선하기 위한 본 발명의 목적은, 환경이 열악하여 음성 통신이 용이하지 않은 장소에서도 정확한 정보의 전달이 이루어질 수 있고, 모바일 기기 음성 기술과 무선통신 방법을 채용하여 음성의 내용을 시각적으로 보조하는 기능을 제공할 수 있는 푸시투톡(push to talk, PTT) 통신 서비스 운용 방법을 제공하는데 있다.SUMMARY OF THE INVENTION It is an object of the present invention to solve the above problems and provide a mobile communication terminal which can accurately transmit information even in a place where voice communication is not easy due to poor environment, And to provide a method of operating a push to talk (PTT) communication service capable of providing a visual assistance function.
본 발명의 다른 목적은, 실시간으로 전달되는 음성 데이터를 텍스트와 함께 대화 창 기반으로 순서대로 보여줌으로써 수신자가 발신자의 중요 전달사항을 놓치지 않도록 할 수 있는 푸시투톡 통신 서비스 운용 방법을 제공하는데 있다.Another object of the present invention is to provide a method of operating a push to talk communication service in which a recipient does not miss an important message of a caller by sequentially displaying voice data transmitted in real time along with text on a dialog window basis.
본 발명의 또 다른 목적은 음성 인식이 가능한 푸시투톡 서비스 애플리케이션(application)을 통해 사용자 단말에서 음성 통신시, 음성을 이용한 의사소통을 시각적으로 보조할 수 있는 푸시투톡 통신 서비스 운용 방법을 제공하는데 있다.It is another object of the present invention to provide a push to talk communication service operating method capable of visually assisting voice communication in voice communication at a user terminal through a push to talk service application capable of voice recognition.
본 발명의 또 다른 목적은 상술한 푸시투톡 통신 서비스 운용 방법을 이용하는 시스템을 제공하는데 있다.It is still another object of the present invention to provide a system using the push to talk communication service operating method.
상기 기술적 과제를 해결하기 위한 본 발명의 일 측면에 따른 푸시투톡(push to talk, PTT) 통신 서비스 운용 방법은, 음성 인식이 가능한 푸시투톡(PTT) 서비스 앱을 탑재한 사용자 단말기에서 구현되는 PTT 통신 서비스 운용 방법으로서, 사용자 단말기로부터 네트워크를 통해 수신한 음성 데이터 즉 입력되는 음성을 음성 인식 기술을 통해 텍스트로 변환하여 수신자에게 전달하는 단계; 상기 텍스트를 포함한 텍스트 데이터를 음성 합성 기술을 통해 음성으로 변환하여 음성으로 출력하는 단계; 송수신된 음성 또는 텍스트 내용을 대화형 사용자 인터페이스(user interface, UI)를 적용하는 단계를 포함하며, 사용자 단말기는 사용자 입력이나 미리 지정된 입력에 따라 이전에 전달된 음성 및 음성 인식으로 변환된 텍스트를 스피커와 디스플레이 화면으로 출력하여 사용자가 해당 콘텐츠를 확인하도록 동작할 수 있다.According to an aspect of the present invention, there is provided a method of operating a push to talk (PTT) communication service according to an aspect of the present invention includes: transmitting a PTT communication service, which is implemented in a user terminal equipped with a push to talk A method of operating a service, the method comprising: converting voice data received through a network from a user terminal, that is, input voice, into text through a voice recognition technique and transmitting the text to a receiver; Converting the text data including the text into speech through a speech synthesis technique and outputting the speech; The method comprising the steps of applying an interactive user interface (UI) to the transmitted or received voice or text content, wherein the user terminal transmits text previously converted to voice and speech recognition according to a user input or a pre- And a display screen so that the user can confirm the contents.
상기 기술적 과제를 해결하기 위한 본 발명의 다른 측면에 따른 푸시투톡 통신 서비스 운용 방법은, 제1 사용자 단말이 네트워크를 통해 제2 사용자 단말과 통신 채널을 설정하는 단계; 및 푸시투톡(push to talk) 서비스 애플리케이션의 대화형 텍스트 창에서 텍스트 대화 통신을 지원하는 중에 TTS(text to speech) 입력을 감지하는 단계; 및 상기 TTS 입력에 따라 상기 대화형 텍스트 창에서 제1 또는 제2 사용자 단말에서 입력되는 텍스트 데이터를 음성 데이터로 변환하기 위한 TTS 요청 신호를 생성하는 단계를 포함한다.According to another aspect of the present invention, there is provided a method of operating a push to talk communication service, the method comprising: establishing a communication channel with a second user terminal through a network; And detecting text to speech (TTS) input while supporting text-to-speech communication in an interactive text window of a push to talk service application; And generating a TTS request signal for converting the text data input from the first or second user terminal into voice data in the interactive text window according to the TTS input.
일실시예에서, 상기 TTS 요청 신호는 이 신호를 생성한 상기 제1 또는 제2 사용자 단말에 탑재된 서비스 애플리케이션의 TTS 매니저에게 전달될 수 있다. 또한, 구현에 따라서, 상기 TTS 요청 신호는 해당 텍스트 데이터와 함께 이 신호를 생성한 상기 제1 또는 제2 사용자 단말과 네트워크를 통해 연결되는 음성 합성 지원 장치에 전달될 수 있다. 상기의 TTS 매니저 또는 음성 합성 지원 장치는 TTS 요청 신호에 따라 텍스트 데이터를 음성 데이터로 변환하여 생성한 사용자 단말의 상대방 단말에 전송될 수 있다.In one embodiment, the TTS request signal may be communicated to a TTS manager of a service application installed in the first or second user terminal that generated the signal. In addition, according to the implementation, the TTS request signal may be transmitted to the speech synthesis supporting apparatus connected to the first or second user terminal through the network, which generates the TTS request signal together with the corresponding text data. The TTS manager or the voice synthesis support apparatus can be transmitted to the counterpart terminal of the user terminal that converts the text data into voice data according to the TTS request signal.
상기 기술적 과제를 해결하기 위한 본 발명의 또 다른 측면에 따른 푸시투톡 통신 서비스 운용 방법은, 제1 사용자 단말이 네트워크를 통해 제2 사용자 단말과 통신 채널을 설정하는 단계; 및 푸시투톡(push to talk) 서비스 애플리케이션의 대화형 텍스트 창에서 텍스트 대화 통신을 지원하는 중에 비밀(secret) 대화 설정 입력을 감지하는 단계; 및 상기 비밀 대화 설정 입력에 따라 상기 대화형 텍스트 창에서 발신측 사용자 단말은 음성 송신 모드로 모드 전환되는 단계를 포함하며, 여기서 수신측 사용자 단말은 발신측 사용자 단말로부터의 상기 비밀 대화 설정 입력에 대응하는 모드 전환 요청 신호에 따라 텍스트 수신모드로 작동모드를 전환한다.According to another aspect of the present invention, there is provided a method of operating a push to talk communication service, the method comprising: establishing a communication channel with a second user terminal through a network; And detecting a secret conversation setting input while supporting a text conversation communication in an interactive text window of a push to talk service application; And changing the mode of the calling user terminal to the voice transmission mode in the interactive text window according to the secret conversation setting input, wherein the receiving user terminal responds to the secret conversation setting input from the calling user terminal And switches the operation mode to the text reception mode according to the mode change request signal.
일실시예에서, 상기 발신측 사용자 단말에 탑재되는 서비스 애플리케이션이나 상기 제1 및 제2 사용자 단말들과 네트워크를 통해 연결되는 음성 인식 지원 장치는 상기 비밀 대화 설정 입력에 대응하는 신호에 따라 상기 발신측 사용자 단말의 음성 데이터를 텍스트 데이터로 변환하여 수신측 사용자 단말에 제공할 수 있다. 여기서, 음성 데이터는 수신자가 나중에 확인할 수 있도록 상기 텍스트 데이터와 함께 혹은 별도로 수신측 사용자 단말에 전송될 수 있다.In one embodiment, a service application installed on the calling user terminal or a voice recognition support device connected via a network with the first and second user terminals may be configured to allow the calling party The voice data of the user terminal can be converted into text data and provided to the receiving side user terminal. Here, the voice data may be transmitted to the receiving user terminal together with or separately from the text data so that the receiver can check later.
상기 기술적 과제를 해결하기 위한 본 발명의 또 다른 측면에 따른 푸시투톡 통신 서비스 운용 방법을 이용하는 시스템은, 사용자 단말이나 상대방 단말에 탑재되는 음성 인식이 가능한 푸시투톡 서비스 애플리케이션을 포함하는 시스템으로서, 발신측 단말기는 음성을 전송하기 위한 버튼을 가압한 상태에서 음성 신호를 스피치투텍스트(speech to text, STT) 기능으로 문자로 변환하는 제1 기능부; 음성과 함께 변환된 텍스트를 다중으로 동시에 전송하는 제2 기능부; 및 음성으로 발신된 내용은 같이 전달한 문자와 맵핑되어 키워드 검색을 통해 전달한 PTT 음성 내용을 다시 확인할 수 있도록 지원하는 제3 기능부를 포함한다. 또한, 수신측 무선 단말기는 수신된 음성과 더불어 수신된 텍스트를 화면에 대화창 형태로 제공하는 제4 기능부; 음성이 수신되지 않은 경우 텍스트투스피치(text to speech, TTS) 기능으로 기수신된 텍스트를 실시간 음성으로 변환하여 출력하는 제5 기능부; 및 음성으로 수신된 내용은 같이 전달된 텍스트와 맵핑되어 키워드 검색을 통해 전달된 PTT 음성 내용을 다시 확인할 수 있도록 지원하는 제6 기능부를 포함한다.According to another aspect of the present invention, there is provided a system using a push to talk communication service method, the system including a push to talk service application capable of voice recognition mounted on a user terminal or a counterpart terminal, The terminal includes a first functional unit for converting a voice signal into a text to speech-to-text (STT) function while pressing a button for transmitting voice; A second function unit for simultaneously transmitting a plurality of converted texts together with speech; And a third function unit for mapping the contents transmitted with voice to the characters transmitted together to support the PTT voice contents delivered through the keyword search again. The receiving-side wireless terminal may further include a fourth functional unit for providing the received text along with the received voice on a screen in the form of a dialog window; A fifth function unit for converting a text received through a text to speech (TTS) function into a real time voice and outputting the same if the voice is not received; And a sixth function unit for mapping the contents received by voice to the transmitted text and supporting the PTT voice contents delivered through the keyword search again.
일실시예에서, 발신측 단말기는 푸시투톡 서비스 어플리케이션을 탑재하는 모바일 단말 또는 무선 단말기로서, 음성을 전송하기 위한 버튼이 가압된 상태에서 음성 발신 서비스를 수행하는 제 1모드, 음성 발신과 더불어 음성 기반으로 변환된 텍스트 전송 서비스를 수행하는 제 2 모드 및 텍스트만 전달하는 제 3모드 중 어느 하나의 모드로 동작하고, 음성인식 서비스가 실행되지 않은 경우에 상기 제 1모드 및 상기 제 3모드 중 어느 하나를 수행할 수 있다.In one embodiment, the calling terminal is a mobile terminal or a wireless terminal that is equipped with a push to talk service application. The first mode is a first mode in which a button for transmitting a voice is pressed in a pressed state, A second mode for performing a text transmission service converted to a text mode and a third mode for transmitting only text, and in the case where the voice recognition service is not executed, Can be performed.
일실시예에서, 수신측 단말기는 푸시투톡 서비스 어플리케이션을 탑재하는 모바일 단말 또는 무선 단말기로서, 음성을 전송하기 위한 버튼을 미가압한 상태에서 음성 수신 서비스를 수행하는 제 1모드, 음성 수신과 더불어 수신된 텍스트를 화면에 대화창 형태로 시각적으로 보여주는 제 2모드, 텍스트만 전달되었을 경우 텍스트를 대화 창 형태로 보여주는 제 3모드 및 텍스트를 음성으로 변환하여 들려주는 제 4모드 중 어느 하나의 모드로 동작하고, 음성 합성 서비스가 실행되지 않는 경우에는 상기 제 1모드 및 상기 제 3모드 중 어느 하나를 수행할 수 있다.In one embodiment, the receiving-side terminal is a mobile terminal or a wireless terminal equipped with a push to talk service application. The first mode is a mode in which a voice receiving service is performed while the button for transmitting voice is not pressed. A second mode for visually displaying the text in a form of a dialog window on the screen, a third mode for displaying the text in the form of a dialog window when the text is only delivered, and a fourth mode for converting the text into speech , And if the voice synthesis service is not executed, the first mode or the third mode may be performed.
일실시예에서, 상기 서비스 어플리케이션은 송수신된 음성과 음성을 기반으로 변환된 텍스트를 하나의 그룹으로 맵핑하고 키워드를 통해 송수신된 문자 내역을 찾는 기능을 제공하고 검색된 문자와 연관된 음성 대화내용을 출력하여 사용자가 확인할 수 있도록 지원하는 기능을 포함할 수 있다.In one embodiment, the service application maps the converted text based on voice and voice transmitted and received to a group, provides a function of searching for a character history sent and received through a keyword, and outputs voice conversation contents associated with the retrieved character And a function for supporting the user's confirmation.
상기 기술적 과제를 해결하기 위한 본 발명의 또 다른 측면에 따른 푸시투톡 통신 서비스 운용 방법을 이용하는 시스템은, 사용자 단말과 네트워크를 통해 연결되는 서버를 포함하는 시스템으로서, 네트워크를 통해 접근한 제1 사용자 단말 또는 제2 사용자 단말로부터 PTT 서비스 애플리케이션에 대한 다운로드 요청 신호를 수신하는 단계; 및 상기 다운로드 요청 신호에 응하여 상기 PTT 서비스 애플리케이션을 상기 제1 사용자 단말 또는 상기 제2 사용자 단말에 제공하는 단계를 포함한다. 여기서, PTT 서비스 애플리케이션은 대화형 텍스트 창을 제공한다.According to another aspect of the present invention, there is provided a system using a push to talk communication service, the system including a server connected to a user terminal through a network, the system comprising: a first user terminal Or receiving a download request signal for a PTT service application from a second user terminal; And providing the PTT service application to the first user terminal or the second user terminal in response to the download request signal. Here, the PTT service application provides an interactive text window.
일실시예에서, 상기 PTT 서비스 애플리케이션은 대화형 텍스트 창의 사용자 인터페이스를 통해 활성되는 비밀 대화 요청 또는 미리 설정된 요청에 따라 발신측 사용자 단말의 작동 모드를 음성 입력 모드로 제어할 수 있다.In one embodiment, the PTT service application may control the operating mode of the calling user terminal in voice input mode according to a secret chat request or a pre-established request that is activated via the user interface of the interactive text window.
일실시예에서, 상기 PTT 서비스 애플리케이션은 대화형 텍스트 창의 사용자 인터페이스를 통해 활성되는 비밀 대화 요청 또는 미리 설정된 요청에 따라 수신측 사용자 단말의 작동 모드를 텍스트 출력 모드로 제어할 수 있다.In one embodiment, the PTT service application may control the operation mode of the receiving side user terminal in a text output mode according to a secret conversation request or a predetermined request that is activated through the user interface of the interactive text window.
일실시예에서, 상기 PTT 서비스 애플리케이션은 대화형 텍스트 창의 다른 사용자 인터페이스를 통해 활성되는 TTS 요청에 따라 발신측 사용자 단말의 텍스트 데이터를 자동으로 음성 데이터로 변환하여 수신측 사용자 단말에 전송할 수 있다.In one embodiment, the PTT service application may automatically convert the text data of the calling user terminal to voice data and transmit the voice data to the receiving user terminal according to a TTS request activated through another user interface of the interactive text window.
일실시예에서, 상기 푸시투톡 통신 서비스 운용 방법을 이용하는 시스템은, 모바일 단말, 퍼스널 컴퓨터 또는 데스크탑 컴퓨터를 포함할 수 있다.In one embodiment, the system using the push to talk communication service operating method may comprise a mobile terminal, a personal computer, or a desktop computer.
상기의 푸시투톡 통신 서비스 운용 방법 및 이를 이용하는 시스템을 사용하는 경우에는, 음성 인식이 가능한 푸시투톡(push to talk, PTT) 서비스 애플리케이션(application)을 통해 사용자 단말이 상대방 단말과 음성 통신을 수행할 때, 음성에 기초한 텍스트 등과 같이 의사소통을 시각적으로 보조받을 수 있다.In the case of using the push to talk communication service operating method and a system using the push to talk communication service method, when the user terminal performs voice communication with the counterpart terminal through a push to talk (PTT) service application capable of voice recognition , Text based on voice, and the like.
또한, 본 발명에 의하면, 음성 인식이 가능한 푸시투톡 서비스 애플리케이션을 탑재하여 상술한 푸시투톡 통신 서비스 운용 방법을 이용하는 시스템으로서 모바일 단말, 퍼스널 컴퓨터 등의 각종 사용자 단말이나 상대방 단말을 제공할 수 있고, 이에 의해 단일 서비스 애플리케이션의 설치만으로 다양한 사용자, 다양한 환경에 용이하게 적용할 수 있는 음성 인식 지원 푸시투톡 서비스를 제공할 수 있다.Further, according to the present invention, it is possible to provide various user terminals such as a mobile terminal and a personal computer, or a counterpart terminal, as a system using a push to talk service application method capable of voice recognition and using the push to talk communication service operation method described above, It is possible to provide a voice recognition support push to talk service that can be easily applied to various users and various environments only by installing a single service application.
또한, 본 발명에 의하면, 소음이 심하여 음성 수신이 어려운 수신자의 환경에서도 발신자의 실시간 전달 내용을 명확히 인지할 수 있도록 하는 대체 방안을 제공할 수 있다.In addition, according to the present invention, it is possible to provide an alternative method for clearly recognizing the real-time delivery contents of a caller even in a receiver environment where noise is strong and voice reception is difficult.
또한, 본 발명에 의하면, 일정 시간이 경과 된 후에도 PTT 통신의 음성 내용을 키워드 검색을 통해 수신자 단말에서 확인하는 것이 가능하다.Further, according to the present invention, it is possible to confirm the voice contents of the PTT communication at a receiver terminal through keyword search even after a predetermined time has elapsed.
더불어, 보안이 요구되거나 PTT 음성 통신이 힘든 수신자 상황에서는 발신 측의 음성이 텍스트만으로도 전달되기 때문에 상황에 맞게 PTT 통신 서비스의 작동 모드를 설정하는 것이 가능하다. 이것은 다양한 사용 환경에 대한 적응력을 높여 사용자 편의성을 크게 향상시킬 수 있다. 또한, 상황에 맞는 PPT 통신 서비스의 작동 모드르 제공함으로써 실질적으로 데이터망 측면에서 망 부하를 감소시킬 수 있는 장점이 있다.In addition, in a receiver situation where security is required or PTT voice communication is difficult, it is possible to set the operation mode of the PTT communication service according to the situation because the voice of the calling side is transmitted by text alone. This improves the usability of the system by increasing the adaptability to various usage environments. In addition, by providing an operating mode of the PPT communication service according to the situation, it is possible to substantially reduce the network load in terms of the data network.
도 1은 본 발명의 실시예에 따른 푸시투톡(PTT) 통신 서비스 운용 시스템의 구성을 개략적으로 나타낸 도면이다.1 is a diagram schematically showing a configuration of a push to talk (PTT) communication service operating system according to an embodiment of the present invention.
도 2는 도 1의 시스템에 채용가능한 송신측 단말기 및 수신측 단말기의 구성을 보다 상세히 나타낸 도면이다.FIG. 2 is a detailed diagram showing a configuration of a transmitting-side terminal and a receiving-side terminal that can be employed in the system of FIG.
도 3은 본 발명의 실시예에 따른 송신측 단말기의 제어부 구성을 보다 상세히 나타낸 도면이다.3 is a detailed block diagram of a control unit of a transmitting terminal according to an embodiment of the present invention.
도 4는 본 발명의 실시예에 따른 수신측 단말기의 제어부 구성을 보다 상세히 나타낸 도면이다.4 is a detailed block diagram of a controller of a receiving terminal according to an embodiment of the present invention.
도 5는 본 발명의 다른 실시예에 따른 푸시투톡 통신 서비스 운용 방법에 대한 흐름도이다.5 is a flowchart illustrating a push to talk communication service operation method according to another embodiment of the present invention.
도 6은 본 발명의 또 다른 실시예에 따른 푸시투폭 통신 서비스 운용 방법을 이용하는 시스템의 디스플레이 화면에 대한 예시도이다.6 is an exemplary view of a display screen of a system using a push-to-talk communication service operating method according to another embodiment of the present invention.
이하에서는 본 발명의 실시예들을 첨부 도면을 참조하여 상세히 설명한다. 실시예를 설명함에 있어 본 발명이 속하는 기술 분야에 잘 알려져 있고 본 발명과 직접적인 관련이 없는 기술 내용에 대해서는 설명을 생략한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings. In the following description of the exemplary embodiments of the present invention, descriptions of known techniques that are well known in the art and are not directly related to the present invention will be omitted.
하기의 실시예는 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지며 사전에 정의된 용어와 같이 일반적으로 사용되는 용어는 관련 기술의 문맥상의 의미와 일치하는 것으로 해석되어야 한다. 하기의 실시예는 본 발명의 사상이 충분히 전달될 수 있도록 하기 위해 예로서 제공되는 것으로 본 발명은 이하 설명되는 실시예에 한정되지 않고 다른 형태로 구체화될 수 있다.The following examples have the same meaning as commonly understood by one of ordinary skill in the art and commonly used terms such as predefined terms should be construed as being consistent with the contextual meanings of the related art. The following embodiments are provided as examples so that the ideas of the present invention can be sufficiently transmitted, and the present invention is not limited to the embodiments described below, but may be embodied in other forms.
도 1은 본 발명의 실시예에 따른 푸시투톡(PTT) 통신 서비스 운용 시스템의 구성을 개략적으로 나타낸 도면이다.1 is a diagram schematically showing a configuration of a push to talk (PTT) communication service operating system according to an embodiment of the present invention.
도 1에 보여지는 바와 같이, 본 실시예의 PTT 통신 서비스 시스템은, 모바일 단말기가 PTT(Push To Talk) 통신 서비스를 기반으로 외부 단말기와 PTT 통신을 수행하기 위한 구성을 구비한다. 즉, PTT 통신 서비스 운용 시스템은 PPT 통신 시스템(100), 송신측 단말기(200), 수신측 단말기(300), 음성 인식 지원 장치(400) 및 음성 합성 지원 장치(500)를 포함할 수 있다. 음성 인식 지원 장치(400)는 음성 처리 지원 장치로 지칭될 수 있다. 또한, 별도의 서버 및 그 기능적 측면에서 음성 인식 지원 장치(400)는 제1 서버로 지칭되는 음성 합성 지원 장치(500)는 제2 서버로 지칭될 수 있다.As shown in FIG. 1, the PTT communication service system of the present embodiment has a configuration in which a mobile terminal performs PTT communication with an external terminal based on a PTT (Push To Talk) communication service. That is, the PTT communication service operating system may include the PPT communication system 100, the transmitting terminal 200, the receiving terminal 300, the voice recognition support device 400, and the voice synthesis support device 500. The speech recognition support apparatus 400 may be referred to as a speech processing support apparatus. Further, in the separate server and its functional aspects, the speech synthesis supporting apparatus 500, which is referred to as a first server, may be referred to as a second server.
본 실시예의 PTT 통신 서비스 운용 시스템에서, 송신측 단말기(200)는 사용자에 의해 음성을 송신하기 위한 버튼이 가압되거나 활성화된 상태에서 가압 신호 혹은 활성화 신호에 따라 사용자의 음성 신호를 수신측 단말기(300)로 송신한다. PTT 통신 서비스가 운용되는 동안, 단말기에 기 설정된 동작 모드나 사용자의 선택에 따라 음성 인식 지원 장치(400)가 운용되어 발신측 단말기에서 송신되는 데이터의 부가적인 정보가 생성될 수 있다. 이에 의하면, 사용자 환경에 맞는 통신 부가 서비스가 운용될 수 있다.In the PTT communication service operating system of the present embodiment, the transmitting terminal 200 transmits a user's voice signal to the receiving terminal 300 (300) in response to a pressing signal or an activating signal in a state where a button for transmitting a voice by a user is pressed or activated ). During the operation of the PTT communication service, the speech recognition support apparatus 400 may be operated according to a predetermined operation mode or a user's selection, and additional information of data transmitted from the calling terminal may be generated. According to this, the communication additional service can be operated in accordance with the user environment.
또한, 수신측 단말기(300)는 PTT 통신 서비스가 운용되는 동안, 단말기에 기 설정된 동작 모드나 사용자의 선택에 따라 음성 합성 지원 장치(500)를 운용하여 수신되는 텍스트 데이터를 음성 데이터로 변환하고 변환된 음성 데이터를 스피커를 통해 출력할 수 있다. 이에 의하면, 사용자 환경에 맞는 통신 부가 서비스가 운용될 수 있다.In addition, while the PTT communication service is being operated, the receiving terminal 300 operates the voice synthesis support apparatus 500 according to a predetermined operation mode or a user's selection, converts the received text data into voice data, Audio data can be outputted through the speaker. According to this, the communication additional service can be operated in accordance with the user environment.
여기서 부가 서비스는 사용자로부터의 음성 신호를 텍스트로 전달하는 서비스 또는 수신된 텍스트를 음성으로 전환하여 출력하는 서비스 중 하나가 될 수 있다.Here, the supplementary service can be one of a service for transmitting a voice signal from a user as text or a service for converting received text into voice and outputting the voice.
좀더 구체적으로 설명하면, 송신측 단말기(200)가 수신측 단말기(300)와 데이터 통신 채널을 형성하면, PTT 통신 서비스 운용 시스템은 각 단말기에서 기 설정된 설정 모드 혹은 사용자 설정에 따라 음성 인식 지원 장치(400) 및 음성 합성 지원 장치(500) 중 적어도 하나를 운용할 수 있다.More specifically, if the transmitting terminal 200 forms a data communication channel with the receiving terminal 300, the PTT communication service operating system may be configured to transmit the data to the voice recognition supporting device 400 and the speech synthesis support apparatus 500. [0054] FIG.
예를 들어, 송신측 단말기(200)는 사용자에 의해 음성을 송신하기 위한 버튼이 가압되어 가압신호가 생성되었을 때, 사용자로부터의 음성 신호를 인식하여 텍스트를 생성하는 STT(speech to text) 서비스를 운용할 수 있다. 이 경우 송신측 단말기(200)는 수집된 음성 데이터를 PTT 통신 시스템(네트워크에 대응함)을 통해 수신측 단말기(300)로 전달함과 동시에 음성 인식 지원 장치(400)에서 음성 인식을 수행하여 텍스트로 변환할 수 있다. 이는 PTT 통신 서비스의 특징을 가능한 위배하지 않는 범위내에서 부가서비스를 제공하기 위함이다.For example, when a button for transmitting a voice is pressed by a user and a pressing signal is generated, the transmitting terminal 200 receives a speech to text (STT) service for recognizing a voice signal from the user and generating text Can be operated. In this case, the transmitting terminal 200 transmits the collected voice data to the receiving terminal 300 through the PTT communication system (corresponding to the network), and at the same time performs voice recognition in the voice recognition support device 400, Can be converted. This is to provide additional services within a range that does not violate the characteristics of the PTT communication service as much as possible.
또한, 수신측 단말기(300)는 수신된 텍스트를 음성으로 변환하는 TTS(text to speech) 서비스를 운용할 수 있다. 이 경우 수신측 단말기(300)는 수신된 텍스트를 표시부(340)에 출력하거나 음성 합성 지원 장치(500)를 통해 음성 데이터로 변환하여 스피커(330)로 출력할 수 있다.Also, the receiving terminal 300 can operate a text to speech (TTS) service for converting the received text into voice. In this case, the receiving terminal 300 may output the received text to the display unit 340 or convert it into voice data through the voice synthesis support apparatus 500 and output the voice data to the speaker 330.
음성 인식 지원 장치(400)는 송신측 단말기(200)의 요청에 따라 송신측 단말기(200)가 제공한 음성 데이터를 인식하고, 인식된 음성을 텍스트로 변환하여 송신측 단말기(200)에 제공하는 구성이다. 이러한 음성 인식 지원 장치(400)는 송신측 단말기(200)와 무선 통신 예를 들면 와이파이나 근거리 무선통신을 통하여 접속할 수 있는 별도의 서버 형태로 구현되거나, 이동 통신시스템이나 인터넷 네트워크를 통해 접속할 수 있는 별도의 서버 형태로 구현되거나, 발신측 또는 수신측 사용자 단말기에서 내부적으로 구동되는 서비스 애플리케이션 형태로 구현될 수 있다.The voice recognition support apparatus 400 recognizes the voice data provided by the transmitting terminal 200 at the request of the transmitting terminal 200 and converts the recognized voice into text and provides it to the transmitting terminal 200 . The speech recognition support apparatus 400 may be implemented as a separate server type that can be connected to the transmitting terminal 200 through wireless communication, for example, Wi-Fi or short-range wireless communication, Or may be implemented in a separate server form, or in the form of a service application internally driven by a calling or receiving user terminal.
음성 합성 지원 장치(500)는 수신측 단말기(300)의 TTS 서비스 지원을 위하여 전달된 텍스트를 인식하고, 인식된 텍스트를 음성 데이터로 변환하여 수신측 단말기(300)에 제공하는 구성이다. 이러한 음성 합성 지원 장치(500)는 수신측 단말기(300)와 와이파이나 근거리 무선통신 방식으로 접속할 수 있는 별도의 서버 형태로 구현되거나 이동 통신시스템이나 인터넷 네트워크를 통해 접속할 수 있는 별도의 서버 형태로 구현되거나 혹은 단말기 내부적으로 구동되는 형태로 구현될 수 있다.The voice synthesis support apparatus 500 recognizes the text transferred to support the TTS service of the receiving terminal 300, converts the recognized text into voice data, and provides the voice data to the receiving terminal 300. The voice synthesis support apparatus 500 may be implemented as a separate server that can be connected to the reception-side terminal 300 through a Wi-Fi or a short-range wireless communication scheme or as a separate server type that can be accessed through a mobile communication system or an Internet network Or may be implemented in a form that is driven internally by the terminal.
위에서 설명한 바와 같이 본 실시예에 따른 PTT 통신 서비스 운용 시스템은 음성 인식 기능을 이용하여 음성 신호에 대하여 텍스트로 변환하여 제공하고, 음성 합성 기능을 이용하여 텍스트를 음성으로 변환하여 제공함으로써 단말기 사용자들의 상황에 따라 보다 적절한 통신 서비스 환경을 이용하도록 지원할 수 있다.As described above, the PTT communication service operating system according to the present embodiment converts a voice signal into text using a voice recognition function, and converts the text into voice using a voice synthesis function, To utilize a more appropriate communication service environment.
이하의 설명에서는 송신측 단말기(200)와 수신측 단말기(300)의 구성을 각기 구분되는 구성들로 도시하고 그에 대하여 설명하지만 본 발명이 이에 한정되는 것은 아니다. 즉 송신측 단말기(200)는 수신측 단말기(300)와 PTT통신 서비스를 이용하는 과정에서 수신측 단말기 역할을 수행할 수 있으며, 또한 수신측 단말기(300)는 송신측 단말기 역할을 수행할 수도 있다. 결과적으로 이하에서 설명하는 송신측 단말기(200) 및 수신측 단말기(300)의 구성은 하나의 PTT통신 단말기에 통합된 형태로 장착될 수 있을 것이다.In the following description, the configurations of the transmitting terminal 200 and the receiving terminal 300 are illustrated as separate configurations, but the present invention is not limited thereto. That is, the transmitting terminal 200 may serve as a receiving terminal in the process of using the PTT communication service with the receiving terminal 300, and the receiving terminal 300 may serve as a transmitting terminal. As a result, the configurations of the transmitting terminal 200 and the receiving terminal 300, which will be described below, may be integrated into one PTT communication terminal.
이에 따라 송신측 단말기(200)의 구성은 수신측 단말기(300)가 송신 기능을 수행하는 동안 가질 수 있는 구성으로 이해될 수 있으며, 또한 수신측 단말기(300)의 구성은 송신측 단말기(200)가 수신 기능을 수행하는 동안 가질 수 있는 구성으로 이해될 수 있을 것이다.Accordingly, the configuration of the transmitting terminal 200 can be understood as a configuration that the receiving terminal 300 can have while performing the transmitting function, and the configuration of the receiving terminal 300 can be understood as a constitution of the transmitting terminal 200, May be understood as a configuration that can be provided during the reception function.
도 2는 도 1의 시스템에 채용가능한 송신측 단말기 및 수신측 단말기의 구성을 보다 상세히 나타낸 도면이다.FIG. 2 is a detailed diagram showing a configuration of a transmitting-side terminal and a receiving-side terminal that can be employed in the system of FIG.
도 2를 참조하면, 송신측 단말기(200)는 음성 인식 지원 장치(400)을 이용하여 음성 신호를 텍스트로 전환하고 이를 수신측 단말기(300)에 전송할 수 있다.Referring to FIG. 2, the transmitting terminal 200 can convert a voice signal into text using the voice recognition support apparatus 400 and transmit the converted voice to the receiving terminal 300.
본 실시예에 따른 PTT 통신 서비스 운용을 지원하기 위하여 송신측 단말기(200)는 입력부(210), 마이크(220), 표시부(240), 통신부(250) 및 제어부(260) 의 구성을 포함할 수 있다.The transmitting terminal 200 may include a configuration of the input unit 210, the microphone 220, the display unit 240, the communication unit 250, and the control unit 260 in order to support the PTT communication service operation according to the present embodiment. have.
이와 같은 구성을 가지는 본 발명의 송신측 단말기(200)는 음성 인식 지원 장치(400)을 운용하여 사용자로부터 입력된 음성 신호에 대하여 텍스트로 전환한 후 이를 수신측 단말기(300)에 전송하는 STT(Speech To Text) 서비스를 지원한다. 이를 위하여 송신측 단말기(200)는 단말기 설정에 따라 마이크(220)가 수집하는 음성 신호를 음성 인식하여 텍스트로 변환하도록 제어할 수 있다. The transmitting terminal 200 of the present invention having the above-described configuration operates the voice recognition support apparatus 400 and converts the voice signal inputted from the user into text and transmits it to the receiving terminal 300 Speech To Text) service. To this end, the transmitting terminal 200 can control voice conversion of the voice signal collected by the microphone 220 according to the terminal setting by voice recognition.
송신측 입력부(210)는 송신측 단말기(200) 운용에 필요한 다양한 입력 신호를 생성하는 구성이다. 입력부(210)는 사용자의 의해 음성을 송신하기 위한 버튼 형태로 형성되거나 터치맵으로 제공될 수 있다. 생성된 입력 신호는 제어부(260)에 전달되어 해당 입력 신호에 따른 기능 지원을 수행할 수 있다.The transmission-side input unit 210 generates various input signals required for operation of the transmission-side terminal 200. The input unit 210 may be formed as a button for transmitting a voice by a user or may be provided as a touch map. The generated input signal is transmitted to the controller 260 and can perform a function support according to the input signal.
송신측 마이크(220)는 송신측 단말기(200)의 기능 운용에 따라 활성화되어 주변 오디오 신호 특히 음성 신호를 수집하는 구성이다. 송신측 마이크(220)가 수집한 음성 신호는 송신측 제어부(260)에 전달되며, 송신측 제어부(260)의 제어에 따라 음성 인식되어 텍스트로 변환되어 수신측 단말기(200)에 전달될 수 있다.The transmitting-side microphone 220 is activated according to the functioning of the transmitting-side terminal 200 to collect a surrounding audio signal, particularly a voice signal. The voice signal collected by the transmission-side microphone 220 is transmitted to the transmission-side control unit 260, is voice-recognized under the control of the transmission-side control unit 260, converted into text and transmitted to the reception-side terminal 200 .
송신측 표시부(240)는 송신측 단말기(200) 운용에 필요한 다양한 화면 인터페이스를 제공하는 구성이다. 송신측 표시부(240)는 수신측 단말기(300)와의 통신 서비스 종류에 따라 각각의 화면을 제공할 수 있다. 예를 들면 송신측 표시부(240)는 음성 송신 상태를 나타내는 화면, 텍스트 서비스 지원 화면 또는 음성 인식으로 생성된 텍스트를 출력하는 화면 중 하나를 각 서비스 운용에 따라 개별적으로 출력할 수 있다.The transmission-side display unit 240 provides various screen interfaces necessary for operation of the transmission-side terminal 200. [ The transmitting-side display unit 240 can provide respective screens according to the type of communication service with the receiving-side terminal 300. [ For example, the transmission-side display unit 240 can output one of a screen showing a voice transmission status, a text service support screen, or a screen for outputting text generated by speech recognition, according to each service operation.
송신측 통신부(250)는 통신 시스템(100)을 통하여 수신측 단말기(300)와 데이터 통신 채널을 형성 할 수 있다. 이러한 통신부(250)는 송신측 단말기(200)의 기기 특성에 따라 다양한 형태의 통신 방식을 지원하는 통신 모듈로 구성될 수 있다. 예를 들어, 통신부(250)는 2G, 3G, LTE(long term evolution) 등을 지원하는 이동통신 모듈, 와이 파이 등을 지원하는 통신 모듈 등 다양한 통신 모듈로 구성될 수 있다. 특히 통신부(250)는 사용자 입력에 따라 수신측 단말기(300)와 본 실시 예에 따른 음성 인식 기반의 텍스트 송신을 위한 데이터 통신 채널을 형성할 수 있다.The transmitting side communication unit 250 can form a data communication channel with the receiving side terminal 300 through the communication system 100. The communication unit 250 may be configured as a communication module that supports various types of communication methods according to device characteristics of the transmitting terminal 200. [ For example, the communication unit 250 may include various communication modules such as a mobile communication module supporting 2G, 3G, long term evolution (LTE) and the like, and a communication module supporting WiFi. In particular, the communication unit 250 may form a data communication channel for text transmission based on the speech recognition according to the present embodiment with the receiving side terminal 300 according to user input.
송신측 제어부(260)는 본 실시예에 따른 송신측 단말기(200) 운용에 필요한 신호 제어를 지원하는 구성이다. 특히 송신측 제어부(260)는 본 실시예의 통신 서비스 운용 지원을 위한 신호 제어 및 데이터 전달을 제어할 수 있다. 이를 위하여 송신측 제어부(260)는 도 3에 도시된 바와 같은 구성을 포함할 수 있다.The transmission-side control unit 260 supports a signal control required for operation of the transmission-side terminal 200 according to the present embodiment. In particular, the transmission-side control unit 260 can control signal control and data transmission for supporting communication service operation of this embodiment. For this, the transmitting-side control unit 260 may include a configuration as shown in FIG.
도 3은 본 발명의 실시예에 따른 송신측 단말기의 제어부 구성을 보다 상세히 나타낸 도면이다.3 is a detailed block diagram of a control unit of a transmitting terminal according to an embodiment of the present invention.
도 3을 참조하면, 송신측 제어부(260)는 음성 처리부(261), 텍스트 처리부(262), STT매니저(263) 및 미디어 동기화 처리부(266)를 포함할 수 있다.3, the transmission-side control unit 260 may include a voice processing unit 261, a text processing unit 262, an STT manager 263, and a media synchronization processing unit 266.
송신측 음성 처리부(261)는 송신측 마이크(220)가 수집한 음성 신호를 처리하여 음성 데이터를 생성하는 구성이다. 예를 들어, 송신측 음성 처리부(261)는 음성 신호 처리를 위한 인코딩부가 될 수 있다. 송신측 음성 처리부(261)가 처리한 음성 데이터는 STT매니저(263)에 전달 될 수 있다.The transmission-side audio processing section 261 is a configuration for processing audio signals collected by the transmission-side microphone 220 to generate audio data. For example, the transmitting-side voice processing unit 261 may be an encoding unit for processing voice signals. The voice data processed by the transmission-side voice processing unit 261 can be transmitted to the STT manager 263. [
송신측 텍스트 처리부(262)는 송신측 입력부(210) 및 입력 기능의 송신측 표시부(240)로부터 입력되는 신호를 문자로 전환하는 구성이다.The transmission-side text processing section 262 is a configuration for switching the signals inputted from the transmission-side input section 210 and the transmission-side display section 240 of the input function into characters.
STT 매니저(263)는 송신측 단말기(200)의 음성 인식 기능을 제어하는 구성이다. 이러한 STT매니저(263)는 제어에 따라 음성 처리부(261)가 전달한 음성 데이터의 음성 인식을 수행하여 텍스트로 전환하도록 제어할 수 있다. 이때 STT매니저(263)는 음성처리부(261)가 제공하는 음성 데이터를 실시간으로 음성 인식 지원 장치에 전달한다. STT매니저(263)가 처리한 테스트는 네트워크 지원부(265)에 전달된다.The STT manager 263 controls the voice recognition function of the transmitting terminal 200. [ The STT manager 263 can control the voice processing unit 261 to perform voice recognition of the voice data transmitted by the voice processing unit 261 and switch to text. At this time, the STT manager 263 delivers the voice data provided by the voice processing unit 261 to the voice recognition support apparatus in real time. The test processed by the STT manager 263 is transmitted to the network support unit 265.
송신측 네트워크 지원부(265)는 송신측 통신부(250)의 활성화 제어, 송신측 통신부(250)를 통한 수신측 단말기(300)와의 PTT통신 서비스 채널 형성 등을 지원할 수 있다. PTT통신 서비스 채널 연결 이후 음성 처리부(261)에서 전달하는 음성 데이터, STT매니저(263)가 전달하는 텍스트 데이터 중 적어도 하나를 송신측 통신부(250)을 통해 수신측 단말기(300)에 전달 할 수 있다.The transmission side network support unit 265 can support activation control of the transmission side communication unit 250 and formation of a PTT communication service channel with the reception side terminal 300 through the transmission side communication unit 250. It is possible to transmit at least one of the voice data transmitted from the voice processing unit 261 and the text data transmitted from the STT manager 263 to the receiving side terminal 300 through the transmitting side communication unit 250 after the connection of the PTT communication service channel .
송신측 미디어 동기화 처리부(266)는 음성 신호가 수집된 타임스탬프 정보를 음성 처리부(261)로부터 전달받아 음성 인식 지원 장치(400)를 통해 전달된 텍스트에 포함시켜 수신측 단말기(300)에 전달할 수 있다.The transmission side media synchronization processing unit 266 may receive the time stamp information from which the voice signal is collected from the voice processing unit 261 and may include the received time stamp information in the text transmitted through the voice recognition support apparatus 400 to the receiving side terminal 300 have.
상술한 바와 같이 본 발명의 실시 예에 따른 송신측 단말기(200)는 단말기 설정에 따라 STT 서비스를 운용할 수 있다. As described above, the transmitting terminal 200 according to the embodiment of the present invention can operate the STT service according to the terminal setting.
다시 도 2를 참조하면, 수신측 단말기(300)는 송신측 단말기(200)의 통신 서비스 연결 요청 및 단말기에 설정된 모드에 따라 해당 통신 서비스를 연결하도록 지원한다.Referring back to FIG. 2, the receiving terminal 300 supports connection of a corresponding communication service according to a communication service connection request of the transmitting terminal 200 and a mode set in the terminal.
수신측 입력부(310)는 수신측 단말기(300)운용에 필요한 다양한 입력 신호를 생성하는 구성이다. 입력부(310)는 버튼 형태로 형성되거나 터치맵으로 제공될 수 있다. 생성된 입력 신호는 제어부(360)에 전달되어 해당 입력 신호에 따른 기능 지원을 수행할 수 있다.The receiving-side input unit 310 is a configuration for generating various input signals required for the operation of the receiving-side terminal 300. The input unit 310 may be formed in a button shape or provided as a touch map. The generated input signal is transmitted to the control unit 360 and can perform the function support according to the input signal.
수신측 스피커(330)는 수신측 단말기(300)의 오디오 신호의 출력을 지원하는 구성으로 수신측 통신부(350)가 수신한 오디오 신호의 출력 등을 지원할 수 있다. 수신측 스피커(330)는 수신측 제어부(360)의 제어에 따라 활성화되어 오디오 신호의 출력을 지원할 수 있으며 특히 수신측 단말기(300)의 설정에 따라 TTS서비스 지원 중인 경우 송신측 단말기(200)로부터 수신된 텍스트에 대해 음성 신호를 출력할 수 있다.The receiver-side speaker 330 can support the output of the audio signal received by the receiver-side communication unit 350 in a configuration supporting the output of the audio signal of the receiver-side terminal 300. The receiving side speaker 330 can be activated according to the control of the receiving side controller 360 to support the output of the audio signal. In particular, when the TTS service is supported according to the setting of the receiving side terminal 300, It is possible to output a voice signal to the received text.
수신측 표시부(340)는 수신측 단말기(300) 운용에 필요한 다양한 화면 인터페이스를 제공하는 구성이다. 수신측 표시부(340)는 송신측 단말기(200)와의 통신 서비스 종류에 따라 각각의 화면을 제공할 수 있다. 예를 들면 수신측 표시부(340)는 음성 수신 상태를 나타내는 화면, 텍스트 서비스 지원 화면 또는 수신된 텍스트를 출력하는 화면 중 하나를 각 서비스 운용에 따라 개별적으로 출력할 수 있다.The receiving-side display unit 340 provides various screen interfaces necessary for the operation of the receiving-side terminal 300. The receiving side display unit 340 can provide respective screens according to the communication service type with the transmitting side terminal 200. [ For example, the receiving-side display unit 340 can individually output one of a screen showing a voice receiving state, a text service supporting screen, or a screen for outputting received text according to each service operation.
수신측 통신부(350)는 송신측 단말기(200)의 송신측 통신부(250)와 통신채널을 형성할 수 있으며 이를 위해 수신측 통신부(350)는 송신측 통신부(250)와 통신 채널 형성이 가능한 통신 모듈로 구성된다. The receiving side communication unit 350 can form a communication channel with the transmitting side communication unit 250 of the transmitting side terminal 200. To this end, the receiving side communication unit 350 performs communication with the transmitting side communication unit 250 Module.
수신측 제어부(360)는 본 발명의 실시 예에 따른 수신측 단말기(300) 운용에 필요한 신호 제어를 지원하는 구성이다. 특히 수신측 제어부(360)는 본 실시예의 통신 서비스 운용 지원을 위한 신호 제어 및 데이터 전달을 제어할 수 있다. The receiving-side control unit 360 supports the signal control necessary for the operation of the receiving-side terminal 300 according to the embodiment of the present invention. In particular, the receiving-side controller 360 can control signal control and data transmission for supporting communication service operation of the present embodiment.
도 4는 본 발명의 실시예에 따른 수신측 단말기의 제어부 구성을 보다 상세히 나타낸 도면이다.4 is a detailed block diagram of a controller of a receiving terminal according to an embodiment of the present invention.
도 4를 참조하면, 수신측 제어부(360)는 수신측 음성 처리부(361), 수신측 텍스트 처리부(362), TTS매니저(364), 네트워크 지원부(365) 및 미디어 동기화 처리부(366)를 포함할 수 있다.4, the receiving-side control unit 360 includes a receiving-side audio processing unit 361, a receiving-side text processing unit 362, a TTS manager 364, a network support unit 365, and a media synchronization processing unit 366 .
수신측 음성 처리부(361)는 PTT통신시스템을 통해 전달된 음성 신호를 처리하여 음성 출력하는 구성이다.The receiving-side voice processing unit 361 processes the voice signal transmitted through the PTT communication system and outputs voice.
수신측 텍스트 처리부(362)는 PTT통신 시스템을 통해 전달된 텍스트를 수신측 표시부(340)로 전달하거나 TTS매니저(364)로 전달하여 음성 합성 기능을 수행할 수 있다.The receiving-side text processing unit 362 may transmit the text transmitted through the PTT communication system to the receiving-side display unit 340 or transmit the text to the TTS manager 364 to perform the voice synthesizing function.
TTS 매니저(364)는 수신측 단말기(300)의 음성 합성 기능을 제어하는 구성이다. 이러한 TTS 매니저(364)는 제어에 따라 수신측 텍스트 처리부(362)가 전달한 텍스트 데이터를 음성 합성 지원 장치(500)를 통해 음성으로 전환하도록 제어할 수 있다. 이때 TTS 매니저(364)는 수신측 텍스트 처리부(362)가 제공하는 텍스트 데이터를 실시간으로 음성 합성 지원 장치(500)에 전달한다.The TTS manager 364 controls the voice synthesis function of the reception-side terminal 300. The TTS manager 364 can control the text data transmitted by the reception-side text processing unit 362 to be switched to speech through the speech synthesis support apparatus 500 under the control. At this time, the TTS manager 364 delivers the text data provided by the reception-side text processing unit 362 to the speech synthesis support apparatus 500 in real time.
수신측 네트워크 지원부(365)는 수신측 통신부(350)의 활성화 제어, 수신측 통신부(350)을 통한 송신측 단말기(200)와의 PTT통신 서비스 채널 형성 등을 지원할 수 있다. PTT통신 서비스 채널 연결 이후 수신측 통신부(350)을 통해 전달된 음성 및 텍스트 데이터 중 적어도 하나를 음성 처리부(361) 또는 텍스트 처리부(362)로 전달할 수 있다.The reception side network support unit 365 can support activation control of the reception side communication unit 350 and formation of a PTT communication service channel with the transmission side terminal 200 through the reception side communication unit 350. [ After the PTT communication service channel connection, at least one of the voice and text data transmitted through the receiving side communication unit 350 may be transmitted to the voice processing unit 361 or the text processing unit 362.
수신측 미디어 동기화 처리부(366)는 송신측 단말기(200)로부터 전달된 텍스트 데이터에서 추출한 타임스탬프 정보를 이용해 음성 데이터의 타임 스탬프와 맞도록 텍스트 데이터를 배치할 수 있다.The receiving side media synchronization processing unit 366 can arrange the text data so as to match the timestamp of the voice data using the time stamp information extracted from the text data transmitted from the transmitting terminal 200. [
상술한 바와 같이 본 실시예에 따른 PTT 통신 서비스 운용 시스템은 송신측 단말기(200)가 음성 인식 지원 장치(400)를 이용하여 음성 인식을 통한 텍스트를 생성한 후 이를 수신측 단말기(300)에 전송하고, 수신측 단말기(300)는 음성 합성 지원 장치(500)을 이용하여 텍스트를 음성으로 변환하여 출력할 수 있다.As described above, in the PTT communication service operating system according to the present embodiment, the transmitting terminal 200 generates text through speech recognition using the speech recognition support apparatus 400, and transmits the text to the receiving terminal 300 And the receiving-side terminal 300 can convert the text into speech using the speech synthesis supporting apparatus 500 and output the same.
또한, 송신측 단말기 및 수신측 단말기는 PTT 통신을 위한 서비스 채널이 형성된 상태에서 텍스트 송수신을 지원하기 위해 별도의 채널을 형성할 수 있다.In addition, the transmitting terminal and the receiving terminal may form a separate channel to support text transmission / reception in a state where a service channel for PTT communication is formed.
또한, 송신측 단말기는 음성 인식 기반의 텍스트를 제공하는 STT(Speech To Text) 서비스 운용에 따라 생성된 텍스트를 음성 통화 서비스 지원을 위해 전송되는 음성 데이터와 함께 수신측 단말기에 전송할 수 있다.In addition, the transmitting terminal can transmit the text generated according to the Speech To Text (STT) service operation, which provides text based on speech recognition, to the receiving terminal together with the voice data transmitted for voice call service support.
또한, 송신측 단말기는 상기 생성된 텍스트 데이터에 해당하는 음성 신호가 수집되는 타임 스탬프 정보를 이용하여 텍스트와 음성 데이터의 동기화를 수행할 수 있다.In addition, the transmitting terminal can synchronize text and voice data using time stamp information in which voice signals corresponding to the generated text data are collected.
또한, 수신측 단말기는 수신된 텍스트 데이터에 해당하는 수신된 음성 데이터의 타임스탬프 정보를 송신측 단말기가 전송하는 데이터로부터 추출할 수 있다.Also, the receiving-side terminal can extract the time stamp information of the received voice data corresponding to the received text data from the data transmitted by the transmitting-side terminal.
또한, 수신측 단말기는 추출된 타임스탬프 정보를 이용하여 수신된 음성에 맞도록 텍스트 데이터를 화면에 배치할 수 있다.Further, the receiving-side terminal can use the extracted time stamp information to arrange the text data on the screen so as to match the received voice.
한편, 본 발명은 위에서 언급한 바와 같이 상술한 구성으로 한정되지 않는다. 음성 인식 지원 장치와 음성 합성 지원 장치는 음성 인식 기능과 음성 합성 기능을 구비하는 단일 서버 시스템으로 구현되거나, 발신측 단말기에 대응하는 제1 사용자 단말 및/또는 수신측 단말기에 대응하는 제2 사용자 단말에 서비스 애플리케이션 형태로 탑재되도록 구현될 수 있다. 이때, 서비스 애플리케이션은 음성 인식 기능과 음성 합성 기능을 구비할 수 있다.On the other hand, the present invention is not limited to the above-described configuration as described above. The voice recognition support apparatus and the voice synthesis support apparatus may be implemented as a single server system having a voice recognition function and a voice synthesis function or may be implemented as a first user terminal corresponding to the calling terminal and / In a service application form. At this time, the service application may include a voice recognition function and a voice synthesis function.
다음으로, 본 발명의 다른 실시예에 따른 푸시투톡 통신 서비스 운용 방법의 다양한 양태에 대하여 설명하기로 한다.Next, various aspects of a push to talk communication service operating method according to another embodiment of the present invention will be described.
도 5는 본 발명의 다른 실시예에 따른 푸시투톡 통신 서비스 운용 방법에 대한 흐름도이다. 도 6은 본 발명의 또 다른 실시예에 따른 푸시투폭 통신 서비스 운용 방법을 이용하는 시스템의 디스플레이 화면에 대한 예시도이다.5 is a flowchart illustrating a push to talk communication service operation method according to another embodiment of the present invention. 6 is an exemplary view of a display screen of a system using a push-to-talk communication service operating method according to another embodiment of the present invention.
본 실시예에 따른 푸시투톡 통신 서비스 운용 방법은, 제1 사용자 단말(20), 제2 사용자 단말(30), 음성 인식 지원 장치(400) 및 음성 합성 지원 장치(500)를 포함하는 PTT 통신 서비스 시스템에서 구현될 수 있다.The push to talk communication service operating method according to the present embodiment includes a PTT communication service including a first user terminal 20, a second user terminal 30, a voice recognition support device 400 and a voice synthesis support device 500 System.
제1 사용자 단말(20)은 송신측 단말기에 대응하고 제2 사용자 단말(30)은 수신측 단말기에 대응할 수 있으나, 이에 한정되지 않으며, 제1 사용자 단말(20)은 네트워크를 통해 신호 및 데이터의 송수신이 가능한 제1 모바일 단말이나 제1 컴퓨팅 장치에 대응하고, 제2 사용자 단말(30)은 제2 모바일 단말이나 네트워크를 통해 신호 및 데이터의 송수신이 가능한 제2 컴퓨팅 장치에 대응할 수 있다.The first user terminal 20 may correspond to a transmitting terminal and the second user terminal 30 may correspond to a receiving terminal, but the present invention is not limited thereto. And the second user terminal 30 may correspond to a second computing device capable of transmitting and receiving signals and data through a second mobile terminal or a network.
또한, 푸시투톡(push to talk, PTT) 통신 서비스 이용을 위해 제1 사용자 단말(20)과 제2 사용자 단말(30)은 어느 한쪽의 요청과 적어도 다른 한쪽의 응답에 따라 통신 채널을 설정할 수 있다. 그리고, 통신 채널의 설정 시에 PTT 통신 서비스를 지원하는 음성 인식 지원 장치와 음성 합성 지원 장치에 대한 정보나 주소가 공유될 수 있다. 이 경우, 음성 인식 지원 장치와 음성 합성 지원 장치는 각각 제1 서버와 제2 서버로 지칭될 수 있다. 제1 서버와 제2 서버는 음성 인식부와 음성 합성부를 구비하는 단일 서버 시스템(600)으로 구현될 수 있다.Also, for the use of a push to talk (PTT) communication service, the first user terminal 20 and the second user terminal 30 can establish a communication channel according to either one of the requests and at least one of the responses . The information and the address of the speech recognition support device supporting the PTT communication service and the speech synthesis support device can be shared at the time of setting the communication channel. In this case, the speech recognition support apparatus and the speech synthesis support apparatus may be referred to as a first server and a second server, respectively. The first server and the second server may be implemented as a single server system 600 having a voice recognition unit and a voice synthesis unit.
한편, 제1 서버 및 제2 서버에 대한 정보나 주소에 대한 공유 과정은 음성 인식 지원 장치와 음성 합성 지원 장치가 서비스 애플리케이션의 일부 기능 형태 혹은 소프트웨어 모듈 형태로 구현되어 사용자 단말에 탑재되는 경우에 생략될 수 있다.Meanwhile, the process of sharing information and addresses with respect to the first server and the second server may be omitted in the case where the voice recognition support apparatus and the voice synthesis support apparatus are implemented in a form of a functional form of a service application or a software module, .
도 5를 참조하면, 제1 사용자 단말(20)에서 PTT 송신 버튼이 활성화되면(S51), 제1 사용자 단말(20)은 마이크로 입력되는 음성 데이터를 PTT 통신 서비스(이하 간략히 PTT 서비스라고 한다)를 위해 설정된 통신 채널을 통해 제1 사용자 단말(30)로 전송할 수 있다(S53).5, when the PTT transmission button is activated in the first user terminal 20 (S51), the first user terminal 20 transmits the PTT communication service (hereinafter, simply referred to as PTT service) To the first user terminal 30 (S53).
PTT 송신 버튼은 제1 사용자 단말(20)의 적어도 하나의 특정 하드웨어 버튼일 수 있다. 또한, PTT 송신 버튼은 제1 사용자 단말(20)에 탑재된 PTT 서비스를 위한 서비스 애플리케이션의 사용자 인터페이스에서 제공되는 버튼일 수 있다. 사용자 인터페이스에서 제공하는 버튼은 그래픽 사용자 인터페이스를 포함하나, 이에 한정되지 않고, 음성 인식이나, 화면 영상 처리에 의해 인식되는 가상 버튼을 포함할 수 있다.The PTT transmit button may be at least one specific hardware button of the first user terminal 20. [ In addition, the PTT transmission button may be a button provided in the user interface of the service application for the PTT service installed in the first user terminal 20. [ The buttons provided in the user interface include a graphical user interface, but the present invention is not limited thereto and may include a virtual button recognized by voice recognition or screen image processing.
한편, 제2 사용자 단말(30)은 제1 사용자 단말(20)로부터 받은 음성 데이터를 스피커를 통해 음성 출력할 수 있다(S55). 또한, 제2 사용자 단말(30)은 음성 데이터에 대한 텍스트 변환을 음성 인식 지원 장치(400)에 요청할 수 있다(S57). 이러한 STT 요청은 제2 사용자 단말(30)의 사용 환경이나 사용자 설정이나 실시간사용자 입력 명령에 따라 수행될 수 있다. STT 요청 메시지에는 음성 데이터가 포함되거나 음성 데이터의 식별 정보가 포함될 수 있다.Meanwhile, the second user terminal 30 can output the voice data received from the first user terminal 20 through the speaker (S55). In addition, the second user terminal 30 may request the speech recognition support apparatus 400 to perform text conversion on the voice data (S57). This STT request may be performed according to the usage environment of the second user terminal 30, user setting, or real time user input command. The STT request message may include voice data or may include identification information of voice data.
전술한 경우, 음성 인식 지원 장치(400)는 STT 요청에 따라 하여 부가정보를 생성할 수 있다(S59). 여기서 부가정보 생성은 음성 데이터를 텍스트 데이터로 변환하는 것을 포함할 수 있다. 변환된 텍스트 데이터는 다시 제2 사용자 단말(30)로 전송될 수 있다(S61). 제2 사용자 단말(30)은 전송받은 텍스트 데이터를 PTT 서비스 애플리케이션의 화면이나 문자 메시지 혹은 멀티미디어 메시지를 표시하는 화면 상에 출력할 수 있다(S63).In the case described above, the speech recognition support apparatus 400 may generate the additional information according to the STT request (S59). Wherein the generation of the additional information may comprise converting the voice data into text data. The converted text data may be transmitted again to the second user terminal 30 (S61). The second user terminal 30 may output the received text data on the screen of the PTT service application or on a screen displaying a text message or a multimedia message (S63).
한편, 음성 인식 지원 장치(400)는 제1 사용자 단말(20)의 음성 데이터를 모니터링하고, 제1 사용자 단말(20)에 대응하는 사용자 설정에 따라 음성 데이터를 자동으로 저장하거나 텍스트 데이터로 변환하고, 변환된 텍스트 데이터를 현재 데이터 채널이 설정 등록되어 있거나 미리 설정된 위치나 주소의 제2 사용자 단말(30)에 제공할 수 있다.Meanwhile, the voice recognition support apparatus 400 monitors the voice data of the first user terminal 20 and automatically stores or converts the voice data into text data according to a user setting corresponding to the first user terminal 20 , And the converted text data may be provided to the second user terminal 30 in which the current data channel is registered or the preset location or address.
또한, 제1 사용자 단말(20)은 도 6에 도시한 바와 같이 푸시투톡(push to talk, PTT) 서비스 애플리케이션(50)의 대화형 텍스트 창(60)을 통해 제2 사용자 단말(30)의 사용자와 문자 메시지(70)를 주고받으며 대화할 수 있다. 대화형 텍스트 창(60)에는 문자 입력창(80), 전송 버튼(86) 및 키보드(90) 등의 사용자 인터페이스 혹은 입출력 인터페이스가 구비될 수 있다. 그리고 제2 사용자 단말(30)도 PTT 서비스 애플리케이션을 통해 자신의 문자 메시지와 제1 사용자 단말(20)로부터 전송된 문자 메시지를 대화형 텍스트 창에 출력할 수 있다.The first user terminal 20 is also connected to the second user terminal 30 via the interactive text window 60 of the push to talk (PTT) service application 50, And the text message (70). The interactive text window 60 may include a user interface such as a character input window 80, a transmission button 86, and a keyboard 90, or an input / output interface. The second user terminal 30 may also output the text message of the user and the text message transmitted from the first user terminal 20 to the interactive text window through the PTT service application.
다시 도 5를 참조하면, 대화형 텍스트 창에서 PTT 텍스트 전송 입력이 감지되는 경우(S71), 제1 사용자 단말(20) 또는 PTT 서비스 애플리케이션(간단히 서비스 애플리케이션이라고도 한다)은 텍스트 데이터를 포함한 문자 메시지를 데이터 통신망을 통해 제2 사용자 단말(30)에 전송할 수 있다(S73).Referring again to FIG. 5, when a PTT text transmission input is detected in the interactive text window (S71), the first user terminal 20 or the PTT service application (also simply referred to as a service application) To the second user terminal 30 through the data communication network (S73).
문자 메시지는 텍스트 데이터를 음성 데이터로 변환하도록 요청하는 TTS 요청 메시지를 포함할 수 있다. TTS 요청은 도 6에 도시한 바와 같이 대화형 텍스트 창(60)에 배치되는 TTS 버튼(82)을 통해 토글 방식 또는 온/오프 방식으로 입력될 수 있다.The text message may include a TTS request message requesting to convert the text data into voice data. The TTS request may be entered in a toggle manner or on / off manner via the TTS button 82 located in the interactive text window 60, as shown in FIG.
이 경우, 음성 합성 지원 장치(500)는 데이터 통신망을 포함하는 TTS 통신 시스템 상에서 서비스 사용자의 텍스트 데이터 또는 이를 포함하는 문자 메시지를 실시간 모니터링하고, TTS 요청 메시지에 따라 해당 텍스트 데이터나 문자 메시지에 포함된 텍스트 데이터를 음성 데이터로 변환하여 제2 사용자 단말(30)에 전송할 수 있다(S75, S77).In this case, the voice synthesis support apparatus 500 monitors the text data of the service user or the text message containing the text data in real time on the TTS communication system including the data communication network, and, in accordance with the TTS request message, The text data may be converted into voice data and transmitted to the second user terminal 30 (S75, S77).
한편, 음성 합성 지원 장치(500)가 소프트웨어 모듈 형태로 제1 사용자 단말(20)에 탑재되는 경우, 제1 사용자 단말(20)의 TTS 매니저(도 4의 364 참조)는 해당 명령을 인식하고 해당 명령에 대응하여 미리 설정된 처리 과정에 따라 자체 탑재된 TTS 모듈을 이용하거나 외부의 음성 합성 지원 장치와 연동하여 텍스트를 음성으로 변환하고, 음성 데이터를 제2 사용자 단말(30)에 전송할 수 있다.On the other hand, when the speech synthesis supporting apparatus 500 is mounted on the first user terminal 20 in the form of a software module, the TTS manager of the first user terminal 20 (see 364 in FIG. 4) The TTS module may be installed in the TTS module according to a predetermined processing procedure corresponding to the command or may be converted into voice to be transmitted to the second user terminal 30 in cooperation with an external voice synthesis support device.
일례로, 제1 사용자 단말이 네트워크를 통해 제2 사용자 단말과 통신 채널을 설정하고, 푸시투톡(push to talk) 서비스 애플리케이션은 대화형 텍스트 창에서 텍스트 대화 통신을 지원하는 중에 TTS(text to speech) 입력을 감지하고, 감지된 TTS 입력/명령에 따라 대화형 텍스트 창에서 사용자 단말에서 입력되는 텍스트 데이터를 음성 데이터로 변환하기 위한 TTS 요청 신호를 생성할 수 있다.For example, a first user terminal establishes a communication channel with a second user terminal via a network, and a push to talk service application provides text to speech (TTS) while supporting text-to- And generate a TTS request signal for converting the text data input from the user terminal into voice data in the interactive text window according to the detected TTS input / command.
생성된 TTS 요청 신호는 이 신호를 생성한 사용자 단말에 탑재된 서비스 애플리케이션의 TTS 매니저에게 전달될 수 있다. 또한, 구현에 따라서, 생성된 TTS 요청 신호는 해당 텍스트 데이터와 함께 이 신호를 생성한 사용자 단말과 네트워크를 통해 연결되는 음성 합성 지원 장치에 전달될 수 있다. 이 경우, TTS 매니저 또는 음성 합성 지원 장치는 TTS 요청 신호에 따라 텍스트 데이터를 음성 데이터로 변환하고, 변환된 음성 데이터가 사용자 단말의 상대방 단말에 전송되도록 동작할 수 있다.The generated TTS request signal may be transmitted to the TTS manager of the service application installed in the user terminal that generated the signal. Further, according to the implementation, the generated TTS request signal may be transmitted to the voice synthesis support apparatus connected to the user terminal that generates the TTS request signal together with the corresponding text data through the network. In this case, the TTS manager or the voice synthesis support apparatus can convert the text data into voice data according to the TTS request signal, and operate so that the converted voice data is transmitted to the other terminal of the user terminal.
또한, 본 실시예에 따른 푸시투톡 통신 서비스 운용 방법은, 제1 사용자 단말이 네트워크를 통해 제2 사용자 단말과 통신 채널을 설정한 후, 푸시투톡(push to talk) 서비스 애플리케이션의 대화형 텍스트 창에서 텍스트 대화 통신을 지원하는 중에 비밀(secret) 대화 설정 입력을 감지할 수 있다.In addition, the method for operating a push to talk communication service according to the present embodiment is characterized in that, after a first user terminal establishes a communication channel with a second user terminal through a network, a push to talk service is executed in an interactive text window of a push to talk service application Secret dialog setting input can be detected while supporting text chat communication.
비밀 대화 설정 입력은 도 6에 도시한 바와 같이 대화형 텍스트 창(60)에 배치되는 소정 버튼(S, 84)을 통해 토글 방식 또는 활성/비활성 방식으로 생성되거나 중지될 수 있다.The secret conversation setting input may be generated or suspended in a toggle manner or in an active / inactive manner via a predetermined button (S, 84) disposed in the interactive text window 60 as shown in FIG.
전술한 경우, 비밀 대화 설정 입력에 따라 대화형 텍스트 창에서 제1 사용자 단말(20) 또는 발신측 사용자 단말은 음성 송신 모드로 모드 전환되고, 제2 사용자 단말(30) 또는 수신측 사용자 단말은 발신측 사용자 단말로부터의 비밀 대화 설정 입력에 대응하는 모드 전환 요청 신호에 따라 텍스트 수신 모드로 작동모드를 전환할 수 있다.In the above case, the first user terminal 20 or the calling user terminal is switched to the voice transmission mode in the interactive text window according to the secret conversation setting input, and the second user terminal 30 or the receiving- The operation mode can be switched to the text receiving mode according to the mode switching request signal corresponding to the secret conversation setting input from the side user terminal.
이때, 발신측 사용자 단말에 탑재되는 서비스 애플리케이션이나 제1 또는 제2 사용자 단말과 네트워크를 통해 연결되는 음성 인식 지원 장치는 TTS 요청에 대응하는 신호에 따라 발신측 사용자 단말의 텍스트 데이터를 음성 데이터로 변환하여 수신측 사용자 단말에 제공할 수 있다. 여기서, 텍스트 데이터는 수신측 사용자 단말의 사용자가 나중에 확인할 수 있도록 음성 데이터와 함께 혹은 별도로 수신측 사용자 단말로 전송될 수 있다.At this time, the service application installed on the calling side user terminal or the voice recognition support device connected to the first or second user terminal through the network converts the text data of the calling side user terminal into voice data according to the signal corresponding to the TTS request To the receiving side user terminal. Here, the text data may be transmitted to the receiving user terminal together with the voice data or separately so that the user of the receiving user terminal can check later.
한편, TTS 요청을 포함하는 문자 메시지가 음성 합성 지원 장치(500)에 감지되면, 음성 합성 지원 장치(500)는 문자 메시지에 대한 더미 메시지를 제2 사용자 단말(30)에 제공할 수 있다(S81). 더미 메시지는 텍스트 메시지가 없고 텍스트 메시지가 전달된 기록을 표시하는 정보와 텍스트 메시지가 저장되는 위치 정보를 포함할 수 있다. 이러한 더미 메시지를 이용하면, 제2 사용자 단말(30)의 사용자는 TTS 요청이 종료된 후 등과 같은 나중 시점에서 해당 텍스트 데이터를 요청하는 신호를 음성 합성 지원 장치(500) 등에 전송할 수 있다(S83).On the other hand, if a text message including a TTS request is detected by the voice synthesis support apparatus 500, the voice synthesis support apparatus 500 may provide a dummy message for a text message to the second user terminal 30 (S81 ). The dummy message may include no text message, information indicating a record to which the text message is delivered, and location information where the text message is stored. With this dummy message, the user of the second user terminal 30 can transmit a signal requesting the corresponding text data to the speech synthesis support apparatus 500 or the like at a later time such as after the TTS request is terminated (S83) .
이상에서 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 한다.While the preferred embodiments of the present invention have been shown and described, it is to be understood that the foregoing description is by way of example only and is not to be construed in any way as limiting. The scope of the invention should be determined by rational interpretation of the appended claims.

Claims (6)

  1. 푸시투톡(push to talk, PTT) 통신 서비스를 수행하는 모바일 단말기를 포함하는 서비스 운용 시스템으로서,1. A service operating system including a mobile terminal for performing a push to talk (PTT) communication service,
    음성을 송신할 수 있는 버튼이 가압된 상태에서 기 설정이나 사용자의 설정 모드에 따라 사용자 입력 음성 데이터를 텍스트로 변환한 후 변환된 텍스트 데이터를 전송하는 송신측 단말기;A transmitting side terminal for converting user input voice data into text and transmitting the converted text data according to a setting mode or a user setting mode in a pressed state of a button capable of transmitting voice;
    상기 송신측 단말기의 요청에 의해 PTT 통신 서비스가 연결된 이후 수신된 텍스트 데이터를 기 설정 또는 사용자의 설정한 모드에 따라 음성으로 변환한 후 출력하는 수신측 단말기; 및A receiving terminal for converting the text data received after the PTT communication service is connected by the request of the transmitting terminal into a voice according to a preset mode or a mode set by the user and outputting the voice; And
    사용자로부터 입력된 음성 데이터를 텍스트 데이터로 변환하거나 수신된 텍스트 데이터를 음성 데이터로 변환하여 출력하는 음성 인식 지원 장치;A voice recognition support device for converting voice data input from a user into text data or converting received text data into voice data and outputting the voice data;
    를 포함하는 푸시투톡 통신 서비스 운용 시스템.A push to talk communication service operating system.
  2. 제 1항에 있어서,The method according to claim 1,
    상기 송신측 단말기 및 상기 수신측 단말기는 PTT통신을 위한 서비스 채널이 형성된 상태에서 텍스트 송수신을 지원하기 위해 별도의 채널을 형성하는 것을 특징으로 하는 푸시투톡 통신 서비스 운용 시스템.Wherein the transmitting terminal and the receiving terminal form a separate channel to support text transmission and reception in a state where a service channel for PTT communication is formed.
  3. 제 2항에 있어서,3. The method of claim 2,
    상기 송신측 단말기는 상기 음성 인식 기반의 텍스트를 제공하는 STT(Speech To Text)서비스 운용에 따라 생성된 텍스트를 상기 음성 통화 서비스 지원을 위해 전송되는 음성 데이터와 함께 상기 수신측 단말기에 전송하는 것을 특징으로 하는 푸시투톡 통신 서비스 운용 시스템.The transmitting terminal transmits the text generated according to the Speech To Text (STT) service operation providing the voice recognition-based text to the receiving terminal together with the voice data transmitted for supporting the voice call service Push to talk communication service operation system.
  4. 제 3항에 있어서,The method of claim 3,
    상기 송신측 단말기는 상기 생성된 데이터에 해당하는 음성 신호가 수집되는 타임 스탬프 정보를 이용하여 상기 텍스트와 상기 영상 데이터의 동기화를 수행하는 것을 특징으로 하는 푸시투톡 통신 서비스 운용 시스템.Wherein the transmitting terminal performs synchronization of the text and the image data using time stamp information in which a voice signal corresponding to the generated data is collected.
  5. 제 1항에 있어서,The method according to claim 1,
    상기 수신측 단말기는 수신된 텍스트 데이터에 해당하는 수신된 음성 데이터의 타임스탬프 정보를 상기 송신측 단말기가 전송하는 데이터로부터 추출하는 푸시투톡 통신 서비스 운용 시스템.Wherein the receiving terminal extracts time stamp information of the received voice data corresponding to the received text data from data transmitted by the transmitting terminal.
  6. 제 5항에 있어서,6. The method of claim 5,
    상기 수신측 단말기는 추출된 타임스탬프 정보를 이용하여 수신된 음성에 맞도록 텍스트 데이터를 화면에 배치하는 푸시투톡 통신 서비스 운용 시스템.Wherein the receiving terminal uses the extracted time stamp information to arrange the text data on the screen so as to match the received voice.
PCT/KR2018/007623 2017-08-31 2018-07-05 Push-to-talk communication service operation method and system using same WO2019045250A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020170111288A KR102040370B1 (en) 2017-08-31 2017-08-31 Management method for managing push to talk service and system using the same
KR10-2017-0111288 2017-08-31

Publications (1)

Publication Number Publication Date
WO2019045250A1 true WO2019045250A1 (en) 2019-03-07

Family

ID=65525632

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2018/007623 WO2019045250A1 (en) 2017-08-31 2018-07-05 Push-to-talk communication service operation method and system using same

Country Status (2)

Country Link
KR (1) KR102040370B1 (en)
WO (1) WO2019045250A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021172125A1 (en) * 2020-02-28 2021-09-02 株式会社 東芝 Communication system
CN116052669A (en) * 2023-03-29 2023-05-02 中瑞科技术有限公司 Correction transmission system for intercom data

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102166264B1 (en) * 2019-05-08 2020-10-15 포인트아이 주식회사 System for providing text-to-speech service
CN113035226B (en) * 2019-12-24 2024-04-23 中兴通讯股份有限公司 Voice communication method, communication terminal and computer readable medium
KR102252814B1 (en) 2020-06-29 2021-05-17 이건수 Industrial site smart wireless broadcasting device

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050114155A (en) * 2004-05-31 2005-12-05 삼성전자주식회사 Apparatus and method for transmitting instant message through short message service in push-to-talk system
KR20060002387A (en) * 2004-07-02 2006-01-09 주식회사데이콤 Method to send the guide imformation according to impossibility of conversation by telephone
KR100705589B1 (en) * 2006-01-13 2007-04-09 삼성전자주식회사 System and method for ptt service according to a terminal user situation
JP2007235810A (en) * 2006-03-03 2007-09-13 Nec Corp Mobile phone system, and mobile phone unit
KR20130125057A (en) * 2012-05-08 2013-11-18 삼성전자주식회사 Operation method and system for communication service

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101487083B1 (en) * 2013-05-09 2015-01-28 주식회사 엘지유플러스 Telephone Conversation Management System, Apparatus, Mobile and Telephone Conversation Managing Method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050114155A (en) * 2004-05-31 2005-12-05 삼성전자주식회사 Apparatus and method for transmitting instant message through short message service in push-to-talk system
KR20060002387A (en) * 2004-07-02 2006-01-09 주식회사데이콤 Method to send the guide imformation according to impossibility of conversation by telephone
KR100705589B1 (en) * 2006-01-13 2007-04-09 삼성전자주식회사 System and method for ptt service according to a terminal user situation
JP2007235810A (en) * 2006-03-03 2007-09-13 Nec Corp Mobile phone system, and mobile phone unit
KR20130125057A (en) * 2012-05-08 2013-11-18 삼성전자주식회사 Operation method and system for communication service

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021172125A1 (en) * 2020-02-28 2021-09-02 株式会社 東芝 Communication system
JP2021136668A (en) * 2020-02-28 2021-09-13 株式会社東芝 Communication system
JP7353216B2 (en) 2020-02-28 2023-09-29 株式会社東芝 communication system
CN116052669A (en) * 2023-03-29 2023-05-02 中瑞科技术有限公司 Correction transmission system for intercom data

Also Published As

Publication number Publication date
KR20190024361A (en) 2019-03-08
KR102040370B1 (en) 2019-11-28

Similar Documents

Publication Publication Date Title
WO2019045250A1 (en) Push-to-talk communication service operation method and system using same
US20220094783A1 (en) Transcription of communications through a device
US7030752B2 (en) Universal gateway module for interfacing a security system control to external peripheral devices
US20070036282A1 (en) Device independent text captioned telephone service
US7586900B2 (en) Internet protocol-private branch exchange for providing internet messenger function and internet terminal for use therewith
WO2021118179A1 (en) User terminal, video call device, video call system, and control method for same
WO2014007569A1 (en) Apparatus and method for disconnecting call by detecting conditions
WO2013154243A1 (en) Method for managing calls and mobile terminal using the same
WO2015041434A1 (en) Multilingual message translation system and method therefor
US20030169854A1 (en) Communication system and communication control apparatus
EP1638306A1 (en) The system and method implementing network telephon communication by applying the instant messenger
WO2010130201A1 (en) Computer integrated with universal telephone functions
KR20070080529A (en) Apparatus and method for furnishing epg information in digital multimedia broadcasting terminal
KR101222132B1 (en) method and system of one-to-one and group communication simultaneously in wireless IP network
WO2016039497A1 (en) Communication service providing method and system for switching between general communication mode and internet communication mode
JP2006341938A (en) Elevator emergency communication system
WO2015034174A1 (en) System for switching and outputting sender-controlled incoming ringtone and method therefor
WO2021118180A1 (en) User terminal, broadcasting apparatus, broadcasting system comprising same, and control method thereof
KR20140006198A (en) System for providing wireless captioned conversation service
WO2019031710A1 (en) Method for processing voice on basis of low-bandwidth wireless communication and device therefor
WO2021080074A1 (en) Real-time interpretation service system including hybrid of translation using artificial intelligence and interpretation by expert interpreter
WO2018070725A1 (en) Integrated wireless communication equipment operating system and method, and recording medium having recorded computer-readable program for executing method
WO2023146268A1 (en) Push-to-talk system and method supporting multiple languages
US8437708B2 (en) Mobile telephone unit, informing method, and program
KR100548238B1 (en) Internet protocol phone using address with personal computer and control method thereof

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18851875

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18851875

Country of ref document: EP

Kind code of ref document: A1

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205 DATED 20/01/2021)