WO2016047818A1 - 멀티 코덱, 멀티 채널 기반의 동시통역 서비스 제공 시스템 및 방법 - Google Patents

멀티 코덱, 멀티 채널 기반의 동시통역 서비스 제공 시스템 및 방법 Download PDF

Info

Publication number
WO2016047818A1
WO2016047818A1 PCT/KR2014/008819 KR2014008819W WO2016047818A1 WO 2016047818 A1 WO2016047818 A1 WO 2016047818A1 KR 2014008819 W KR2014008819 W KR 2014008819W WO 2016047818 A1 WO2016047818 A1 WO 2016047818A1
Authority
WO
WIPO (PCT)
Prior art keywords
channel
data
information
voice
language
Prior art date
Application number
PCT/KR2014/008819
Other languages
English (en)
French (fr)
Inventor
송재훈
양석훈
김민교
Original Assignee
(주)두드림
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)두드림 filed Critical (주)두드림
Priority to PCT/KR2014/008819 priority Critical patent/WO2016047818A1/ko
Publication of WO2016047818A1 publication Critical patent/WO2016047818A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Definitions

  • the present invention relates to a simultaneous interpretation service providing system, and more particularly, to a simultaneous interpretation service providing system and method for streaming voice, image, text based on a multi-codec, multi-channel.
  • two or more simultaneous interpreters interpret the lecturer's lectures and input voice signals through an interpreter microphone.
  • the simultaneous interpretation service is provided by listening.
  • the simultaneous interpretation receiver is provided to all participants who attend the lecture.
  • attendees should be aware of how the simultaneous interpreter receiver works every time.
  • the simultaneous interpreter receiver is not enough, so some attendees cannot receive simultaneous interpretation service. There is discomfort.
  • smartphones are being used as multimedia devices, not just mobile phones, by providing various functions such as entertainment, computing, cameras, telematics, and broadcasting through wireless internet applications in addition to voice calls.
  • the present invention provides a system and method for supplementing and replacing an expensive simultaneous interpretation system in an international conference hall, an exhibition hall, and a seminar that operate a conventional simultaneous interpretation system.
  • the present invention can be configured for the channel by simultaneous interpretation language using multiplexing and demultiplexing technology that mixes and divides audio, video, image, and text data, and based on image and text along with the interpreter's voice. It provides a system and method for providing various additional services to attendees of international conferences by providing real-time translation information and conference guide information.
  • the present invention is not limited to the number of simultaneous interpretation languages by using the voice multiplexing (Muxing) and demultiplexing (Demuxing) technology, by multiplexing multiple simultaneous interpretation voice (streaming) language by the streaming server's language
  • Muxing voice multiplexing
  • Demuxing demultiplexing
  • streaming multiple simultaneous interpretation voice
  • the analog voice received from the interpreter's microphone is converted into a digital voice, real-time input of each interpreted voice as text, and the conference guide information for each language is edited using at least one of an image and text.
  • a simultaneous interpretation service information encoding unit A multi-channel multiplexer for multiplexing multilingual interpretation service data processed by the simultaneous interpretation service information encoding unit;
  • a streaming server for transmitting the multi-channel interpretation service data stream multiplexed by the multi-channel multiplexer to a session-connected user terminal;
  • a multi-channel demultiplexer for receiving a multi-channel data stream and a listening selection language from the user terminal and extracting digital data corresponding to the listening selection language from the received multi-channel interpretation service data stream; And converting the digital voice data extracted by the multi-channel demultiplexer into an analog voice, and extracting and analyzing real-time translated text and conference guide information data and displaying the same on a screen.
  • the user can listen to the simultaneous interpretation voice through the application installation using a smartphone owned by him, the choice of listening language is free, Image and text-based information about the selected language can be viewed with voice.
  • FIG. 1 is an overall configuration diagram of a system and method for providing a simultaneous interpretation service according to an embodiment of the present invention.
  • FIG. 2 is a configuration diagram of a simultaneous interpretation service information encoding unit for converting an analog voice of a microphone into a digital voice and editing and storing real-time translation information input and conference guide information.
  • FIG. 3 is a configuration diagram of a multi-channel multiplexer for multiplexing language-specific interpretation service information into a single transport stream.
  • FIG. 4 is a configuration diagram of a streaming server unit for servicing a multiplexed multi-channel interpretation service data stream to a smartphone terminal.
  • FIG. 5 is a configuration diagram of a multi-channel demultiplexer for extracting only specific channel information to be listened to from a multi-channel interpretation service data stream received from a smartphone terminal.
  • FIG. 6 is a configuration diagram of a simultaneous interpretation service information decoding unit for converting and decoding digital voice into analog voice and expressing translation information and conference information on a screen.
  • one component when one component is referred to as “connected” or “connected” with another component, the one component may be directly connected or directly connected to the other component, but in particular It is to be understood that, unless there is an opposite substrate, it may be connected or connected via another component in the middle.
  • the present invention relates to a method for reducing the installation cost and user convenience of a system for providing simultaneous interpretation service by at least two simultaneous interpreters in a multi-language international conference hall, exhibition hall and seminar. It converts analog voices to microphones into digital voices, encodes real-time translated text data, images such as conference guide information, text-based data, and multiplexes voice and information data for each language into a single stream. Transport Streaming technology, Demuxing technology that extracts only the specific language channel that the receiving terminal wants to listen to, and converts the digital voice back to analog voice and outputs it to the speaker, and translate text and conference guide data. Decode to browser The technology to be expressed is assumed.
  • the standard for mixing such data is MPEG2-TS standard, and the service channel can be configured for each data (audio + video + image + text), and the muxer of the server system and the demuxer of the terminal system are configured for each language. It is possible to service by mixing voice and data based on codec, multi-channel. That is, according to the present invention, since audio, video, image, and text-based multi-channel configurations are possible, various data services such as real-time translation contents and conference guide information (images, texts), together with voices of simultaneous interpreters for each language, are provided. Can provide.
  • FIG. 1 is an overall configuration diagram of a system and method for providing a interpretation / interpretation service for streaming a voice, image, and text for each channel based on a multi-codec and a multi-channel.
  • the simultaneous interpretation service providing system according to an embodiment of the present invention, the simultaneous interpretation service information encoding unit 100, multi-channel multiplexer 200, streaming server 300, multi-channel demultiplexer ( 400, the simultaneous interpretation service information decoding unit 500.
  • Simultaneous interpretation information encoding unit 100 encodes the analog voice transmitted from the interpreter's microphone into a digital voice, and receives and encodes the real-time translation text information for each language, conference guide information for each language based on the image, text based packet Convert to
  • the conference guide information may be related to the schedule related to the conference, information related to the current lecture (e.g., speaker information such as speaker biographies, books, major activities, etc., reference or / and reference material included in the lecture content). Information, image files, etc.), networkable participant information, and the like.
  • the multi-channel multiplexer 200 multiplexes the encoded channel data (voice, real-time translated text, conference guide information) for each language.
  • the streaming server unit 300 services the multiplexed interpretation service data stream to a user terminal (eg, a terminal used by a conference attendee or listener).
  • a user terminal eg, a terminal used by a conference attendee or listener.
  • the multi-channel demultiplexer 400 selects only a specific language channel from the interpretation service data stream received from the user terminal, extracts the interpreted voice, translated text, and conference guide information of the corresponding channel, decodes the voice, and outputs it to the speaker.
  • the translation information and the conference guide information are displayed on the user screen through the screen configuration.
  • the simultaneous interpretation service information decoding unit 500 serves to convert the language voice to the analog voice, translation text, conference guide information for the channel selected by the user to analog output.
  • FIG. 2 is a block diagram of an encoding unit for converting an analog voice of a microphone into a digital voice and converting text-based translation information for each language and conference guide information for each language into data.
  • the simultaneous interpretation service encoding unit 100 to be applied to the present invention as shown in Figure 2, the simultaneous interpretation voice encoding unit 110 for each language, real-time translation information encoding unit for each language 120, the conference guide information encoding unit 130 for each language may be included.
  • the simultaneous interpretation voice encoder 110 for each language may include an analog voice buffer 112, a codec selector 113, a codec processor 115, and an encoded voice buffer 116.
  • the analog voice buffer 112 is a voice store for storing analog voices output from an interpreter's microphone, and the codec selector 113 selects a codec for converting analog voices into digital voices from various codecs such as MPEG2, AAC, and MP3. Play a role.
  • the audio codec may be selected by a setting value set by the system administrator.
  • the audio codec is not limited to the above-described MPEG2, AAC, and MP3, and the audio codec that can be used for encoding the voice signal may be used without any limitation.
  • the codec processor 115 converts an analog voice of an interpreter into a digital voice using a codec selected according to a codec selector value.
  • the encoded voice buffer 116 is a voice store in which the converted digital voice (ie, encoded voice processed by the codec processor 115) is stored.
  • the real-time translation information encoding unit 120 for each language may include a translation text real-time input unit 121, a text packetizer 123 for extracting and packetizing only valid text, and a translation information encoding data buffer for storing packetized data. 124 may include.
  • the translation text real-time input unit 121 translates the instructor's words in real time and inputs the translated text using an input program
  • the text packetizer 123 filters the data that is not suitable for streaming transmission among the input text. Only valid data is extracted, and a data packet for a streaming service is generated and stored in the encoding buffer 124.
  • the conference guide information encoding unit 130 for each language may include a conference information input unit 131, a text input unit 132, an image editing unit 133, a scheduler 134 for transmitting guide information at regular intervals, and a guide information streaming service. And a channel information packetizer 135 for processing the data to be used, and a conference information encoding data buffer 136 for storing the packetized data.
  • the conference information input unit 131 may include a text input unit 132 for editing text-based guide information and an image editing unit 133 for editing image-based guide information.
  • the scheduler 134 transmits the guide information on a periodic basis in consideration of network load.
  • the information packetization 135 may be performed and stored in the conference information encoding data buffer 136.
  • FIG. 3 is a diagram illustrating a configuration of a multi-channel multiplexer for multiplexing an interpreted voice, translation information, and conference guide information for each language into a single transport stream.
  • the multi-channel multiplexer 200 stores the voice data processed through the simultaneous interpretation service information encoding unit 100 for each language (that is, for each channel) as shown in FIG.
  • a channel multiplexing processor 207 for multiplexing each channel thereof, and a multi-channel interpreter service data stream (Transport Stream) buffer 208 for storing the multiplexed channel data. have.
  • the digital channel data buffer storages 201, 202, 203, and 204 each have a storage for each language, and the encoded digital channel data is stored.
  • the timer 206 is set with a value for setting a period for multiplexing the speech for each language, and the channel selector 205 extracts the speech data for each language by a predetermined portion according to the timer value, and sets the channel. It serves to provide to the multiplexing processing unit 207.
  • the channel multiplexing processor 207 multiplexes the channel data including the interpreted voice, translation information, and conference guide information input through the channel selector 205 to meet the transport stream standard.
  • the processed results are stored in the multi-channel interpretation service data stream buffer storage 208.
  • the transport stream may follow the MPEG2-TS standard.
  • FIG. 4 is a configuration diagram of a streaming server unit for servicing a multiplexed multi-channel interpretation service data stream to a smartphone terminal.
  • the multi-channel interpretation service data stream buffer 208 is illustrated as existing outside the multi-channel multiplexer 200, but this is for convenience of description of FIG. 4. 208 first clarifies that the components present in the multi-channel multiplexer 200 as shown in FIG.
  • the streaming server unit 300 is a smart phone terminal (eg, a conference) that connects the voice data in the multi-channel interpretation service data stream buffer 208 processed by the multi-channel multiplexer 200 to the streaming server 300. It may serve as a transport stream (which may be a smartphone terminal used by the attendee or the listener). As described above, in the present specification, for convenience of description, the case of the smartphone terminal will be described, but the user terminal used by the conference attendee or the listener is not necessarily limited to the smartphone. Hereinafter, a configuration example of the streaming server 300 will be described in detail.
  • the streaming server unit 300 as shown in Figure 4, the session manager 301 for managing the connection and session of each smartphone terminal, the session to be in communication with the smartphone terminal
  • the connection unit 302 may include a session buffer 303 for transport stream transport for each session.
  • the session manager 301 checks whether the smartphone terminal is connected and allocates a new session to the terminal when the connection is made.
  • the session manager 301 is responsible for the data communication role with the smartphone terminal in the session connection unit 302, and continues to check the connection of the smartphone terminal again.
  • the session connection unit 302 is responsible for the actual data communication with the session connection unit 304 of the smartphone terminal, and sessions the voice data in the multi-channel stream buffer 208 when the terminal session connection unit 304 requests data. Copied to the buffer 303 and transmitted to the terminal, the session connection unit 304 of the terminal stores the received voice data in the reception buffer 305 of the terminal.
  • the streaming server 300 when the data request from the session-connected smartphone terminal side, the voice stream stored in the multi-channel voice stream buffer 208 of the multi-channel multiplexer 200, The data is to transmit the request to the smartphone terminal.
  • FIG. 5 is a configuration diagram of a multi-channel demultiplexer for extracting only specific channel information to be listened to from a multi-channel interpretation service data stream received from a smartphone terminal.
  • the multi-channel demultiplexer 400 selects a channel selection unit 401 that can set the language that the user wants to listen, and the user selected from the multi-channel voice stream
  • the channel extractor 402 extracts only data of the channel portion, and the voice channel buffers 403, 404, 405, and 406 to store the extracted specific language data.
  • the channel selection may be made by a method in which the channel input value is set in the channel selector 401 when the smartphone user selects a specific language that the user wants to listen to through an application program.
  • the channel extractor 402 extracts only the voice language set in the terminal reception buffer 305 by referring to the value set in the channel selector 401 and stores the voice language in the voice channel buffers 403, 404, 405, and 406. .
  • the multi-channel demultiplexer 400 when the multi-channel demultiplexer 400 receives the multi-channel interpretation service data stream and the channel input (ie language selection) stored in the terminal reception buffer from the smartphone terminal, It demultiplexes a multi-channel voice stream based on a language (ie, a channel) input (selected) by a user.
  • a language ie, a channel
  • the multi-channel demultiplexer 400 may include a voice data extractor 407 for extracting a speech portion corresponding to the listening selection language, and a translation data extractor 408 for extracting a translation text portion corresponding to the listening selection language. ),
  • the channel information data extracting unit 409 extracts a conference guide information portion corresponding to the listening selection language.
  • a voice data buffer 410 for storing the extracted voice data, a translation information buffer 411 for storing the extracted translation information, and a channel information data buffer 412 for storing the extracted conference guide information May be included.
  • the simultaneous interpretation service information decoding unit 500 each language for decoding the interpreted speech data in a specific channel buffer extracted from the multi-channel demultiplexer 400
  • the simultaneous interpretation voice decoder 510 for each language may include a codec processor 511, a codec selector 513 for selecting a decoding codec, and an analog voice buffer 514 to store the decoded analog voice.
  • the codec selector 513 checks the codec information in the voice channel buffer 410 to set the corresponding codec, and the codec processing unit 511 decodes the voice channel language using the set codec and then uses the analog voice buffer ( 514, so that the voice is output to the speaker.
  • the simultaneous interpretation voice decoding unit 510 for each language may convert the language voice data stored in each voice data buffer 410 of the multi-channel demultiplexer 400 into a corresponding codec (ie, It is to decode the audio codec corresponding to the audio codec when the speech signal of the language is encoded. Therefore, through the simultaneous interpretation voice decoding unit 510, the analog voice (that is, the original interpreter's voice) is restored for each channel (ie, language). The restored analog voice may be output through the speaker of the smartphone terminal of the user who selects the corresponding channel for each channel.
  • the real-time translation information decoding unit 520 for each language is a translation information packet analysis unit 521 for analyzing the packet in the received translation data buffer, a translation information extraction unit 522 for extracting the translated text information after analysis, extraction A translation information screen display unit 523 for displaying the displayed text data on the screen, and a screen update processing unit 524 for changing the contents displayed on the screen in real time.
  • the translation information packet analyzer 521 analyzes the data in the translation information data buffer 411 generated by the multi-channel demultiplexer 400 in packet units, and the text actually translated by the translation information extractor 522. Extract the data. The extracted data is displayed on the screen through the translation information screen display unit 523 and updates the translation information output on the screen in real time whenever the packet is reached by the screen update processing unit 524.
  • the conference guide information decoding unit 530 for each language may include a channel information packet analyzer 531, an image information extractor 532, and a text information extractor 533 for analyzing data in the channel information data buffer 412.
  • the channel information screen display unit 534 is included.
  • the channel information packet analyzer 531 analyzes conference guide packet data in the channel information data buffer 412 generated by the multi-channel demultiplexer 400, and extracts the image information extractor 532 and the text information extractor. In step 533, image guide information and text guide information are extracted. The extracted image and text information is displayed on the terminal system screen in a screen configuration combining the image and the text through the channel information screen display unit 534.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명은 기존의 동시통역 시스템을 운영하고 있는 국제 회의장, 전시장 및 세미나 외에도 중/소 규모의 동시통역이 필요한 회의장에서 고가의 동시통역 시스템을 보완 및 대체 할 수 있는 시스템 및 방법을 제공하는데 있다. 본 발명의 실시예에 의하면, 오디오, 비디오, 이미지, 텍스트 데이터를 혼합하고 분할하는 다중화(Muxing)와 역다중화(Demuxing)기술을 이용하여 동시통역 언어별로 채널 구성이 가능하고, 통역사의 음성과 함께 이미지, 텍스트 기반의 실시간 번역 정보와 회의 안내 정보를 제공하여 국제회의 참석자들에게 다양한 부가서비스를 제공할 수 있다.

Description

멀티 코덱, 멀티 채널 기반의 동시통역 서비스 제공 시스템 및 방법
본 발명은 동시통역 서비스 제공 시스템에 관한 것으로, 보다 상세하게는 멀티 코덱, 멀티 채널을 기반으로 음성, 이미지, 텍스트를 스트리밍 서비스하기 위한 동시통역 서비스 제공 시스템 및 방법에 관한 것이다.
다국 언어로 진행되는 국제 회의장, 전시장 및 세미나 등에서는 둘 이상의 동시통역사가 강연자의 강연 내용을 통역하여 이를 통역 마이크를 통하여 음성 신호를 입력하면, 이를 전용 수신기를 통하여 강연 참가자들이 통역사가 통역한 음성을 청취하는 방식으로 동시통역 서비스가 이루어지고 있다.
즉, 현재 동시통역 서비스 환경에서는 강연회에 참석한 모든 참가자에게 일일이 동시통역 수신기를 지급하는 형태로 운영되고 있다. 그러나 동시통역 수신기 자체의 단가가 비싸고 종류도 다양하여, 참석자들은 매번 동시통역 수신기의 작동방법을 숙지해야 하며, 또한 참석자들이 많은 경우에는 동시통역 수신기가 부족하여 일부 참석자들은 동시통역 서비스를 받지 못하는 등 불편함이 있다.
반면, 스마트폰은 음성통화 기능 외에 무선인터넷 애플리케이션을 통해 엔터테인먼트, 컴퓨팅, 카메라, 텔레매틱스, 방송 등 다양한 기능을 제공하여 단순 휴대폰이 아닌 멀티미디어 기기로 활용되고 있다.
따라서, 이러한 스마트폰 사용의 환경적 변화에 대응하여 기존의 동시통역 시스템을 보완 및 대체할 수 있는 서비스의 도입이 필요하다.
본 발명은 기존의 동시통역 시스템을 운영하고 있는 국제 회의장, 전시장 및 세미나 외에도 중/소 규모의 동시통역이 필요한 회의장에서 고가의 동시통역 시스템을 보완 및 대체 할 수 있는 시스템 및 방법을 제공하는데 있다.
또한 본 발명은 오디오, 비디오, 이미지, 텍스트 데이터를 혼합하고 분할하는 다중화(Muxing)와 역다중화(Demuxing)기술을 이용하여 동시통역 언어별로 채널 구성이 가능하고, 통역사의 음성과 함께 이미지, 텍스트 기반의 실시간 번역 정보와 회의 안내 정보를 제공하여 국제회의 참석자들에게 다양한 부가서비스를 제공할 수 있는 시스템 및 방법을 제공하는데 있다.
또한 본 발명은 음성 다중화(Muxing) 및 역다중화(Demuxing) 기술을 이용함으로써 동시통역 언어의 수에 제한이 없게 되고, 다수의 동시통역 음성을 다중화(Muxing)하여 스트리밍 서비스함으로써 스트리밍 서버의 입장에서 언어별 스트리밍 서비스를 제공하는 것보다 월등한 시스템 성능 향상을 가져올 수 있으며, 최근 고사양의 스마트폰 보급이 활성화되고 상황에서 서버의 부하를 청취자의 스마트폰 측으로 분산함으로써 스트리밍 서비스 성능을 향상시킬 수 있는 시스템 및 방법을 제공하는데 있다.
본 발명의 일 측면에 따르면, 통역사의 마이크로부터 수신된 아날로그 음성을 디지털 음성으로 변환하고, 각 통역 음성을 텍스트로 실시간 입력하고, 각 언어별 컨퍼런스 안내 정보를 이미지 및 텍스트 중 적어도 하나를 이용하여 편집하는 동시통역 서비스 정보 인코딩부; 상기 동시통역 서비스 정보 인코딩부에 의해 처리된 다국어의 통역 서비스 데이터를 다중화(Muxing)하는 멀티 채널 다중화부; 상기 멀티 채널 다중화부에 의해 다중화된 멀티 채널 통역 서비스 데이터 스트림을 세션 연결된 사용자 단말에 전송하는 스트리밍 서버; 상기 사용자 단말로부터 멀티 채널 데이터 스트림 및 청취 선택 언어를 수신하고, 수신된 멀티 채널 통역 서비스 데이터 스트림으로부터 상기 청취 선택 언어에 해당하는 디지털 데이터를 추출하는 멀티 채널 역다중화부; 및 상기 멀티 채널 역다중화부에 의해 추출된 디지털 음성 데이터를 아날로그 음성으로 변환하고, 실시간 번역 텍스트 및 컨퍼런스 안내 정보 데이터를 추출하고 분석하여 화면에 표출하는 동시통역 서비스 정보 디코딩부를 포함하는 동시통역 서비스 제공 시스템이 제공된다.
또한 본 발명의 다른 측면에 따르면, (a) 각기 다른 언어로 통역하는 각각의 통역사의 마이크로부터 수신된 각각의 아날로그 음성을 디지털 음성으로 각각 인코딩하고, 텍스트 기반의 번역 정보 입력 및 컨퍼런스 정보를 편집하여 저장하는 단계; (b) 인코딩된 각 국의 통역 서비스 데이터를 다중화 처리하는 단계; (c) 다중화 처리된 멀티 채널 서비스 데이터 스트림을 세션 연결된 사용자 단말로 전송하는 단계; (d) 상기 사용자 단말로부터 수신된 멀티 채널 서비스 데이터 스트림을 역다중화 처리하여, 상기 사용자 단말에 의해 선택된 청취 선택 언어에 상응하는 디지털 음성 데이터와 번역 텍스트 데이터, 컨퍼런스 채널 정보 데이터를 추출하는 단계; 및 (e) 상기 추출된 디지털 음성 데이터를 아날로그 음성으로 디코딩하고, 번역 텍스트 정보와 컨퍼런스 정보를 화면에 표출하는 단계를 포함하는 동시통역 서비스 제공 방법이 제공된다.
본 발명의 실시예에 의하면, 기존의 동시통역 환경에서 지급되었던 동시통역 수신기 대신 자신이 소유하고 있는 스마트폰을 이용하여 어플리케이션 설치를 통해 동시통역 음성을 청취할 수 있고, 청취 언어 선택이 자유로우며, 선택된 언어에 대한 이미지 및 텍스트 기반의 정보를 음성과 함께 볼 수 있다.
또한 본 발명의 실시예에 의하면, 동시통역 음성 뿐만아니라 이미지, 텍스트 데이터 정보를 각 채널별로 서비스가 가능하기 때문에 컨퍼런스 정보 등의 다양한 부가서비스를 언어별로 제공할 수 있다.
또한 본 발명의 실시예에 의하면, 기존의 고가의 동시통역 운영 시스템 대신 저가의 중/소규모의 시스템 및 방법을 제공함으로써, 동시통역 시스템 운영비의 절감 효과를 가져올 수 있다.
이에 따라, 국제회의 등에서 언어소통에 불편을 겪고 있는 잠재적 수요자의 수가 헤아릴 수 없이 많으므로 사용자의 요구수준을 만족시킬 수 있으며, 세계화 시대에 요구되는 궁극적인 획기적 통역 서비스 기술 실현을 통해 새로운 국제컨퍼런스 관련 MICE 산업에 새로운 블루오션을 창출할 수 있다.
또한 세계화(Globalization)가 가속화 되고 있는 상황에서 통역 서비스 기술의 개발은 언어장벽의 해소를 통하여 보다 다양한 분야의 사람들이 국제협력 등 활동을 할 수 있게 되며, 한류의 확산, 외국인의 국내활동 기반 강화, 국제 무역의 확대, 관광산업의 진흥 등 국제화를 통하여 국제사회에서의 우리나라의 위상을 높이고 국가 경쟁력을 강화시킬 수 있다.
도 1은 본 발명의 실시예에 따른 동시통역 서비스 제공 시스템 및 방법에 대한 전체 구성도.
도 2는 마이크의 아날로그 음성을 디지털 음성으로 변환하고, 실시간 번역정보 입력 및 컨퍼런스 안내 정보를 편집하고 저장하기 위한 동시통역 서비스 정보 인코딩부의 일 구성도.
도 3은 언어별 통역 서비스 정보를 다중화하여 하나의 전송 스트림으로 다중화하기 위한 멀티 채널 다중화부의 일 구성도.
도 4는 다중화된 멀티 채널 통역 서비스 데이터 스트림을 스마트폰 단말에 서비스하기 위한 스트리밍 서버부의 일 구성도.
도 5는 스마트폰 단말에서 수신 받은 멀티 채널 통역 서비스 데이터 스트림 중에서 청취하고자하는 특정 채널 정보만을 추출하는 멀티 채널 역다중화부의 일 구성도.
도 6은 디지털 음성을 아날로그 음성으로 변환하여 디코딩하고, 번역 정보, 컨퍼런스 정보를 화면에 표출하는 동시통역 서비스 정보 디코딩부의 일 구성도.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 이를 상세한 설명을 통해 상세히 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
본 발명을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 본 명세서의 설명 과정에서 이용되는 숫자(예를 들어, 제1, 제2 등)는 하나의 구성요소를 다른 구성요소와 구분하기 위한 식별기호에 불과하다.
또한, 본 명세서에서, 일 구성요소가 다른 구성요소와 "연결된다" 거나 "접속된다" 등으로 언급된 때에는, 상기 일 구성요소가 상기 다른 구성요소와 직접 연결되거나 또는 직접 접속될 수도 있지만, 특별히 반대되는 기재가 존재하지 않는 이상, 중간에 또 다른 구성요소를 매개하여 연결되거나 또는 접속될 수도 있다고 이해되어야 할 것이다.
또한 이하 설명할 도면들에 기재된 구성요소들은 각각의 구성요소가 갖는 기능에 초점을 맞춰 구분된 것에 불과하다. 따라서, 2개 이상의 구성요소가 하나의 구성요소로 통합 구현될 수도 있으며, 1개의 구성요소가 보다 세분화된 복수의 구성요소로 분리 구현될 수도 있음은 물론이다. 이러한 이유로, 특정 구성이 본 발명의 실시예에서의 적어도 하나의 구성요소와 동일한 기능을 수행한다면, 각 구성요소로의 구분 및 그 명칭과 무관하게, 해당 구성요소들과 동일한 구성인 것으로 해석되어야 할 것이다.
본 발명은 다국 언어로 진행되는 국제 회의장, 전시장 및 세미나 등에서 최소 둘 이상의 동시통역사가 동시통역 서비스를 제공하는 시스템 설치 비용의 감소와 사용자 편의성을 제공하기 위한 방법에 관한 것으로, 본 발명을 위해서는 통역사의 마이크로 출력되는 아날로그 음성을 디지털 음성으로 변환하고, 실시간 번역 텍스트 데이터, 컨퍼런스 안내 정보 등의 이미지, 텍스트 기반 데이터를 인코딩하는 기술과, 각 언어 별 음성 및 정보 데이터를 하나의 스트림으로 다중화(Muxing)하는 전송 스트리밍(Transport Streaming) 기술, 수신 단말에서 청취하고자 하는 특정 언어 채널만을 추출하는 역다중화(Demuxing) 기술, 그리고 디지털 음성을 다시 아날로그 음성으로 변환하여 스피커로 출력하고, 번역 텍스트, 컨퍼런스 안내정보 데이터를 디코딩하여 브라우저로 표출하는 기술이 전제된다.
이러한 데이터의 혼합에 대한 규격이 MPEG2-TS 표준이며, 각 데이터(오디오+비디오+이미지+텍스트) 별로 서비스 채널을 구성이 가능하고, 서버 시스템의 Muxer와 단말 시스템의 Demuxer를 구성하여 각 언어별로 멀티코덱, 멀티채널 기반으로 음성과 데이터를 혼합하여 서비스가 가능해진다. 즉, 본 발명에 의하면, 오디오, 비디오, 이미지, 텍스트 기반 다채널 구성이 가능해짐으로 인해 각 언어별로 동시통역사의 음성과 함께 실시간 번역 내용, 회의 안내 정보(이미지, 텍스트) 등의 다양한 데이터 서비스를 제공할 수 있다.
이하, 첨부된 도면들을 참조하여 본 발명의 실시예에 관하여 상세히 설명하기로 한다.
[도 1의 설명]
도 1은 멀티코덱, 멀티 채널 기반으로 음성, 이미지, 텍스트를 채널별로 스트리밍 서비스하기 위한 통시통역 서비스 제공 시스템 및 방법에 대한 전체 구성도이다.
도 1을 참조하면, 본 발명의 실시예에 따른 동시통역 서비스 제공 시스템은, 동시통역 서비스 정보 인코딩부(100), 멀티 채널 다중화부(200), 스트리밍 서버(300), 멀티 채널 역다중화부(400), 동시통역 서비스 정보 디코딩부(500)를 포함한다.
동시통역 정보 인코딩부(100)는 통역사의 마이크로부터 전달되는 아날로그 음성을 디지털 음성으로 인코딩하고, 각 언어별 실시간 번역 텍스트 정보와, 이미지, 텍스트 기반의 각 언어별 컨퍼런스 안내 정보를 입력 받아 인코딩하여 패킷으로 변환한다.
여기서, 컨퍼런스 안내 정보는, 해당 컨퍼런스와 관련된 일정, 현재 진행 중인 강연과 관련된 정보(예를 들어, 강연자 약력, 저서, 주요 활동 등의 강연자 정보, 강연 내용에 포함된 레퍼런스 또는/및 참조자료에 관한 정보 및 이미지 파일 등), 네트워킹 가능한 참석자 정보 등을 포함할 수 있다.
멀티 채널 다중화부(200)는 각 언어별 인코딩된 채널 데이터(음성, 실시간 번역 텍스트, 컨퍼런스 안내 정보)를 다중화(Muxing)한다.
스트리밍 서버부(300)는 그 다중화된 통역 서비스 데이터 스트림을 사용자 단말(예를 들어, 회의 참석자 또는 청취자가 사용하는 단말)에 서비스한다.
그리고 멀티 채널 역다중화부(400)는 사용자 단말로부터 수신받은 통역 서비스 데이터 스트림에서 특정 언어 채널만을 선택하여 해당 채널의 통역 음성, 번역 텍스트, 컨퍼런스 안내 정보를 추출하여 음성은 디코딩하여 스피커로 출력하고, 번역 정보와 컨퍼런스 안내 정보는 화면 구성을 통해 사용자 화면에 표출하는 기능을 수행한다.
또한 동시통역 서비스 정보 디코딩부(500)는 사용자에 의해 선택된 채널에 대한 통역 음성, 번역 텍스트, 컨퍼런스 안내 정보를 언어 음성을 아날로그로 변환 출력하는 역할을 수행한다.
이하, 본 발명의 실시예에 따른 동시통역 서비스 제공 시스템과 관련된 각 구성요소들에 대해서, 도 2 내지 도 6을 참조하여 그 세부 구성을 보다 구체적으로 설명한다.
[도 2 - 동시통역 서비스 인코딩부의 설명]
도 2는 마이크의 아날로그 음성을 디지털 음성으로 변환하고, 각 언어별 텍스트 기반의 번역 정보와 각 언어별 컨퍼런스 안내 정보를 데이터화하기 위한 인코딩부의 일 구성도이다.
일 실시예에 의할 때, 본 발명에 적용될 동시통역 서비스 인코딩부(100)는 도 2에 도시한 바와 같이, 크게 각 언어별 동시통역 음성 인코딩부(110), 각 언어별 실시간 번역 정보 인코딩부(120), 각 언어별 컨퍼런스 안내 정보 인코딩부(130)을 포함할 수 있다.
여기서, 각 언어별 동시통역 음성 인코딩부(110)는 아날로그 음성 버퍼(112), 코덱 선택기(113), 코덱 처리부(115), 인코딩 음성 버퍼(116)를 포함할 수 있다.
아날로그 음성 버퍼(112)는 통역사의 마이크로부터 출력되는 아날로그 음성이 저장되는 음성 저장소이며, 코덱 선택기(113)는 MPEG2, AAC, MP3 등 다양한 코덱 중에서 아날로그 음성을 디지털 음성으로 변환하기 위한 코덱을 선택하는 역할을 수행한다. 여기서, 오디오 코덱은 시스템 관리자에 의해 설정된 설정 값에 의해 선택이 이루어질 수 있다. 또한, 본 발명에서 오디오 코덱은 전술한 MPEG2, AAC, MP3에 한정되는 것이 아니며, 음성 신호의 인코딩에 이용될 수 있는 오디오 코덱은 별다른 제한 없이 모두 이용 가능할 것임은 물론이다.
코덱 처리부(115)는 코덱 선택기 값에 따라 선택된 코덱을 이용하여, 통역사의 아날로그 음성을 디지털 음성으로 변환하는 역할을 수행한다. 여기서, 인코딩 음성 버퍼(116)는 변환된 디지털 음성(즉, 코덱 처리부(115)에 의해 처리된 인코딩된 음성)이 저장되는 음성 저장소이다.
그리고 각 언어별 실시간 번역 정보 인코딩부(120)는 번역 텍스트 실시간 입력부(121)와 유효한 텍스트만을 추출하여 패킷화하기 위한 텍스트 패킷화부(123), 패킷화된 데이터를 저장하기 위한 번역 정보 인코딩 데이터 버퍼(124)를 포함할 수 있다.
여기서, 번역 텍스트 실시간 입력부(121)는 강사의 말을 실시간으로 번역하여 입력 프로그램을 이용하여 번역된 텍스트를 입력하며, 텍스트 패킷화부(123)는 입력된 텍스트 중에 스트리밍 전송하기에 부적합한 데이터를 필터링하여 유효한 데이터만을 추출하며, 스트리밍 서비스를 위한 데이터 패킷을 생성하여 인코딩 버퍼(124)에 저장한다
그리고 각 언어별 컨퍼런스 안내 정보 인코딩부(130)는 컨퍼런스 정보 입력부(131), 텍스트 입력부(132), 이미지 편집부(133), 안내정보를 일정 주기로 전송하기 위한 스케쥴러(134), 안내정보를 스트리밍 서비스하기 위한 데이터로 처리하기 위한 채널 정보 패킷화부(135), 패킷화된 데이터를 저장하기 위한 컨퍼런스 정보 인코딩 데이터 버퍼(136)를 포함할 수 있다.
여기서, 컨퍼런스 정보 입력부(131)은 텍스트 기반의 안내 정보를 편집하기 위한 텍스트 입력부(132)와 이미지 기반의 안내 정보를 편집하기 위한 이미지 편집부(133)로 구성될 수 있다. 이때, 컨포런스 정보는 실시간 데이터가 아니므로 단말 시스템 입장에서는 한번만 데이터를 받으면 되기 때문에 지속적으로 데이터를 전송할 필요가 없으므로, 네트워크 부하를 고려하여 스케쥴러(134)에서 일정 주기 단위로 안내 정보 전송을 위한 채널 정보 패킷화(135) 작업을 수행하여 컨퍼런스 정보 인코딩 데이터 버퍼(136)로 저장할 수 있다.
[도 3 - 멀티 채널 다중화부의 설명]
도 3은 각 언어별 통역 음성과 번역 정보, 컨퍼런스 안내 정보를 다중화하여 하나의 전송 스트림으로 다중화하기 위한 멀티 채널 다중화부의 일 구성도이다.
본 발명의 실시예에서, 멀티 채널 다중화부(200)는 도 3에 도시한 바와 같이, 각 언어별(즉, 채널 별)로 동시통역 서비스 정보 인코딩부(100)를 통해 처리된 음성 데이터를 저장하는 디지털 채널 데이터 버퍼 저장소(201, 202, 203, 204)와, 시간 단위로 각 채널 데이터를 다중화하기 위한 타이머(206)와, 타이머에 의한 각 언어별 채널 데이터를 선택하기 위한 채널 선택부(205)와, 그 각 채널을 다중화(Muxing)하기 위한 채널 다중화 처리부(207)와, 다중화(Muxing) 처리된 채널 데이터가 저장되는 멀티채널 통역 서비스 데이터 스트림(Transport Stream) 버퍼(208)를 포함할 수 있다.
여기서, 디지털 채널 데이터 버퍼 저장소(201, 202, 203, 204)는 각 언어별로 각각 저장소를 가지고 있으며, 인코딩 처리된 디지털 채널 데이터가 저장된다. 타이머(206)는 각 언어별 음성을 다중화(Muxing)하기 위한 주기를 설정하기 위한 값이 설정되어 있으며, 채널 선택부(205)는 타이머 값에 따라 각 언어별 음성 데이터를 일정 부분씩 추출하여 채널 다중화 처리부(207)에 제공하는 역할을 수행한다.
그리고 채널 다중화 처리부(207)는 채널 선택부(205)를 통해 입력된 통역음성, 번역 정보, 컨퍼런스 안내 정보를 포함하는 채널 데이터를 전송 스트림(Transport Stream) 규격에 맞도록 다중화(Muxing) 처리하며, 처리된 결과를 멀티 채널 통역 서비스 데이터 스트림 버퍼 저장소(208)에 저장한다. 여기서, 전송 스트림(Transport Stream)은 MPEG2-TS 표준 규격을 따를 수 있다.
[도 4 - 스트리밍 서버부의 설명]
도 4는 다중화된 멀티 채널 통역 서비스 데이터 스트림을 스마트폰 단말에 서비스하기 위한 스트리밍 서버부의 일 구성도이다.
도 4에서는 멀티 채널 통역 서비스 데이터 스트림 버퍼(208)를 멀티 채널 다중화부(200) 외부에 존재하는 것과 같이 도시하였지만, 이는 도 4의 설명의 편의를 위한 것일 뿐, 멀티 채널 통역 서비스 데이터 스트림 버퍼(208)는 도 3에 도시된 바와 같이 멀티 채널 다중화부(200) 내에 존재하는 구성요소임을 먼저 명확히 한다.
스트리밍 서버부(300)는 멀티 채널 다중화부(200)에서 처리된 멀티 채널 통역 서비스 데이터 스트림 버퍼(208)에 있는 음성 데이터를 스트리밍 서버(300)에 접속한 각 스마트폰 단말(예를 들어, 회의 참석자 또는 청취자가 사용하는 스마트폰 단말일 수 있음)에 전송 스트림(Transport Stream)을 전달하는 역할을 한다. 이와 같이 본 명세서에서는 그 설명의 편의를 위해, 스마트폰 단말의 경우를 중심으로 설명하지만, 회의 참석자 또는 청취자 등이 사용하는 사용자 단말은 반드시 스마트폰에 한정되어야 할 필요는 없음은 물론이다. 이하, 스트리밍 서버(300)의 구성례를 상세히 설명한다.
본 발명의 실시예에서, 스트리밍 서버부(300)는 도 4에 도시한 바와 같이, 각 스마트폰 단말의 접속 및 세션을 관리하기 위한 세션 관리자(301)와, 스마트폰 단말과 통신을 담당할 세션 연결부(302)와, 각 세션별로 전송 스트림(Transport Stream) 전송을 위한 세션 버퍼(303)를 포함할 수 있다.
여기서, 세션 관리자(301)는 스마트폰 단말의 접속 여부를 체크하며, 접속이 이루어졌을 시에 새로운 세션을 단말에 할당한다. 또한 세션 관리자(301)는, 세션 연결부(302)에 스마트폰 단말과의 데이터 통신 역할을 전담시키고, 다시 스마트폰 단말의 접속을 계속해서 체크한다.
그리고 세션 연결부(302)는, 스마트폰 단말의 세션 연결부(304)와 실질적 데이터 통신 업무를 담당하며, 단말 세션 연결부(304)의 데이터 요청 시에 멀티 채널 스트림 버퍼(208)에 있는 음성 데이터를 세션 버퍼(303)에 복사하여 단말에 전송하며, 단말의 세션 연결부(304)는 수신 받은 음성 데이터를 단말의 수신 버퍼(305)에 저장한다.
즉, 본 발명의 실시예에서, 스트리밍 서버(300)는, 세션 연결된 스마트폰 단말 측에서 데이터 요청하였을 경우, 멀티 채널 다중화부(200)의 멀티 채널 음성 스트림 버퍼(208)에 저장된 음성 스트림을, 그 데이터 요청한 스마트폰 단말로 전송하여 주는 역할을 수행하는 것이다.
[도 5 - 멀티 채널 역다중화부의 설명]
도 5는 스마트폰 단말에서 수신 받은 멀티 채널 통역 서비스 데이터 스트림 중에서 청취하고자하는 특정 채널 정보만을 추출하는 멀티 채널 역다중화부의 일 구성도이다.
본 발명의 실시예에서, 멀티 채널 역다중화부(400)는 도 5에 도시한 바와 같이, 사용자가 청취하고 싶은 언어를 설정할 수 있는 채널 선택부(401)와, 멀티 채널 음성 스트림에서 사용자가 선택한 채널 부분의 데이터만 추출하는 채널 추출부(402)와, 추출된 특정 언어의 데이터가 저장될 음성 채널 버퍼(403, 404, 405, 406)를 포함할 수 있다.
여기서, 채널 선택은, 스마트폰 사용자가 자신이 청취하고자 하는 특정 언어를 응용 프로그램을 통해 선택하면, 그 채널 입력 값이 채널 선택부(401)에 설정되는 방식 등에 의해 이루어질 수 있다. 이 경우, 채널 추출부(402)는 채널 선택부(401)에 설정된 값을 참조하여 단말 수신 버퍼(305)에서 설정된 음성 언어만을 추출하여 음성 채널 버퍼(403, 404, 405, 406)에 저장한다.
즉, 본 발명의 실시예에서, 멀티 채널 역다중화부(400)는, 스마트폰 단말로부터 그 단말 수신 버퍼에 저장된 멀티 채널의 통역 서비스 데이터 스트림과 채널 입력(즉, 언어 선택)을 수신한 경우, 멀티 채널 음성 스트림을 사용자에 의해 입력(선택)된 언어(즉, 채널)에 근거하여 역다중화하는 역할을 수행하는 것이다.
그리고 멀티 채널 역다중화부(400)는, 상기 청취 선택 언어에 상응하여 음성 부분을 추출하는 음성 데이터 추출부(407), 상기 청취 선택 언어에 상응하여 번역 텍스트 부분을 추출하는 번역 데이터 추출부(408), 상기 청취 선택 언어에 상응하여 컨퍼런스 안내 정보 부분을 추출하는 채널 정보 데이터 추출부(409)를 포함할 수 있다. 또한 각 추출부들에 대응하여, 추출된 음성 데이터가 저장되는 음성 데이터 버퍼(410), 추출된 번역 정보가 저장되는 번역 정보 버퍼(411), 추출된 컨퍼런스 안내 정보가 저장되는 채널 정보 데이터 버퍼(412)를 포함할 수 있다.
[도 6 - 동시통역 서비스 정보 디코딩부의 설명]
도 6은 디지털 채널 정보를 각 데이터별로 추출하며 통역 음성을 아날로그 음성으로 디코딩하고, 패킷화된 번역 정보를 디코딩하여 번역 텍스트 정보를 추출하고, 패킷회된 컨퍼런스 안내 정보를 디코딩하여 컨퍼런스 안내를 위한 텍스트와 이미지 정보를 추출하고 화면에 표출하는 동시통역 디코딩부의 일 구성도이다.
본 발명의 실시예에서, 동시통역 서비스 정보 디코딩부(500)는 도 6에 도시한 바와 같이, 멀티 채널 역다중화부(400)에서 추출된 특정 채널 버퍼에 있는 통역 음성 데이터를 디코딩하기 위한 각 언어별 동시통역 음성 디코딩부(510)와 각 언어별 실시간 번역 정보 디코딩부(520), 각 언어별 컨퍼런스 안내 정보 디코딩부(530)를 포함한다.
여기서 각 언어별 동시통역 음성 디코딩부(510)는 코덱 처리부(511), 디코딩 코덱 선택을 위한 코덱 선택기(513), 디코딩된 아날로그 음성을 저장할 아날로그 음성 버퍼(514)를 포함할 수 있다.
여기서, 코덱 선택기(513)는 음성 채널 버퍼(410)에 있는 코덱 정보를 확인하여 해당하는 코덱을 설정하며, 코덱 처리부(511)는 설정 코덱을 이용하여 음성 채널 언어를 디코딩한 후 아날로그 음성 버퍼(514)로 저장하여, 스피커로 음성이 출력되도록 한다.
즉, 본 발명의 실시예에서, 각 언어별 동시통역 음성 디코딩부(510)는, 멀티 채널 역다중화부(400)의 각 음성 데이터 버퍼(410)에 저장된 언어 음성 데이터를 대응된 코덱(즉, 앞서 해당 언어의 음성 신호가 인코딩되었을 때의 오디오 코덱에 상응하는 코덱)으로 디코딩하는 역할을 수행하는 것이다. 따라서 동시통역 음성 디코딩부(510)를 거치면, 채널(즉, 언어) 별로 아날로그 음성(즉, 원래의 통역사의 음성)이 복원되게 된다. 이와 같이 복원된 아날로그 음성은 그 채널 별로 해당 채널을 선택한 사용자의 스마트폰 단말의 스피커를 통해 출력될 수 있는 것이다.
또한 각 언어별 실시간 번역 정보 디코딩부(520)는 수신 받은 번역 데이터 버퍼에 있는 패킷을 분석하는 번역 정보 패킷 분석부(521), 분석 후 번역 텍스트 정보를 추출하는 번역 정보 추출부(522), 추출된 텍스트 데이터를 화면에 표출하기 위한 번역 정보 화면 표출부(523), 화면에 표출되는 내용을 실시간으로 변경하기 위한 화면 업데이트 처리부(524)를 포함한다.
여기서 번역 정보 패킷 분석부(521)은 멀티 채널 역다중화기(400)을 통해 생성된 번역 정보 데이터 버퍼(411)에 있는 데이터를 패킷단위로 분석하며, 번역 정보 추출부(522)에서 실제 번역된 텍스트 데이터를 추출해낸다. 이 추출된 데이터는 번역 정보 화면 표출부(523)를 통해 화면에 표출되며, 화면 업데이트 처리부(524)에서 패킷을 도달할때마다 실시간으로 화면에 출력되는 번역 정보를 업데이트 하도록한다.
또한 각 언어별 컨퍼런스 안내 정보 디코딩부(530)는 채널 정보 데이터 버퍼(412)에 있는 데이터를 분석하는 채널 정보 패킷 분석부(531), 이미지 정보 추출부(532), 텍스트 정보 추출부(533), 채널 정보 화면 표출부(534)를 포함한다.
여기서, 채널 정보 패킷 분석부(531)는 멀티 채널 역다중화기(400)을 통해 생성된 채널 정보 데이터 버퍼(412)에 있는 컨퍼런스 안내 패킷 데이터를 분석하고 이미지 정보 추출부(532)와 텍스트 정보 추출부(533)에서 각각 이미지 안내 정보와 텍스트 안내 정보를 추출한다. 추출된 이미지, 텍스트 정보는 채널 정보 화면 표출부(534)를 통해 이미지와 텍스트를 조합한 화면 구성으로 단말 시스템 화면에 표출된다.
본 발명의 멀티코덱, 멀티 채널 기반으로 음성, 이미지, 텍스트를 채널별로 스트리밍 서비스하기 위한 통시통역 제공 시스템 및 방법은 전술한 실시예에 국한되지 않고 본 발명의 기술 사상이 허용하는 범위에서 다양하게 변형하여 실시할 수가 있다. 즉, 이상에서는 본 발명의 실시예를 참조하여 설명하였지만, 해당 기술 분야에서 통상의 지식을 가진 자라면 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 쉽게 이해할 수 있을 것이다.

Claims (9)

  1. 통역사의 마이크로부터 수신된 아날로그 음성을 디지털 음성으로 변환하고, 각 통역 음성을 텍스트로 실시간 입력하고, 각 언어별 컨퍼런스 안내 정보를 이미지 및 텍스트 중 적어도 하나를 이용하여 편집하는 동시통역 서비스 정보 인코딩부;
    상기 동시통역 서비스 정보 인코딩부에 의해 처리된 다국어의 통역 서비스 데이터를 다중화(Muxing)하는 멀티 채널 다중화부;
    상기 멀티 채널 다중화부에 의해 다중화된 멀티 채널 통역 서비스 데이터 스트림을 세션 연결된 사용자 단말에 전송하는 스트리밍 서버;
    상기 사용자 단말로부터 멀티 채널 데이터 스트림 및 청취 선택 언어를 수신하고, 수신된 멀티 채널 통역 서비스 데이터 스트림으로부터 상기 청취 선택 언어에 해당하는 디지털 데이터를 추출하는 멀티 채널 역다중화부; 및
    상기 멀티 채널 역다중화부에 의해 추출된 디지털 음성 데이터를 아날로그 음성으로 변환하고, 실시간 번역 텍스트 및 컨퍼런스 안내 정보 데이터를 추출하고 분석하여 화면에 표출하는 동시통역 서비스 정보 디코딩부
    를 포함하는 동시통역 서비스 제공 시스템.
  2. 제1항에 있어서, 상기 동시통역 서비스 정보 인코딩부는,
    상기 통역사의 마이크로부터 출력되는 아날로그 음성이 저장되는 아날로그 음성 버퍼;
    미리 저장된 복수개의 코덱 중 상기 아날로그 음성을 디지털 음성으로 변환하기 위한 코덱을 선택하는 코덱 선택기;
    상기 코덱 선택기에 의해 선택된 코덱을 이용하여, 상기 통역사의 아날로그 음성을 디지털 음성으로 변환하는 코덱 처리부;
    상기 변환된 디지털 음성이 저장되는 인코딩 음성 버퍼;
    해당 언어의 통역사 음성을 텍스트 기반으로 실시간 입력하는 번역 텍스트 실시간 입력부;
    입력된 텍스트를 필터링하여 유효한 데이터만을 추출하고 패킷화하여 저장하는 번역 정보 인코딩 버퍼;
    각 언어별 텍스트 기반의 컨퍼런스 안내 정보를 입력하는 텍스트 입력부;
    이미지 기반의 컨퍼런스 안내 정보를 편집하기 위한 이미지 편집부;
    상기 텍스트 입력부와 상기 이미지 편집부에서 처리된 데이터를 패킷화하여 저장하기 위한 채널 데이터 버퍼; 및
    입력되는 데이터를 일정 주기로 전송하기 위한 스케쥴러를 포함하는, 동시통역 서비스 제공 시스템.
  3. 제1항에 있어서, 상기 멀티 채널 다중화부는,
    각 언어별로 상기 멀티 코덱 인코딩부를 통해 처리된 디지털 음성을 저장하는 디지털 채널 데이터 버퍼 저장소;
    미리 지정된 시간 단위로 각 언어별 통역 음성, 번역 텍스트, 컨퍼런스 안내 정보 데이터를 다중화하기 위한 주기를 설정하고 있는 타이머;
    상기 타이머에 설정된 주기 값에 따라 각 언어별 통역 음성과 번역 텍스트, 컨퍼런스 안내 정보를 선택하는 채널 선택부;
    각 채널의 디지털 데이터를 다중화(Muxing)하는 채널 다중화 처리부; 및
    상기 다중화(Muxing) 처리된 데이터가 저장되는 멀티 채널 통역 서비스 데이터 스트림 버퍼를 포함하는, 동시통역 서비스 제공 시스템.
  4. 제1항에 있어서, 상기 스트리밍 서버는,
    음성, 이미지, 텍스트 기반의 통역 서비스 정보를 제공받고자 하는 각 사용자의 사용자 단말과의 접속 및 세션을 관리하기 위한 세션 관리자;
    상기 사용자 단말과 통신을 담당하는 세션 연결부; 및
    각 세션 별로 전송 스트림(Transport Stream) 전송을 위한 세션 버퍼를 포함하는, 동시통역 서비스 제공 시스템.
  5. 제1항에 있어서, 상기 멀티 채널 역다중화부는,
    상기 사용자 단말로부터 수신된 상기 청취 선택 언어가 설정되는 채널 선택부;
    상기 사용자 단말로부터 수신된 멀티 채널 데이터 스트림에서 상기 사용자가 선택한 언어에 상응하는 채널의 데이터를 추출하는 채널 추출부;
    상기 청취 선택 언어에 상응하여 음성 부분을 추출하는 음성 데이터 추출부;
    상기 청취 선택 언어에 상응하여 번역 텍스트 부분을 추출하는 번역 데이터 추출부;
    상기 청취 선택 언어에 상응하여 컨퍼런스 안내 정보 부분을 추출하는 채널 정보 데이터 추출부;
    추출된 음성 데이터가 저장되는 음성 데이터 버퍼;
    추출된 번역 정보가 저장되는 번역 정보 버퍼; 및
    추출된 컨퍼런스 안내 정보가 저장되는 채널 정보 데이터 버퍼를 포함하는, 동시통역 서비스 제공 시스템.
  6. 제1항에 있어서, 상기 동시통역 서비스 정보 디코딩부는,
    상기 멀티 채널 역다중화부에서 추출된 특정 채널 버퍼에 있는 데이터를 디코딩하기 위한 코덱 처리부;
    디코딩 코덱 선택을 위한 코덱 선택기;
    디코딩된 아날로그 음성을 저장할 아날로그 음성 버퍼;
    멀티 채널 역다중화부에 의해 추출된 실시간 번역 텍스트 정보를 수집하는 번역 정보 추출부;
    상기 멀티 채널 역다중화부에 의해 추출된 컨퍼런스 채널 정보를 수집하는 채널 정보 추출부;
    번역 정보를 화면에 표출하기 위한 번역 정보 화면 표출부; 및
    컨퍼런스 안내 정보를 화면에 표출하기 위한 채널 정보 화면 표출부를 포함하는, 동시통역 서비스 제공 시스템.
  7. 동시통역 서비스 제공 시스템을 통한 동시통역 서비스 제공 방법으로서,
    (a) 각기 다른 언어로 통역하는 각각의 통역사의 마이크로부터 수신된 각각의 아날로그 음성을 디지털 음성으로 각각 인코딩하고, 텍스트 기반의 번역 정보 입력 및 컨퍼런스 안내 정보를 편집하여 저장하는 단계;
    (b) 인코딩된 통역 음성, 번역 정보, 컨퍼런스 안내 정보에 관한 데이터를 다중화 처리하는 단계;
    (c) 다중화 처리된 멀티 채널 서비스 데이터 스트림을 세션 연결된 사용자 단말로 전송하는 단계;
    (d) 상기 사용자 단말로부터 수신된 멀티 채널 서비스 데이터 스트림을 역다중화 처리하여, 상기 사용자 단말에 의해 선택된 청취 선택 언어에 상응하는 디지털 음성 데이터와 번역 텍스트 데이터, 컨퍼런스 안내 정보 데이터를 추출하는 단계; 및
    (e) 상기 추출된 디지털 음성 데이터를 아날로그 음성으로 디코딩하고, 번역 텍스트 정보와 컨퍼런스 안내 정보를 화면에 표출하는 단계
    를 포함하는 동시통역 서비스 제공 방법.
  8. 제7항에 있어서, 상기 (c) 단계는,
    상기 사용자 단말과의 접속 및 세션을 설정하는 단계 및
    상기 사용자 단말로부터 데이터 전송 요청이 수신되는 경우, 연결된 세션을 이용하여 상기 멀티 채널 서비스 데이터 스트림을 상기 사용자 단말로 전송하는 단계를 포함하는, 동시통역 서비스 제공 방법.
  9. 제7항에 있어서, 상기 (d) 단계는,
    상기 사용자 단말로부터 상기 청취 선택 언어를 수신하는 단계;
    상기 사용자 단말로부터 멀티 채널 서비스 데이터 스트림을 수신하는 단계; 및
    상기 수신된 청취 선택 언어 및 멀티 채널 서비스 데이터 스트림에 근거하여, 상기 청취 선택 언어에 상응하는 디지털 음성 및 번역 정보, 컨퍼런스 안내 정보에 관한 데이터를 각각 추출하는 단계를 포함하는, 동시통역 서비스 제공 방법.
PCT/KR2014/008819 2014-09-23 2014-09-23 멀티 코덱, 멀티 채널 기반의 동시통역 서비스 제공 시스템 및 방법 WO2016047818A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/KR2014/008819 WO2016047818A1 (ko) 2014-09-23 2014-09-23 멀티 코덱, 멀티 채널 기반의 동시통역 서비스 제공 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2014/008819 WO2016047818A1 (ko) 2014-09-23 2014-09-23 멀티 코덱, 멀티 채널 기반의 동시통역 서비스 제공 시스템 및 방법

Publications (1)

Publication Number Publication Date
WO2016047818A1 true WO2016047818A1 (ko) 2016-03-31

Family

ID=55581333

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2014/008819 WO2016047818A1 (ko) 2014-09-23 2014-09-23 멀티 코덱, 멀티 채널 기반의 동시통역 서비스 제공 시스템 및 방법

Country Status (1)

Country Link
WO (1) WO2016047818A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110111768A (zh) * 2019-04-25 2019-08-09 数译(成都)信息技术有限公司 音频同传方法、系统及计算机设备、计算机可读存储介质
CN110534115A (zh) * 2019-10-14 2019-12-03 上海企创信息科技有限公司 多方言混合语音的识别方法、装置、系统和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110246172A1 (en) * 2010-03-30 2011-10-06 Polycom, Inc. Method and System for Adding Translation in a Videoconference
US20120078608A1 (en) * 2006-10-26 2012-03-29 Mobile Technologies, Llc Simultaneous translation of open domain lectures and speeches
KR101223975B1 (ko) * 2011-11-16 2013-01-21 재단법인 제주테크노파크 멀티 코덱, 멀티 채널 기반의 동시 통역 음성 전송 시스템 및 방법
WO2013133477A1 (ko) * 2012-03-05 2013-09-12 Jeon Jeong-Hwan 온라인 생방송을 위한 실시간 다국어 자막 서비스 시스템 및 그 방법
JP5534813B2 (ja) * 2006-09-30 2014-07-02 華為技術有限公司 多言語会議を実現するシステム、方法、及び多地点制御装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5534813B2 (ja) * 2006-09-30 2014-07-02 華為技術有限公司 多言語会議を実現するシステム、方法、及び多地点制御装置
US20120078608A1 (en) * 2006-10-26 2012-03-29 Mobile Technologies, Llc Simultaneous translation of open domain lectures and speeches
US20110246172A1 (en) * 2010-03-30 2011-10-06 Polycom, Inc. Method and System for Adding Translation in a Videoconference
KR101223975B1 (ko) * 2011-11-16 2013-01-21 재단법인 제주테크노파크 멀티 코덱, 멀티 채널 기반의 동시 통역 음성 전송 시스템 및 방법
WO2013133477A1 (ko) * 2012-03-05 2013-09-12 Jeon Jeong-Hwan 온라인 생방송을 위한 실시간 다국어 자막 서비스 시스템 및 그 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110111768A (zh) * 2019-04-25 2019-08-09 数译(成都)信息技术有限公司 音频同传方法、系统及计算机设备、计算机可读存储介质
CN110534115A (zh) * 2019-10-14 2019-12-03 上海企创信息科技有限公司 多方言混合语音的识别方法、装置、系统和存储介质
CN110534115B (zh) * 2019-10-14 2021-11-26 上海企创信息科技有限公司 多方言混合语音的识别方法、装置、系统和存储介质

Similar Documents

Publication Publication Date Title
KR101454745B1 (ko) 멀티 코덱, 멀티 채널 기반의 동시통역 서비스 제공 시스템 및 방법
KR960036650A (ko) 종합정보통신망을 이용한 화상회의 제어시스템
WO2014069785A1 (ko) 다자간 영상 통화 장치 및 이를 이용한 다자간 영상 출력 방법
WO2013077524A1 (ko) 사용자 인터페이스 표시 방법 및 그를 이용한 장치
CN104038722A (zh) 一种视频会议的内容交互方法及系统
KR101223975B1 (ko) 멀티 코덱, 멀티 채널 기반의 동시 통역 음성 전송 시스템 및 방법
WO2013165205A1 (en) Method and system for managing module identification information, and device supporting the same
US10038879B2 (en) Bi-directional virtual reality system
JP2014021485A (ja) 多国言語音声翻訳を具えるテレビシステム及びその実現方法
WO2018169255A1 (en) Electronic apparatus and control method thereof
CN101472138A (zh) 一种数字机顶盒节目流分享实现系统及方法
WO2013133477A1 (ko) 온라인 생방송을 위한 실시간 다국어 자막 서비스 시스템 및 그 방법
JP2023515392A (ja) 情報処理方法、システム、装置、電子機器及び記憶媒体
WO2015041434A1 (ko) 다국어 메시지 번역 시스템 및 그 방법
CN115550705A (zh) 一种音频播放方法及装置
WO2019225788A1 (ko) 복수의 채널을 이용하여 동적 비트레이트의 비디오를 송출 및 재생하는 방법 및 시스템
WO2016047818A1 (ko) 멀티 코덱, 멀티 채널 기반의 동시통역 서비스 제공 시스템 및 방법
CN107005681A (zh) 通用镜像接收器
CN109981575A (zh) 虚拟化环境下的语音室
CN108712271A (zh) 翻译方法和翻译装置
CN115412702A (zh) 一种会议终端与电视墙一体化设备及系统
WO2022253856A3 (en) Virtual interaction system
WO2017074121A1 (ko) 다수의 ptt 채널들을 통한 ptt 통신 방법 및 장치
CN116134803A (zh) 交流系统
WO2014058275A1 (ko) 오디오 데이터 생성 장치 및 방법, 오디오 데이터 재생 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14902637

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 29.06.2017)

122 Ep: pct application non-entry in european phase

Ref document number: 14902637

Country of ref document: EP

Kind code of ref document: A1