KR20010017865A - Method Of Visual Communication On Speech Translating System Based On Avatar - Google Patents

Method Of Visual Communication On Speech Translating System Based On Avatar Download PDF

Info

Publication number
KR20010017865A
KR20010017865A KR1019990033601A KR19990033601A KR20010017865A KR 20010017865 A KR20010017865 A KR 20010017865A KR 1019990033601 A KR1019990033601 A KR 1019990033601A KR 19990033601 A KR19990033601 A KR 19990033601A KR 20010017865 A KR20010017865 A KR 20010017865A
Authority
KR
South Korea
Prior art keywords
avatar
voice
language translation
character string
model
Prior art date
Application number
KR1019990033601A
Other languages
Korean (ko)
Other versions
KR100395491B1 (en
Inventor
박준
양재우
Original Assignee
정선종
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 정선종, 한국전자통신연구원 filed Critical 정선종
Priority to KR10-1999-0033601A priority Critical patent/KR100395491B1/en
Publication of KR20010017865A publication Critical patent/KR20010017865A/en
Application granted granted Critical
Publication of KR100395491B1 publication Critical patent/KR100395491B1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

PURPOSE: A method for video communication of an avatar based TTS system is provided to synchronize the shape of lips of an avatar with a synchronized voice in order to control the look and movement of the avatar in response to the contents of speech, and thereby perform the video communication . CONSTITUTION: An avatar model producer determines whether it performs an operation for making an online photograph or selects an existing avatar model(301). The online photograph is made(302), and a reference point of the avatar model is illustrated(303) if the online photograph is needed. If the existing avatar model is selected, the data of the selected avatar model is transmitted to an avatar server(305). A voice recognition module recognizes the voice inputted from an outside and thereby generates a character string, and transmits it to a language translation module(306). The language translation module translates the generated character string and transmits it to a voice synthesizing module(307). The voice synthesizing module extracts the information related to the movement from the translated character string.

Description

아바타 기반 음성 언어 번역 시스템에서의 화상 통신 방법{Method Of Visual Communication On Speech Translating System Based On Avatar}Method of Visual Communication in Avatar-based Speech Language Translation System {Method Of Visual Communication On Speech Translating System Based On Avatar}

본 발명은 아바타 기반 음성 언어 번역 시스템에서의 화상 통신 방법 및 그를 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.The present invention relates to an image communication method in an avatar-based speech language translation system and a computer-readable recording medium recording a program for realizing the same.

도 1 은 종래의 음성 언어 번역 시스템의 구성예시도로서, 국어 음성 인식 모듈(102), 한영 언어 번역 모듈(104), 영어 음성 합성 모듈(106), 영어 음성 인식 모듈(108), 영한 언어 번역 모듈(109) 및 국어 음성 합성 모듈(110)을 구비한다.1 is an exemplary configuration diagram of a conventional speech language translation system, which includes a Korean speech recognition module 102, a Korean-English language translation module 104, an English speech synthesis module 106, an English speech recognition module 108, and an English-Korean language translation. A module 109 and a Korean speech synthesis module 110.

도면에 도시된 바와 같이, 한국 사람과 미국 사람이 음성언어번역 시스템을 사용하는 경우 한국 사람이 말한 음성(101)은 한국어 음성 인식 모듈(102)에서 인식하여 한글(103)로 변환하고 이는 다시 번역모듈(104)을 통하여 영문(105)으로 변환되며, 최종으로 영어 음성합성기(106)에 의하여 영어 말소리(107)로 상대방에 전달된다. 상대방이 한 말은 역의 과정, 즉 영어 말소리가 인식되어 영문자 열이 생성되고 이를 한국어 문자열로 번역한 후 이를 한국어 음성합성기를 통하여 한국어 음성으로 전달된다. 이 과정에서 인식 및 번역에서 오류 가능성을 배제할 수 없으므로, 위의 기본 정보 전달 채널 외에 화상을 주고 받는 채널, 키보드 입력의 송수신 채널과 필기 입력이나 그림을 그릴 수 있는 공유된 화이트보드 채널 등 멀티미디어를 활용하는 추가 통신 수단을 활용한다.As shown in the figure, when a Korean and an American use a voice language translation system, the voice 101 spoken by a Korean person is recognized by the Korean speech recognition module 102 and converted into a Korean language 103, which is translated again. Through the module 104 is converted into English 105, it is finally delivered to the other party in English speech sounds 107 by the English speech synthesizer 106. The other party spoke the reverse process, that is, the English speech is recognized, an English string is generated and translated into a Korean string, which is then transmitted to the Korean voice through a Korean voice synthesizer. In this process, the possibility of error can not be excluded from recognition and translation, so in addition to the above basic information transmission channels, multimedia such as a channel for sending and receiving images, a channel for transmitting and receiving keyboard input and a shared whiteboard channel for handwriting or drawing can be used. Take advantage of additional means of communication.

종래의 제시되고 있는 음성 언어 번역 시스템의 형상에서는 인식, 번역, 합성의 과정에서 처리 시간으로 인하여 화상의 움직임과 실제 합성된 말소리가 전달되는 시점간에 지연이 일어나며, 또한 발화자가 말한 언어와 상대방이 듣는 언어가 달라 화상의 입술 움직임이나 동작이 전달되는 음성과 일치하지 않아 부자연스러운 상황이 발생하며, 동일언어를 사용하는 일반적인 화상회의 상황에서와 같이 화상이 상대방이 말한 내용을 이해하는데 큰 도움이 되지 못하고 있다. 또한 번역결과는 문자열로 송수신하여 인터네트에서 문제없이 동작할 정도로 그 통신 비용이 매우 경비한 반면 화상 전송에는 별도의 화상 처리 장치 및 큰 대역폭을 요구하여 그 통신비용이 매우 많이 소요되는 문제점이 있었다.In the conventional speech language translation system, there is a delay between the movement of the image and the time point at which the synthesized speech is actually transmitted due to the processing time in the process of recognition, translation, and synthesis. Due to the different language, the lip movements and movements of the video do not match the voice that is transmitted, which causes unnatural situations. As in the general video conference using the same language, the video is not very helpful in understanding what the other person has said. have. In addition, the translation cost is very expensive so that the transmission and reception as a string to operate without problems on the Internet, while the image transmission requires a separate image processing device and a large bandwidth has a problem that the communication cost is very high.

따라서, 상기와 같은 문제점을 해결하기 위하여 안출된 본 발명은, 아바타 기반 음성 언어 번역 시스템에서 아바타의 입술 모양과 합성 음성을 동기시켜 발화의 내용에 따라 아바타의 표정 및 동작을 제어하여 화상 통신을 수행하도록 한 화상 통신 방법 및 그를 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.Therefore, in order to solve the above problems, the present invention synchronizes the lip shape of the avatar and the synthesized voice in an avatar-based speech language translation system to perform video communication by controlling the facial expression and operation of the avatar according to the content of the utterance. It is an object of the present invention to provide a computer-readable recording medium recording a video communication method and a program for realizing the same.

도 1 은 종래의 음성 언어 번역 시스템의 구성예시도.1 is an exemplary configuration diagram of a conventional speech language translation system.

도 2 는 본 발명이 적용되는 아바타 기반 음성 언어 번역 시스템의 구성예시도.2 is an exemplary configuration diagram of an avatar-based speech language translation system to which the present invention is applied.

도 3 은 본 발명에 따른 아바타 기반 음성 언어 번역 시스템에서의 화상 통신 방법의 일실시예 흐름도.3 is a flowchart of an embodiment of a video communication method in an avatar-based speech language translation system according to the present invention;

* 도면의 주요부분에 대한 부호의 설명* Explanation of symbols for main parts of the drawings

201 : 아바타 모델 작성기 202 : 아바타 서버201: Avatar Model Builder 202: Avatar Server

203 : 국어 음성 인식 모듈 204 : 한영 언어 번역 모듈203: Korean speech recognition module 204: Korean-English language translation module

205 : 영어 음성 인식 모듈205: English speech recognition module

상기의 목적을 달성하기 위한 본 발명은, 아바타 기반 음성 언어 번역 시스템에 적용되는 화상 통신 방법에 있어서, 온라인 사진 촬영을 수행할 것인지 또는 기존의 아바타 모델을 선정할 것인지를 확인하여 아바타 모델을 전송하는 제 1 단계; 외부로부터 음성을 입력받아 음성을 인식하여 문자열을 생성하고, 생성한 문자열을 번역하며, 번역한 문자열의 내용을 분석하여 동작에 관련된 정보를 추출하는 제 2 단계; 및 음성을 출력시킴과 동시에 입술 모양 및 동작 정보를 전달하고, 입술 모양 및 동작 정보에 따라 아바타 모델을 제어하는 제 3 단계를 포함한다.The present invention for achieving the above object, in the image communication method applied to the avatar-based speech language translation system, to determine whether to perform online photography or to select an existing avatar model to transmit the avatar model First step; A second step of receiving a voice from the outside to generate a character string by recognizing the voice, translating the generated character string, and analyzing information of the translated character string to extract information related to an operation; And a third step of outputting a voice and transmitting lip shape and motion information and controlling the avatar model according to the lip shape and motion information.

또한, 본 발명은 프로세서를 구비한 아바타 기반 음성 언어 번역 시스템에, 온라인 사진 촬영을 수행할 것인지 또는 기존의 아바타 모델을 선정할 것인지를 확인하여 아바타 모델을 전송하는 제 1 기능; 외부로부터 음성을 입력받아 음성을 인식하여 문자열을 생성하고, 생성한 문자열을 번역하며, 번역한 문자열의 내용을 분석하여 동작에 관련된 정보를 추출하는 제 2 기능; 및 음성을 출력시킴과 동시에 입술 모양 및 동작 정보를 전달하고, 입술 모양 및 동작 정보에 따라 아바타 모델을 제어하는 제 3 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.In addition, the present invention provides a avatar-based speech language translation system having a processor, comprising: a first function of determining whether to perform online photography or to select an existing avatar model and to transmit an avatar model; A second function of receiving a voice from an external source, recognizing the voice to generate a character string, translating the generated character string, and analyzing information of the translated character string to extract information related to an operation; And a computer readable recording medium having recorded thereon a program for outputting a voice, transferring lip shape and motion information, and realizing a third function of controlling the avatar model according to the lip shape and motion information.

이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 2 는 본 발명이 적용되는 아바타 기반 음성 언어 번역 시스템의 구성예시도로서, 아바타 모델 작성기(201), 아바타 서버(202), 국어 음성 인식 모듈(203), 한영 언어 번역 모듈(204), 영어 음성 합성 모듈(205), 영어 음성 인식 모듈(206), 영한 언어 번역 모듈(207) 및 국어 음성 합성 모듈(208)을 구비한다.2 is an exemplary configuration diagram of an avatar-based speech language translation system to which the present invention is applied, and includes an avatar model creator 201, an avatar server 202, a Korean speech recognition module 203, a Korean-English language translation module 204, and English. A speech synthesis module 205, an English speech recognition module 206, an English-Korean language translation module 207, and a Korean speech synthesis module 208.

도면에 도시된 바와 같이, 음성 언어 번역 세션이 시작되면 아바타 모델 작성기(201)가 온라인 사진 촬영을 수행할 것인지 또는 기존의 아바타 모델을 선정할 것인지를 확인하여 온라인 사진 촬영을 수행할 경우 사진 촬영을 수행하고, 아바타 모델의 기준점을 표시하며, 기존의 아바타 모델을 선정할 경우 기존의 아바타 모델을 선정하고, 아바타 모델을 아바타 서버(202)로 전송한다.As shown in the figure, when the voice language translation session is started, the avatar model builder 201 confirms whether to perform online photo shooting or to select an existing avatar model. If the existing avatar model is selected, the existing avatar model is selected, and the avatar model is transmitted to the avatar server 202.

음성 인식 모듈(203, 206)이 외부로부터 음성을 입력받아 음성을 인식하여 문자열을 생성하여 언어 번역 모듈(204, 207)로 전송하고, 언어 번역 모듈(204, 207)이 생성된 문자열을 번역하여 음성 합성 모듈(205, 208)로 전송하며, 음성 합성 모듈(205, 208)이 번역된 문자열의 내용을 분석하여 동작에 관련된 정보를 추출한다.The speech recognition module 203, 206 receives a voice from the outside to recognize the voice, generates a string, and transmits the generated string to the language translation module 204, 207, and the language translation module 204, 207 translates the generated string. The speech synthesis module 205 or 208 is transmitted to the speech synthesis module 205 or 208, and the speech synthesis module 205 or 208 analyzes the contents of the translated string to extract information related to the operation.

음성 합성 모듈(205, 208)이 음성 출력 장치를 통하여 음성을 출력시킴과 동시에 입술 모양 및 동작 정보를 아바타 서버(202)로 전달하고, 아바타 서버(202)가 음성 합성 모듈(205, 208)로부터 전달된 입술 모양 및 동작 정보에 따라 아바타 모습을 변화시킨다.The speech synthesis module 205, 208 outputs the voice through the speech output device, and delivers the lip shape and motion information to the avatar server 202, and the avatar server 202 from the speech synthesis module 205, 208. The avatar's appearance is changed according to the delivered lip shape and motion information.

아바타는 사용자의 모습을 나타내는 2차원 또는 3차원 그래픽 모델이며, 화면에는 동영상 합성 영상으로 나타난다. 아바타는 사용자의 실제 사진, 또는 다른 사람의 사진이나 만화와 같은 합성영상 등 임의의 정지영상을 기반으로 구축할 수 있다. 이와 같은 정지 영상으로부터 아바타 모델을 구축하기 위하여 사진의 어느 위치가 그래픽 모델상의 어떤 요소와 대응되는지를 나타내는 기준점의 표시가 필요하며, 이는 수동으로 하거나, 프로그램에 의하여 일차 대응시키고 그 결과를 사람이 수정하는 방식으로 반자동으로 수행한다.The avatar is a two-dimensional or three-dimensional graphic model representing the user's appearance, and appears on the screen as a composite video image. The avatar may be constructed based on an arbitrary still image such as a real picture of the user or a composite picture such as another person's picture or a cartoon. In order to build an avatar model from such a still image, it is necessary to display a reference point indicating which position of the picture corresponds to which element on the graphic model, which is manually or first-time corresponded by a program, and the result is corrected by a person. Semi-automatically.

아바타의 입술 모양 제어는 음성 합성기가 한다. 음성 합성기는 음소별로 발성 되는 시점을 정확히 알 수 있으므로 각 음소가 발성될 때마다 해당되는 입술모양에 대한 정보를 아바타 서버에게 전달한다. 아바타 서버는 전달된 입술모양 정보에 따라 아바타 모습을 변화시킨다.The lip shape control of the avatar is controlled by the voice synthesizer. Since the voice synthesizer can know exactly when each phoneme is uttered, each time the phoneme is uttered, information about the shape of the lips is transmitted to the avatar server. The avatar server changes the avatar's appearance according to the delivered lip shape information.

아바타의 동작은 번역된 결과의 내용을 분석하여 제어한다. 긍정의 답을 하면 고개를 끄덕이는 동작을 하고, 부정의 말을 하면 고개를 가로 젓는 동작을 한다. 만족을 나타내는 표현이 있을 때는 웃는 표정을 짓게 하고, 그 반대의 경우는 화나거나 찡그린 표정을 나타내게 한다. 그리고 자연스러운 모습을 나타내기 위하여 비정기적으로 눈을 깜박이고 고개를 돌리거나, 어깨를 움직이는 동작을 하게 한다.The operation of the avatar is controlled by analyzing the content of the translated result. If you answer affirmative, you nod your head, and if you say negative, you stir your head. When there is an expression of satisfaction, make a smiley face and vice versa. And in order to give a natural look to the occasional blinking eye, turn your head, or move the shoulders.

처음 음성 언어 번역 세션이 시작하면 사용자는 미리 준비된 자신를 나타내고자 하는 정지 영상과 해당 기준점 정보를 상대방에게 보내거나, 시스템에 부착된 카메라를 이용하여 자신의 사진을 찍고 수동 또는 반자동으로 정해진 기준점의 위치를 사진 위에 표시하여 그 결과를 상대방에게 전달한다. 이후, 음성 언어 번역 시스템의 일반 동작을 수행하며 각 사용자는 상대방으로부터 전송되는 번역결과를 이용하여 상대방 아바타를 제어한다. 즉, 아바타를 이용한 화상 표현 방식에서는 초기 한 정지 화상 한 프레임만을 송수신하며 더 이상의 화상 통신에 드는 추가 비용이 없다. 이것은 일반 화상을 전송하는데 부드러운 움직임을 얻기 위하여 초당 24프레임이상을 보내야 하는 것과 비교하면 매우 경제적인 방법이다.When the first voice language translation session starts, the user sends a still image and the corresponding reference point information to the user to prepare the prepared voice, or takes a picture of himself using the camera attached to the system and selects the position of the fixed reference point manually or semi-automatically. Display it on the picture and tell the result. Then, the general operation of the voice language translation system is performed, and each user controls the counterpart avatar by using the translation result transmitted from the counterpart. That is, in the image representation method using an avatar, only one frame of an initial still image is transmitted and received, and there is no additional cost for further image communication. This is a very economical method compared to having to send more than 24 frames per second to get smooth motion in transmitting normal images.

음성 언어 번역 시스템에서 아바타 표현 방식은 일반 화상 전송 방식과 병용할 수도 있다. 상대편의 실제 영상이 필요할 수 있으며 기본적으로 아바타 표현방식을 사용하다가 필요한 때만 실제 화상 전송 모드로 변환할 수 있다. 그리고, 자신의 아바타를 자신이 보고자 할 경우 인식된 결과를 이용하여 자신의 아바타를 제어할 수 있다.In the speech language translation system, the avatar expression method may be used in combination with a general image transmission method. The actual video of the other party may be required, and basically, the avatar representation method may be used, and then converted to the actual image transmission mode only when necessary. And, if he wants to see his avatar, he can control his avatar using the recognized result.

도 3 은 본 발명에 따른 아바타 기반 음성 언어 번역 시스템에서의 화상 통신 방법의 일실시예 흐름도이다.3 is a flowchart illustrating an image communication method in an avatar-based speech language translation system according to the present invention.

도면에 도시된 바와 같이, 음성 언어 번역 세션이 시작되면 아바타 모델 작성기가 온라인 사진 촬영을 수행할 것인지 또는 기존의 아바타 모델을 선정할 것인지를 판단하여(301) 온라인 사진 촬영을 수행할 경우 사진 촬영을 수행하고(302), 아바타 모델의 기준점을 표시하며(303), 기존의 아바타 모델을 선정할 경우 기존의 아바타 모델을 선정하고(304), 아바타 모델을 아바타 서버로 전송한다(305).As shown in the figure, when the voice language translation session is started, the avatar modeler determines whether to perform online photo shooting or to select an existing avatar model (301). In operation 302, the reference point of the avatar model is displayed (303). When the existing avatar model is selected, the existing avatar model is selected (304), and the avatar model is transmitted to the avatar server (305).

이후, 음성 인식 모듈이 외부로부터 음성을 입력받아 음성을 인식하여 문자열을 생성하여 언어 번역 모듈로 전송하고(306), 언어 번역 모듈이 생성된 문자열을 번역하여 음성 합성 모듈로 전송하며(307), 음성 합성 모듈이 번역된 문자열의 내용을 분석하여 동작에 관련된 정보를 추출한다(308).Then, the voice recognition module receives a voice from the outside to recognize the voice to generate a string to transmit to the language translation module (306), the language translation module translates the generated string to the speech synthesis module (307), The speech synthesis module analyzes the contents of the translated string to extract information related to the operation (308).

이후, 음성 합성 모듈이 음성 출력 장치를 통하여 음성을 출력시킴과 동시에 입술 모양 및 동작 정보를 아바타 서버로 전달하고(309), 아바타 서버가 음성 합성 모듈로부터 전달된 입술 모양 및 동작 정보에 따라 아바타 모습을 변화시키고(310), 대화가 종료되었는지를 확인하여(311) 대화가 종료되지 않았으면 음성 인식 모듈이 음성을 입력받아 음성을 인식하여 문자열을 생성하는 과정을 반복 수행한다.Subsequently, the voice synthesis module outputs the voice through the voice output device and simultaneously delivers the lip shape and motion information to the avatar server (309), and the avatar server displays the avatar according to the lip shape and motion information transmitted from the voice synthesis module. Change (310), check whether the conversation is terminated (311), if the conversation is not terminated, the voice recognition module receives a voice and repeats the process of generating a string by recognizing the voice.

이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 있어 본 발명의 기술적 사상을 벗어나지 않는 범위내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 한정되는 것이 아니다.The present invention described above is capable of various substitutions, modifications, and changes without departing from the spirit of the present invention for those skilled in the art to which the present invention pertains, and the above-described embodiments and accompanying It is not limited to the drawing.

그러므로, 전술한 바와 같은 본 발명은, 아바타 기반 음성 언어 번역 시스템에서 음성과 입술모양을 동기시키고 발화의 내용에 따라 아바타의 모습을 제어함으로써 화상의 동작과 음성의 내용을 조화시켜 자연스러운 상황을 구현할 수 있으며, 일반 동화상이 초당 24프레임 화면 전송을 요구하는데 반하여 전체 1프레임의 전송을 요구하며, 더 이상의 화상 전송에 드는 비용이 없어 경제적인 화상 표현 방식을 제공할 수 있고, 실제 화상을 전달하여야 하는 경우에 필요한 시간만 실제 영상을 전송할 수 있어 그 외의 시간에는 아바타 표현 방식을 이용함으로써 전체 화상 전송에 드는 비용을 절감할 수 있고, 영상과 음성 모두 사용자에게 익명성을 제공하며, 자신의 사진 외의 임의의 원하는 인물의 사진으로 자신을 나타낼 수 있으며, 자신의 원래 음성을 특별히 전달하지 않으면 상대방에게 자신의 익명성이 보장되고, 다국어간 채팅에 응용할 수 있으며, 대화를 나누는 사람의 화상 표현에 아바타를 활용하여 경제적인 화상 통신을 구현할 수 있고, 전달되는 음성과 아바타 입술동작 및 표정을 맞추어 주어 화상과 음성의 불일치 문제를 해소할 수 있는 효과가 있다.Therefore, the present invention as described above, in the avatar-based speech language translation system by synchronizing the voice and lips and control the appearance of the avatar in accordance with the content of the utterance can harmonize the motion of the image and the content of the voice to implement a natural situation The general moving picture requires 24 frames per second and the whole 1 frame is required. There is no cost for image transmission, and it is possible to provide an economical image representation method and to deliver the actual image. Only the time required for transmitting the actual video can be used to reduce the cost of transmitting the entire image by using the avatar representation method at other times, and provide both anonymity to the user for both video and audio, You can represent yourself with a picture of the person you want, If you do not deliver it specially, your anonymity is guaranteed to the other party, you can apply it to multilingual chat, and you can implement economical video communication by using your avatar in the video expression of the person you are talking with. And by matching the expression has an effect that can solve the problem of inconsistency of the image and sound.

Claims (5)

아바타 기반 음성 언어 번역 시스템에 적용되는 화상 통신 방법에 있어서,In the video communication method applied to the avatar-based speech language translation system, 온라인 사진 촬영을 수행할 것인지 또는 기존의 아바타 모델을 선정할 것인지를 확인하여 아바타 모델을 전송하는 제 1 단계;A first step of confirming whether to perform online photographing or selecting an existing avatar model and transmitting the avatar model; 외부로부터 음성을 입력받아 음성을 인식하여 문자열을 생성하고, 생성한 문자열을 번역하며, 번역한 문자열의 내용을 분석하여 동작에 관련된 정보를 추출하는 제 2 단계; 및A second step of receiving a voice from an external source, recognizing the voice to generate a character string, translating the generated character string, and analyzing the contents of the translated character string to extract information related to an operation; And 음성을 출력시킴과 동시에 입술 모양 및 동작 정보를 전달하고, 입술 모양 및 동작 정보에 따라 아바타 모델을 제어하는 제 3 단계The third step of outputting the voice and transmitting the lip shape and motion information and controlling the avatar model according to the lip shape and motion information 를 포함하는 아바타 기반 음성 언어 번역 시스템에서의 화상 통신 방법.Image communication method in an avatar-based speech language translation system comprising a. 제 1 항에 있어서,The method of claim 1, 상기 제 1 단계는,The first step is, 아바타 모델 작성기가 온라인 사진 촬영을 수행할 것인지 또는 기존의 아바타 모델을 선정할 것인지를 확인하는 제 4 단계;A fourth step of confirming whether the avatar model builder performs online photographing or selects an existing avatar model; 상기 제 4 단계의 확인 결과, 온라인 사진 촬영을 수행할 경우 사진 촬영을 수행하고, 아바타 모델의 기준점을 표시하며, 아바타 모델을 아바타 서버로 전송하는 제 5 단계; 및A fifth step of performing photographing when the online photographing is performed, displaying a reference point of the avatar model, and transmitting the avatar model to the avatar server; And 상기 제 4 단계의 확인 결과, 기존의 아바타 모델을 선정할 경우 기존의 아바타 모델을 선정하고, 아바타 모델을 상기 아바타 서버로 전송하는 제 6 단계As a result of confirming the fourth step, when selecting an existing avatar model, a sixth step of selecting an existing avatar model and transmitting the avatar model to the avatar server 를 포함하는 아바타 기반 음성 언어 번역 시스템에서의 화상 통신 방법.Image communication method in an avatar-based speech language translation system comprising a. 제 1 항 또는 제 2 항에 있어서,The method according to claim 1 or 2, 상기 제 2 단계는,The second step, 음성 인식 모듈이 외부로부터 음성을 입력받아 음성을 인식하여 문자열을 생성하여 언어 번역 모듈로 전송하는 제 7 단계;A seventh step of receiving, by the voice recognition module, the voice from the outside, recognizing the voice, generating a character string, and transmitting the generated character string to the language translation module; 상기 언어 번역 모듈이 생성된 문자열을 번역하여 음성 합성 모듈로 전송하는 제 8 단계; 및An eighth step of translating the generated string by the language translation module to a speech synthesis module; And 상기 음성 합성 모듈이 번역된 문자열의 내용을 분석하여 동작에 관련된 정보를 추출하는 제 9 단계A ninth step of extracting information related to an operation by analyzing the content of the translated string by the speech synthesis module; 를 포함하는 아바타 기반 음성 언어 번역 시스템에서의 화상 통신 방법.Image communication method in an avatar-based speech language translation system comprising a. 제 3 항에 있어서,The method of claim 3, wherein 상기 제 3 단계는,The third step, 상기 음성 합성 모듈이 음성 출력 장치를 통하여 음성을 출력시킴과 동시에 입술 모양 및 동작 정보를 상기 아바타 서버로 전달하는 제 10 단계; 및A tenth step in which the speech synthesis module outputs speech through a speech output device and delivers lip shape and motion information to the avatar server; And 상기 아바타 서버가 상기 음성 합성 모듈로부터 전달된 입술 모양 및 동작 정보에 따라 아바타 모습을 변화시키는 제 11 단계An eleventh step of changing, by the avatar server, the avatar appearance according to the lip shape and the motion information transmitted from the speech synthesis module; 를 포함하는 아바타 기반 음성 언어 번역 시스템에서의 화상 통신 방법.Image communication method in an avatar-based speech language translation system comprising a. 프로세서를 구비한 아바타 기반 음성 언어 번역 시스템에,In the avatar-based speech language translation system having a processor, 온라인 사진 촬영을 수행할 것인지 또는 기존의 아바타 모델을 선정할 것인지를 확인하여 아바타 모델을 전송하는 제 1 기능;A first function of confirming whether to perform online photo shooting or selecting an existing avatar model and transmitting the avatar model; 외부로부터 음성을 입력받아 음성을 인식하여 문자열을 생성하고, 생성한 문자열을 번역하며, 번역한 문자열의 내용을 분석하여 동작에 관련된 정보를 추출하는 제 2 기능; 및A second function of receiving a voice from an external source, recognizing the voice to generate a character string, translating the generated character string, and analyzing information of the translated character string to extract information related to an operation; And 음성을 출력시킴과 동시에 입술 모양 및 동작 정보를 전달하고, 입술 모양 및 동작 정보에 따라 아바타 모델을 제어하는 제 3 기능A third function of outputting a voice and transmitting lip shape and motion information and controlling the avatar model according to the lip shape and motion information 을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.A computer-readable recording medium having recorded thereon a program for realizing this.
KR10-1999-0033601A 1999-08-16 1999-08-16 Method Of Visual Communication On Speech Translating System Based On Avatar KR100395491B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-1999-0033601A KR100395491B1 (en) 1999-08-16 1999-08-16 Method Of Visual Communication On Speech Translating System Based On Avatar

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-1999-0033601A KR100395491B1 (en) 1999-08-16 1999-08-16 Method Of Visual Communication On Speech Translating System Based On Avatar

Publications (2)

Publication Number Publication Date
KR20010017865A true KR20010017865A (en) 2001-03-05
KR100395491B1 KR100395491B1 (en) 2003-08-25

Family

ID=19607273

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-1999-0033601A KR100395491B1 (en) 1999-08-16 1999-08-16 Method Of Visual Communication On Speech Translating System Based On Avatar

Country Status (1)

Country Link
KR (1) KR100395491B1 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010082389A (en) * 2001-04-12 2001-08-30 전화성 Kiosk System Using ASR, TTS&3D Avata
KR20040063436A (en) * 2003-01-07 2004-07-14 가온스페이스 주식회사 Avata service method to make gestures and apparatus therefor
KR100693658B1 (en) * 2004-10-05 2007-03-14 엘지전자 주식회사 Poratable language study apparatus and method
KR20170012333A (en) * 2014-05-27 2017-02-02 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 In-call translation

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110020131A (en) * 2009-08-21 2011-03-02 에스케이텔레콤 주식회사 System and method for delivering feeling during video call
KR102127351B1 (en) 2013-07-23 2020-06-26 삼성전자주식회사 User terminal device and the control method thereof

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1997008895A1 (en) * 1995-08-30 1997-03-06 Hitachi, Ltd. Chirological telephone system
KR970022807A (en) * 1995-10-16 1997-05-30 양승택 Interactive Speech Language Translation System Using Incomplete Interactive Speech Recognition and Multimedia Communication
KR20000005183A (en) * 1996-03-26 2000-01-25 콜턴 리자 Image synthesizing method and apparatus
KR100220598B1 (en) * 1996-12-30 1999-09-15 전주범 Apparatus and method for producing a lip movement parameter in a 3 dimension model-based coding system
KR100220699B1 (en) * 1996-12-30 1999-09-15 전주범 Apparatus for coding lip shape information in a 3 dimension model-based coding system
KR100240637B1 (en) * 1997-05-08 2000-01-15 정선종 Syntax for tts input data to synchronize with multimedia
KR19990001062A (en) * 1997-06-12 1999-01-15 배순훈 Improved Lip Deformation Variable Generator

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010082389A (en) * 2001-04-12 2001-08-30 전화성 Kiosk System Using ASR, TTS&3D Avata
KR20040063436A (en) * 2003-01-07 2004-07-14 가온스페이스 주식회사 Avata service method to make gestures and apparatus therefor
KR100693658B1 (en) * 2004-10-05 2007-03-14 엘지전자 주식회사 Poratable language study apparatus and method
KR20170012333A (en) * 2014-05-27 2017-02-02 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 In-call translation

Also Published As

Publication number Publication date
KR100395491B1 (en) 2003-08-25

Similar Documents

Publication Publication Date Title
JP5208810B2 (en) Information processing apparatus, information processing method, information processing program, and network conference system
US6943794B2 (en) Communication system and communication method using animation and server as well as terminal device used therefor
JP4310916B2 (en) Video display device
WO2020204000A1 (en) Communication assistance system, communication assistance method, communication assistance program, and image control program
US5815196A (en) Videophone with continuous speech-to-subtitles translation
EP1326445B1 (en) Virtual television phone apparatus
WO1997008895A1 (en) Chirological telephone system
KR102098734B1 (en) Method, apparatus and terminal for providing sign language video reflecting appearance of conversation partner
CN110401810B (en) Virtual picture processing method, device and system, electronic equipment and storage medium
JP2003345379A6 (en) Audio-video conversion apparatus and method, audio-video conversion program
US20030163315A1 (en) Method and system for generating caricaturized talking heads
JP2003345379A (en) Audio video conversion apparatus and method, and audio video conversion program
KR20140146965A (en) Translation system comprising of display apparatus and server and display apparatus controlling method thereof
KR102174922B1 (en) Interactive sign language-voice translation apparatus and voice-sign language translation apparatus reflecting user emotion and intention
US20230047858A1 (en) Method, apparatus, electronic device, computer-readable storage medium, and computer program product for video communication
KR100395491B1 (en) Method Of Visual Communication On Speech Translating System Based On Avatar
WO2024008047A1 (en) Digital human sign language broadcasting method and apparatus, device, and storage medium
JP2007026090A (en) Video preparation device
JP2006065683A (en) Avatar communication system
CN112764549B (en) Translation method, translation device, translation medium and near-to-eye display equipment
JP3299797B2 (en) Composite image display system
JP2001357414A (en) Animation communicating method and system, and terminal equipment to be used for it
JP2006048352A (en) Communication terminal having character image display function and control method therefor
JP2013242835A (en) Image communication system, image generation device and program
JP2021086474A (en) Avatar control system

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20080805

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee