WO2014046401A1 - 단어 자동 번역에 기초한 입술 모양 변경 장치 및 방법 - Google Patents

단어 자동 번역에 기초한 입술 모양 변경 장치 및 방법 Download PDF

Info

Publication number
WO2014046401A1
WO2014046401A1 PCT/KR2013/008005 KR2013008005W WO2014046401A1 WO 2014046401 A1 WO2014046401 A1 WO 2014046401A1 KR 2013008005 W KR2013008005 W KR 2013008005W WO 2014046401 A1 WO2014046401 A1 WO 2014046401A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
user
word
camera
lips
Prior art date
Application number
PCT/KR2013/008005
Other languages
English (en)
French (fr)
Inventor
김상철
Original Assignee
Kim Sang Cheol
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kim Sang Cheol filed Critical Kim Sang Cheol
Priority to EP13839930.8A priority Critical patent/EP2899718A4/en
Priority to JP2015531005A priority patent/JP6333260B2/ja
Priority to US14/426,760 priority patent/US9372852B2/en
Priority to CN201380054426.9A priority patent/CN104756188A/zh
Publication of WO2014046401A1 publication Critical patent/WO2014046401A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/162Detection; Localisation; Normalisation using pixel segmentation or colour matching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Definitions

  • Embodiments of the present invention after photographing the user's face, recognizes the user's voice, the shape of the lips included in the image of the user's face to the shape of the lips when the words according to the user's voice is translated into words of other languages It's about technology that can be changed.
  • the video-based communication not only outputs the speaker's voice from the receiver's terminal device but also displays an image of the speaker's face so that more accurate communication can be performed between the speaker and the receiver. To help.
  • the receiver simply understands the speaker's intention in another language, and the receiver does not fully understand the speaker's intention unless the speaker's mouth is translated into the corresponding language. It can be difficult to do.
  • embodiments of the present invention distinguish an area where the user's lips are located from an image captured by the camera,
  • the user inputs a voice by inserting a partial image representing a shape of a lip when a word corresponding to the recognized voice is translated into another language in a region where the divided lips are located by recognizing a voice.
  • the corresponding lip shape can be changed automatically.
  • An apparatus for changing a lip shape based on automatic word translation may include a plurality of words configured in a first language and a plurality of words translated in a second language for each of the plurality of words configured in the first language.
  • a word database is stored so that words correspond to each other, an image database is stored with a plurality of predetermined lip shape image data corresponding to pronunciation of each of the plurality of words translated into the second language, and the user's face is
  • An area detector for detecting a face area of the user from an image captured by the camera, an area separator for separating an area where the user's lips are located from the detected face area, and a voice of the user through a microphone Receives the input, recognizes the input voice of the user from the word database
  • a word detector which detects a word corresponding to the recognized user's voice, and when the detected word is a word composed of the first language, the second corresponding to a word composed of the detected first language from the word database
  • a translation word extraction unit for extracting a word translated
  • the method of changing the shape of the lips based on the automatic word translation is a plurality of words composed of a first language, and each of the plurality of words composed of the first language is translated into a second language Maintaining a stored word database such that a plurality of words correspond to each other, maintaining an image database storing a plurality of selected lip shape image data corresponding to a pronunciation of each of the plurality of words translated into the second language, Photographing a face of the user through a camera to detect a face region of the user from an image photographed by the camera, separating a region where the user's lips are located from the detected face region, and using the microphone Receives the user's voice, recognizes the input user's voice, and Detecting a word corresponding to the recognized user's voice from a base; when the detected word is a word composed of the first language, the first word corresponding to a word composed of the detected first language from the word database; Extracting a word translated into a second language, extracting
  • embodiments of the present invention distinguish an area where the user's lips are located from an image captured by the camera,
  • the user inputs a voice by inserting a partial image representing a shape of a lip when a word corresponding to the recognized voice is translated into another language in a region where the divided lips are located by recognizing a voice.
  • the corresponding lip shape can be automatically changed.
  • FIG. 1 is a diagram illustrating a structure of an apparatus for changing a lip shape based on automatic word translation according to an embodiment of the present invention.
  • FIG. 2 is a flowchart illustrating a method of changing a lip shape based on automatic word translation according to an embodiment of the present invention.
  • FIG. 1 is a diagram illustrating a structure of an apparatus for changing a lip shape based on automatic word translation according to an embodiment of the present invention.
  • the apparatus for changing a lip shape based on automatic word translation may include a word database 111, an image database 112, an area detector 113, and an area separator 114. ), A word detector 115, an image data extractor 117, and an image inserter 118.
  • the device for changing the shape of the lips 110 based on automatic word translation may receive a user's voice and a camera capable of capturing a user such as a desktop PC, a mobile terminal, a PDA, a notebook computer, and a tablet PC. It can be implemented based on a microprocessor-based device that is equipped with a microphone that is mounted or configured to be removable from the camera and the microphone.
  • the word database 111 stores a plurality of words composed of a first language and a plurality of words translated into a second language for each of the plurality of words composed of the first language.
  • the word database 111 includes a plurality of words composed of Korean and a plurality of words composed of Korean as shown in Table 1 below.
  • a plurality of words translated into English may be stored to correspond to each other.
  • the image database 112 stores a plurality of predetermined lip shape image data corresponding to a pronunciation of each of the plurality of words translated in the second language.
  • the image database 112 has a pre-fabricated lip shape corresponding to a pronunciation of the word “Hello” for the word “Hello” among a plurality of words translated into English.
  • Image data may be stored.
  • the user himself or herself through the camera of the lip shape changing device 110 based on the automatic word translation to perform a video call or video chat.
  • the area detector 113 detects the face region of the user from the image photographed by the camera by photographing the face of the user through the camera.
  • the area detector 113 may extract the face region of the user from the image photographed by the camera based on the color values of the plurality of pixels constituting the image photographed by the camera. Can be detected.
  • the area detector 113 classifies the pixels having a color value corresponding to the selected first color value range associated with the skin color of the face among the plurality of pixels constituting the image photographed by the camera.
  • the face area of the user may be detected.
  • the region detection unit 113 may have a predetermined first color value range associated with a skin color of a face.
  • the area detection unit 113 may have a range from a color value corresponding to yellow to a color value corresponding to orange as the selected first color value range.
  • the area detector 113 excludes an image such as a background from the image photographed by the camera, and detects the face region of the user through the camera.
  • the color values of the plurality of pixels constituting the captured image may be checked.
  • the area detector 113 classifies pixels corresponding to a color value range from yellow to orange, the color value of which is the selected first color value range, among a plurality of pixels constituting the image photographed by the camera. Afterwards, the area composed of the divided pixels may be detected as the face area of the user.
  • the area detection unit 113 distinguishes pixels having a color value corresponding to the skin color from the image photographed by the camera, and thus the image detected by the camera.
  • the face area of the user may be detected.
  • the area separator 114 separates an area where the user's lips are located from the detected face area.
  • the area separator 114 may distinguish an area where the user's lips are located based on color values of a plurality of pixels constituting the image corresponding to the detected face area. have.
  • the area separator 114 may select pixels having a color value corresponding to a predetermined second color value range in which a color value is associated with the color of the lips among the plurality of pixels constituting the image corresponding to the detected face area. By dividing, the area where the user's lips are located may be distinguished.
  • the area separator 114 may have a predetermined second color value range associated with the color of the lips.
  • the area separator 114 may have a range from a color value corresponding to pink to a color value corresponding to red as the selected second color value range.
  • the area separator 114 determines the area where the user's lips are located from the detected face area. Color values of a plurality of pixels constituting an image corresponding to an area may be checked.
  • the area divider 114 corresponds to a color value range of pink to red, which is a color value among the plurality of pixels constituting the image corresponding to the detected face region. After dividing the pixels, an area composed of the divided pixels may be divided into an area where the user's lips are located.
  • the area separator 114 distinguishes pixels having a color value corresponding to the color of the lips from the detected face area, thereby detecting the detected color.
  • An area in which the user's lips are located may be distinguished from a face area.
  • the word detector 115 receives a voice of the user through the microphone, recognizes the input voice of the user, and detects a word corresponding to the recognized voice of the user from the word database 111.
  • the word detection unit 115 recognizes the user's voice and the word corresponding to the recognized user's voice from the word database 111. Hello 'can be detected.
  • the translated word extractor 116 is translated from the word database 111 into the second language corresponding to the word composed of the detected first language. You can extract words.
  • the translation word extractor 116 is configured to perform the word database 111. It is possible to extract a word translated into English called 'Hello' which corresponds to the Korean word 'hello'.
  • the image data extracting unit 117 may determine the pronunciation of the word translated into the extracted second language from the image database 112. Corresponding lip image data is extracted.
  • the image data extracting unit 117 converts the word translated into English word called 'Hello' from the image database 112.
  • FIG. Correspondingly stored lip image data may be extracted.
  • the image inserter 118 extracts the extracted region of the user's lips from the image photographed by the camera. A partial image corresponding to the lip image data is inserted.
  • the apparatus for changing a lip shape based on automatic word translation is captured by the camera.
  • Lips for distinguishing an area in which the user's lips are located from an image and recognizing the user's voice and for translating a word corresponding to the recognized voice into another language in an area in which the divided lips are located By inserting a partial image representing a shape, when a word input by a voice is translated into another language, a corresponding lip shape may be automatically changed.
  • the lip shape changing apparatus 110 based on the automatic word translation may further include a time stamp recording unit 121.
  • the time stamp recording unit 121 photographs the face of the user through the camera at predetermined intervals with respect to the image data constituting the image photographed by the camera and the voice data constituting the voice input through the microphone. Record at least one timestamp associated with a time synchronization between the time at which it is received and the time at which the user's voice is input via the microphone.
  • the time stamp recording unit 121 displays an image corresponding to 0 to 30 seconds.
  • the at least one timestamp associated with the time synchronization between the time at which the image is captured and the time at which the voice is input may be recorded at a predetermined periodic interval.
  • the time stamp recording unit 121 may record the time stamps associated with the time synchronization at 5 second intervals for each of the video data and the audio data corresponding to 0 to 30 seconds. have.
  • the image inserting unit 118 refers to the at least one timestamp and the portion of the image data corresponding to the time point at which the recognized user's voice is input among the image data constituting the image photographed by the camera. You can insert an image.
  • the device for changing the shape of the lips based on the automatic word translation may perform the at least one timestamp associated with time synchronization between the image data and the audio data through a timestamp recording unit 121.
  • the image inserting unit 118 may assist the user to insert a lip shape image corresponding to the translated word of the word input by the user with respect to the image photographed by the camera at an appropriate point in time. .
  • the lip shape changing apparatus 110 based on the automatic word translation may further include an image output unit 119.
  • the image output unit 119 When the insertion of the partial image is completed with respect to the image photographed by the camera, the image output unit 119 outputs the final image where the insertion of the partial image is completed.
  • the lip shape changing apparatus 110 based on automatic word translation may further include a data transmission unit 120.
  • the data transmitter 120 transmits the image data of the final image in which the insertion of the partial image is completed to the terminal device 130 of the receiver.
  • the data transmission unit 120 receives the final image of which the change of the lip shape is completed. By sending to the device 130, video call or video chat can be assisted.
  • FIG. 2 is a flowchart illustrating a method of changing a lip shape based on automatic word translation according to an embodiment of the present invention.
  • an image database in which a plurality of predetermined lip shape image data corresponding to a pronunciation of each of the plurality of words translated in the second language is stored is maintained.
  • the face of the user may be detected by photographing the face of the user through a camera.
  • an area in which the user's lips are located is distinguished from the detected face area.
  • step S230 the face region of the user is detected from the image photographed by the camera based on the color values of the plurality of pixels constituting the image photographed by the camera.
  • operation S240 an area in which the user's lips are located may be distinguished based on color values of a plurality of pixels constituting the image corresponding to the detected face area.
  • the color value of the plurality of pixels constituting the image photographed by the camera in the step (S230) corresponding to the selected first color value range associated with the skin color of the face The user may detect a face region of the user by classifying pixels having a value, and in step S240, a color value is selected from among a plurality of pixels constituting an image corresponding to the detected face region. Pixels having a color value corresponding to a second color value range may be divided to distinguish an area where the user's lips are located.
  • a voice of the user is input through a microphone, the voice of the input user is recognized, and a word corresponding to the recognized voice of the user is detected from the word database.
  • the lip shape image data corresponding to the pronunciation of the word translated into the extracted second language is extracted from the image database.
  • a partial image corresponding to the extracted lip shape image data is inserted into an area in which the divided user's lips are located among the images photographed by the camera.
  • the method of changing the shape of the lips based on the word automatic translation comprises the image data constituting the image taken by the camera after the step S250 and the voice input through the microphone. Recording at least one timestamp associated with a time synchronization between a time at which the user's face is photographed through the camera and a time at which the user's voice is input through the microphone, for the voice data. It may further comprise a step.
  • step S280 the partial image is performed on the image data corresponding to the time point at which the recognized user's voice is input from the image data constituting the image photographed by the camera with reference to the at least one time stamp. Can be inserted.
  • the method may further include outputting a final image in which the insertion is completed.
  • the method may further include transmitting image data of the final image, in which the insertion is completed, to the terminal device of the receiver.
  • the method of changing the shape of lips based on automatic word translation according to an embodiment of the present invention has been described with reference to FIG. 2.
  • the method of changing the shape of the lips based on the automatic word translation according to an embodiment of the present invention may correspond to the configuration of the operation of the device for changing the shape of the lips based on the automatic word translation described with reference to FIG. 1. Detailed description thereof will be omitted.
  • the method of changing a lip shape based on automatic word translation may be implemented in the form of program instructions that can be executed by various computer means and recorded in a computer readable medium.
  • the computer readable medium may include program instructions, data files, data structures, etc. alone or in combination.
  • Program instructions recorded on the media may be those specially designed and constructed for the purposes of the present invention, or they may be of the kind well-known and available to those having skill in the computer software arts. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tape, optical media such as CD-ROMs, DVDs, and magnetic disks, such as floppy disks.
  • Magneto-optical media and hardware devices specifically configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like.
  • program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like.
  • the hardware device described above may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)
  • Processing Or Creating Images (AREA)
  • Image Processing (AREA)

Abstract

단어 자동 번역에 기초한 입술 모양 변경 장치 및 방법이 개시된다. 본 발명의 실시예들은 사용자가 카메라를 통해 자신의 얼굴을 촬영하면서, 마이크로폰을 통해 음성을 입력한 경우, 상기 카메라를 통해 촬영된 영상으로부터 상기 사용자의 입술이 위치하는 영역을 구분하고, 상기 사용자의 음성을 인식하여 상기 구분된 입술이 위치하는 영역에 대해, 상기 인식된 음성에 대응되는 단어가 다른 언어로 번역될 경우에 대한 입술 모양을 표현하는 부분 영상을 삽입함으로써, 사용자가 음성으로 입력한 단어가 다른 언어로 번역될 때, 그에 해당되는 입술 모양도 자동으로 변경될 수 있도록 할 수 있다.

Description

단어 자동 번역에 기초한 입술 모양 변경 장치 및 방법
본 발명의 실시예들은 사용자의 얼굴을 촬영하고, 사용자의 음성을 인식한 후 사용자의 얼굴 영상에 포함된 입술 모양을 사용자의 음성에 따른 단어가 다른 언어의 단어로 번역될 경우에 대한 입술 모양으로 변경할 수 있는 기술에 대한 것이다.
최근, 화상 통화나 화상 채팅 등과 같은 영상 기반의 커뮤니케이션과 관련된 기술이 등장하면서, 이에 대한 관심이 증가하고 있다.
영상 기반의 커뮤니케이션은 기존의 음성 기반의 커뮤니케이션과 달리, 수신자의 단말 장치에서 화자의 음성이 출력될 뿐만 아니라, 화자의 얼굴에 대한 영상이 디스플레이되기 때문에 화자와 수신자 사이에 좀 더 정확한 커뮤니케이션이 수행될 수 있도록 지원한다.
또한, 최근에는 인터넷 등의 발달로 인해, 국제적으로 커뮤니케이션을 수행하는 경우가 증가하고 있다. 이때, 커뮤니케이션 양 당사자 간의 언어가 서로 차이가 나는 경우, 양 당사자 간의 커뮤니케이션이 원활하게 이루어지지 않을 수 있다.
이로 인해, 화자의 음성을 인식하여 인식된 음성을 다른 언어로 자동으로 번역해 주는 기술도 등장하고 있다.
하지만, 영상 기반의 커뮤니케이션에서 단순히 화자의 음성을 다른 언어로 번역해 주기만 할 뿐, 화자의 입모양을 번역된 언어에 해당하는 입모양으로 변환하여 제공해 주지 않는다면, 수신자가 화자의 의도를 완벽하게 이해하기 어려울 수 있다.
따라서, 영상 기반의 커뮤니케이션과 관련하여 화자의 음성을 다른 언어로 번역함과 동시에 화자의 입모양도 번역된 언어에 대응되는 입모양으로 변환해 줄 수 있는 기술에 대한 연구가 필요하다.
본 발명의 실시예들은 사용자가 카메라를 통해 자신의 얼굴을 촬영하면서, 마이크로폰을 통해 음성을 입력한 경우, 상기 카메라를 통해 촬영된 영상으로부터 상기 사용자의 입술이 위치하는 영역을 구분하고, 상기 사용자의 음성을 인식하여 상기 구분된 입술이 위치하는 영역에 대해, 상기 인식된 음성에 대응되는 단어가 다른 언어로 번역될 경우에 대한 입술 모양을 표현하는 부분 영상을 삽입함으로써, 사용자가 음성으로 입력한 단어가 다른 언어로 번역될 때, 그에 해당되는 입술 모양도 자동으로 변경될 수 있도록 한다.
본 발명의 일실시예에 따른 단어 자동 번역에 기초한 입술 모양 변경 장치는 제1 언어로 구성된 복수의 단어들과, 상기 제1 언어로 구성된 복수의 단어들 각각에 대해 제2 언어로 번역된 복수의 단어들이 서로 대응되도록 저장된 단어 데이터베이스, 상기 제2 언어로 번역된 복수의 단어들 각각에 대한 발음에 대응되는 복수의 선정된(predetermined) 입술 모양 영상 데이터들이 저장된 영상 데이터베이스, 카메라를 통해 사용자의 얼굴을 촬영하여 상기 카메라를 통해 촬영된 영상으로부터 상기 사용자의 얼굴 영역을 검출하는 영역 검출부, 상기 검출된 얼굴 영역으로부터 상기 사용자의 입술이 위치하는 영역을 구분하는 영역 구분부, 마이크로폰을 통해 상기 사용자의 음성을 입력받아, 상기 입력된 사용자의 음성을 인식하여 상기 단어 데이터베이스로부터 상기 인식된 사용자의 음성에 대응되는 단어를 검출하는 단어 검출부, 상기 검출된 단어가 상기 제1 언어로 구성된 단어인 경우, 상기 단어 데이터베이스로부터 상기 검출된 제1 언어로 구성된 단어에 대응되는 상기 제2 언어로 번역된 단어를 추출하는 번역 단어 추출부, 상기 영상 데이터베이스로부터 상기 추출된 제2 언어로 번역된 단어에 대한 발음에 대응되는 입술 모양 영상 데이터를 추출하는 영상 데이터 추출부 및 상기 카메라를 통해 촬영된 영상 중에서 상기 구분된 사용자의 입술이 위치하는 영역에 대해, 상기 추출된 입술 모양 영상 데이터에 대응되는 부분 영상을 삽입하는 영상 삽입부를 포함한다.
또한, 본 발명의 일실시예에 따른 단어 자동 번역에 기초한 입술 모양 변경 방법은 제1 언어로 구성된 복수의 단어들과, 상기 제1 언어로 구성된 복수의 단어들 각각에 대해 제2 언어로 번역된 복수의 단어들이 서로 대응되도록 저장된 단어 데이터베이스를 유지하는 단계, 상기 제2 언어로 번역된 복수의 단어들 각각에 대한 발음에 대응되는 복수의 선정된 입술 모양 영상 데이터들이 저장된 영상 데이터베이스를 유지하는 단계, 카메라를 통해 사용자의 얼굴을 촬영하여 상기 카메라를 통해 촬영된 영상으로부터 상기 사용자의 얼굴 영역을 검출하는 단계, 상기 검출된 얼굴 영역으로부터 상기 사용자의 입술이 위치하는 영역을 구분하는 단계, 마이크로폰을 통해 상기 사용자의 음성을 입력받아, 상기 입력된 사용자의 음성을 인식하여 상기 단어 데이터베이스로부터 상기 인식된 사용자의 음성에 대응되는 단어를 검출하는 단계, 상기 검출된 단어가 상기 제1 언어로 구성된 단어인 경우, 상기 단어 데이터베이스로부터 상기 검출된 제1 언어로 구성된 단어에 대응되는 상기 제2 언어로 번역된 단어를 추출하는 단계, 상기 영상 데이터베이스로부터 상기 추출된 제2 언어로 번역된 단어에 대한 발음에 대응되는 입술 모양 영상 데이터를 추출하는 단계 및 상기 카메라를 통해 촬영된 영상 중에서 상기 구분된 사용자의 입술이 위치하는 영역에 대해, 상기 추출된 입술 모양 영상 데이터에 대응되는 부분 영상을 삽입하는 단계를 포함한다.
본 발명의 실시예들은 사용자가 카메라를 통해 자신의 얼굴을 촬영하면서, 마이크로폰을 통해 음성을 입력한 경우, 상기 카메라를 통해 촬영된 영상으로부터 상기 사용자의 입술이 위치하는 영역을 구분하고, 상기 사용자의 음성을 인식하여 상기 구분된 입술이 위치하는 영역에 대해, 상기 인식된 음성에 대응되는 단어가 다른 언어로 번역될 경우에 대한 입술 모양을 표현하는 부분 영상을 삽입함으로써, 사용자가 음성으로 입력한 단어가 다른 언어로 번역될 때, 그에 해당되는 입술 모양도 자동으로 변경될 수 있도록 할 수 있다.
도 1은 본 발명의 일실시예에 따른 단어 자동 번역에 기초한 입술 모양 변경 장치의 구조를 도시한 도면이다.
도 2는 본 발명의 일실시예에 따른 단어 자동 번역에 기초한 입술 모양 변경 방법을 도시한 순서도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하에서, 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 일실시예에 따른 단어 자동 번역에 기초한 입술 모양 변경 장치의 구조를 도시한 도면이다.
도 1을 참조하면, 본 발명의 일실시예에 따른 단어 자동 번역에 기초한 입술 모양 변경 장치(110)는 단어 데이터베이스(111), 영상 데이터베이스(112), 영역 검출부(113), 영역 구분부(114), 단어 검출부(115), 영상 데이터 추출부(117) 및 영상 삽입부(118)를 포함한다.
여기서, 본 발명의 일실시예에 따른 단어 자동 번역에 기초한 입술 모양 변경 장치(110)는 데스크탑 PC, 모바일 단말, PDA, 노트북, 태블릿 PC 등 사용자를 촬영할 수 있는 카메라와 사용자의 음성을 입력받을 수 있는 마이크로폰이 탑재되어 있거나 상기 카메라와 마이크로폰을 탈착할 수 있는 형태로 구성된 마이크로프로세서 기반의 장치를 기반으로 구현될 수 있다.
단어 데이터베이스(111)에는 제1 언어로 구성된 복수의 단어들과, 상기 제1 언어로 구성된 복수의 단어들 각각에 대해 제2 언어로 번역된 복수의 단어들이 서로 대응되도록 저장되어 있다.
예컨대, 상기 제1 언어가 한국어이고, 상기 제2 언어가 영어일 경우, 단어 데이터베이스(111)에는 하기의 표 1과 같이 한국어로 구성된 복수의 단어들과, 상기 한국어로 구성된 복수의 단어들 각각에 대해 영어로 번역된 복수의 단어들이 서로 대응되도록 저장되어 있을 수 있다.
표 1
한국어(제1 언어)로 구성된 복수의 단어들 영어(제2 언어)로 구성된 복수의 단어들
안녕하세요 Hello
이름 Name
날씨 Weather
영상 데이터베이스(112)에는 상기 제2 언어로 번역된 복수의 단어들 각각에 대한 발음에 대응되는 복수의 선정된(predetermined) 입술 모양 영상 데이터들이 저장되어 있다.
예컨대, 상기 제2 언어가 영어인 경우, 영상 데이터베이스(112)에는 영어로 번역된 복수의 단어들 중 'Hello'라는 단어에 대해서 'Hello'라는 단어에 대한 발음에 대응되는 미리 제작해 놓은 입술 모양 영상 데이터가 저장되어 있을 수 있다.
이렇게, 단어 데이터베이스(111)와 영상 데이터베이스(112)에 정보가 저장되어 있는 상황 하에서 사용자가 화상 통화를 하거나 화상 채팅을 수행하기 위해 단어 자동 번역에 기초한 입술 모양 변경 장치(110)의 카메라를 통해 자신의 얼굴을 촬영하는 경우, 영역 검출부(113)는 상기 카메라를 통해 상기 사용자의 얼굴을 촬영하여 상기 카메라를 통해 촬영된 영상으로부터 상기 사용자의 얼굴 영역을 검출한다.
이때, 본 발명의 일실시예에 따르면, 영역 검출부(113)는 상기 카메라를 통해 촬영된 영상을 구성하는 복수의 화소들의 색상 값에 기초하여 상기 카메라를 통해 촬영된 영상으로부터 상기 사용자의 얼굴 영역을 검출할 수 있다.
이때, 영역 검출부(113)는 상기 카메라를 통해 촬영된 영상을 구성하는 복수의 화소들 중에서 색상 값이 얼굴의 피부색과 연관된 선정된 제1 색상 값 범위에 해당하는 색상 값을 갖는 화소들을 구분하여 상기 사용자의 얼굴 영역을 검출할 수 있다.
이와 관련하여, 영역 검출부(113)의 동작에 대해 보다 상세히 설명하면, 다음과 같다.
먼저, 영역 검출부(113)에는 얼굴의 피부색과 연관된 선정된 제1 색상 값 범위가 설정되어 있을 수 있다. 예컨대, 영역 검출부(113)에는 상기 선정된 제1 색상 값 범위로 노란색에 해당되는 색상 값부터 주황색에 해당되는 색상 값까지의 범위가 설정되어 있을 수 있다.
이때, 상기 카메라를 통해 상기 사용자의 얼굴이 촬영되면, 영역 검출부(113)는 상기 카메라를 통해 촬영된 영상으로부터 배경 등의 영상을 제외하고, 상기 사용자의 얼굴 영역을 검출하기 위해, 상기 카메라를 통해 촬영된 영상을 구성하는 복수의 화소들의 색상 값을 확인할 수 있다.
그리고 나서, 영역 검출부(113)는 상기 카메라를 통해 촬영된 영상을 구성하는 복수의 화소들 중에서 색상 값이 상기 선정된 제1 색상 값 범위인 노란색에서 주황색까지의 색상 값 범위에 해당하는 화소들을 구분한 후 상기 구분된 화소들로 구성되는 영역을 상기 사용자의 얼굴 영역으로 검출할 수 있다.
즉, 사람의 얼굴은 특유의 피부색을 가지고 있기 때문에 영역 검출부(113)는 상기 카메라를 통해 촬영된 영상으로부터 상기 피부색에 해당되는 색상 값을 갖는 화소들을 구분함으로써, 상기 카메라를 통해 촬영된 영상으로부터 상기 사용자의 얼굴 영역을 검출할 수 있다.
영역 검출부(113)에서 상기 사용자의 얼굴 영역에 대한 검출이 완료되면, 영역 구분부(114)는 상기 검출된 얼굴 영역으로부터 상기 사용자의 입술이 위치하는 영역을 구분한다.
이때, 본 발명의 일실시예에 따르면, 영역 구분부(114)는 상기 검출된 얼굴 영역에 대응되는 영상을 구성하는 복수의 화소들의 색상 값에 기초하여 상기 사용자의 입술이 위치하는 영역을 구분할 수 있다.
이때, 영역 구분부(114)는 상기 검출된 얼굴 영역에 대응되는 영상을 구성하는 복수의 화소들 중에서 색상 값이 입술의 색상과 연관된 선정된 제2 색상 값 범위에 해당하는 색상 값을 갖는 화소들을 구분하여 상기 사용자의 입술이 위치하는 영역을 구분할 수 있다.
이와 관련하여, 영역 구분부(114)의 동작에 대해 보다 상세히 설명하면, 다음과 같다.
먼저, 영역 구분부(114)에는 입술의 색상과 연관된 선정된 제2 색상 값 범위가 설정되어 있을 수 있다. 예컨대, 영역 구분부(114)에는 상기 선정된 제2 색상 값 범위로 분홍색에 해당되는 색상 값부터 빨간색에 해당되는 색상 값까지의 범위가 설정되어 있을 수 있다.
이때, 영역 검출부(113)에서 상기 사용자의 얼굴 영역에 대한 검출이 완료되면, 영역 구분부(114)는 상기 검출된 얼굴 영역으로부터 상기 사용자의 입술이 위치하는 영역을 구분하기 위해, 상기 검출된 얼굴 영역에 대응되는 영상을 구성하는 복수의 화소들의 색상 값을 확인할 수 있다.
그리고 나서, 영역 구분부(114)는 상기 검출된 얼굴 영역에 대응되는 영상을 구성하는 복수의 화소들 중에서 색상 값이 상기 선정된 제2 색상 값 범위인 분홍색에서 빨간색까지의 색상 값 범위에 해당하는 화소들을 구분한 후 상기 구분된 화소들로 구성되는 영역을 상기 사용자의 입술이 위치하는 영역으로 구분할 수 있다.
즉, 사람의 입술은 피부색과 구분될 수 있는 특유의 색상을 가지고 있기 때문에 영역 구분부(114)는 상기 검출된 얼굴 영역으로부터 입술의 색상에 해당되는 색상 값을 갖는 화소들을 구분함으로써, 상기 검출된 얼굴 영역으로부터 상기 사용자의 입술이 위치하는 영역을 구분할 수 있다.
사용자가 화상 통화나 화상 채팅을 수행하면서, 앞서 설명한 바와 같이 카메라를 통해 자신의 얼굴을 촬영함과 동시에 단어 자동 번역에 기초한 입술 모양 변경 장치(110)의 마이크로폰을 통해 음성을 입력하는 경우, 단어 검출부(115)는 상기 마이크로폰을 통해 상기 사용자의 음성을 입력받아, 상기 입력된 사용자의 음성을 인식하여 단어 데이터베이스(111)로부터 상기 인식된 사용자의 음성에 대응되는 단어를 검출한다.
예컨대, 상기 사용자가 상기 마이크로폰을 통해 '안녕하세요'라는 단어를 입력한 경우, 단어 검출부(115)는 상기 사용자의 음성을 인식하여 단어 데이터베이스(111)로부터 상기 인식된 사용자의 음성에 대응되는 단어인 '안녕하세요'라는 단어를 검출할 수 있다.
만약, 상기 검출된 단어가 상기 제1 언어로 구성된 단어인 경우, 번역 단어 추출부(116)는 단어 데이터베이스(111)로부터 상기 검출된 제1 언어로 구성된 단어에 대응되는 상기 제2 언어로 번역된 단어를 추출할 수 있다.
예컨대, 단어 데이터베이스(111)에 상기 표 1과 같은 정보가 저장되어 있고, 단어 검출부(115)에서 '안녕하세요'라는 한국어 단어가 검출된 경우, 번역 단어 추출부(116)는 단어 데이터베이스(111)로부터 '안녕하세요'라는 한국어 단어에 대응되는 'Hello'라고 하는 영어로 번역된 단어를 추출할 수 있다.
번역 단어 추출부(116)에서 상기 제2 언어로 번역된 단어의 추출이 완료되면, 영상 데이터 추출부(117)는 영상 데이터베이스(112)로부터 상기 추출된 제2 언어로 번역된 단어에 대한 발음에 대응되는 입술 모양 영상 데이터를 추출한다.
예컨대, 번역 단어 추출부(116)에서 'Hello'라고 하는 영어로 번역된 단어가 추출된 경우, 영상 데이터 추출부(117)는 영상 데이터베이스(112)로부터 'Hello'라고 하는 영어로 번역된 단어에 대응되어 저장되어 있는 입술 모양 영상 데이터를 추출할 수 있다.
영상 데이터 추출부(117)에서 상기 입술 모양 영상 데이터의 추출이 완료되면, 영상 삽입부(118)는 상기 카메라를 통해 촬영된 영상 중에서 상기 구분된 사용자의 입술이 위치하는 영역에 대해, 상기 추출된 입술 모양 영상 데이터에 대응되는 부분 영상을 삽입한다.
결국, 본 발명의 일실시예에 따른 단어 자동 번역에 기초한 입술 모양 변경 장치(110)는 사용자가 카메라를 통해 자신의 얼굴을 촬영하면서, 마이크로폰을 통해 음성을 입력한 경우, 상기 카메라를 통해 촬영된 영상으로부터 상기 사용자의 입술이 위치하는 영역을 구분하고, 상기 사용자의 음성을 인식하여 상기 구분된 입술이 위치하는 영역에 대해, 상기 인식된 음성에 대응되는 단어가 다른 언어로 번역될 경우에 대한 입술 모양을 표현하는 부분 영상을 삽입함으로써, 사용자가 음성으로 입력한 단어가 다른 언어로 번역될 때, 그에 해당되는 입술 모양도 자동으로 변경될 수 있도록 할 수 있다.
본 발명의 일실시예에 따르면, 단어 자동 번역에 기초한 입술 모양 변경 장치(110)는 타임스탬프 기록부(121)를 더 포함할 수 있다.
타임스탬프 기록부(121)는 상기 카메라를 통해 촬영된 영상을 구성하는 영상 데이터와 상기 마이크로폰을 통해 입력된 음성을 구성하는 음성 데이터에 대해, 선정된 주기 간격으로 상기 카메라를 통해 상기 사용자의 얼굴이 촬영되는 시각과 상기 마이크로폰을 통해 상기 사용자의 음성이 입력되는 시각 사이의 시간 동기화와 연관된 적어도 하나의 타임스탬프를 기록한다.
예컨대, 0초부터 30초까지 상기 카메라를 통해 사용자의 얼굴이 촬영되었고, 동시에 상기 마이크로폰을 통해 상기 사용자의 음성이 입력된 경우, 타임스탬프 기록부(121)는 0초에서 30초까지에 해당되는 영상 데이터와 음성 데이터에 대해, 선정된 주기 간격으로 영상이 촬영되는 시각과 음성이 입력되는 시각 사이의 시간 동기화와 연관된 상기 적어도 하나의 타임스탬프를 기록할 수 있다.
만약, 상기 선정된 주기가 5초인 경우, 타임스탬프 기록부(121)는 0초에서 30초까지에 해당되는 영상 데이터와 음성 데이터 각각에 대해 5초 간격으로 상기 시간 동기화와 연관된 타임스탬프를 기록할 수 있다.
이때, 영상 삽입부(118)는 상기 적어도 하나의 타임스탬프를 참조하여 상기 카메라를 통해 촬영된 영상을 구성하는 영상 데이터 중에서 상기 인식된 사용자의 음성이 입력된 시점에 대응되는 영상 데이터에 대해 상기 부분 영상을 삽입할 수 있다.
즉, 본 발명의 일실시예에 따른 단어 자동 번역에 기초한 입술 모양 변경 장치(110)는 타임스탬프 기록부(121)를 통해 상기 영상 데이터와 상기 음성 데이터 간의 시간 동기화와 연관된 상기 적어도 하나의 타임스탬프를 기록해 둠으로써, 영상 삽입부(118)가 상기 카메라를 통해 촬영된 영상에 대해서, 사용자가 음성으로 입력한 단어의 번역된 단어에 대응하는 입술 모양 영상을 적절한 시점에 삽입할 수 있도록 보조할 수 있다.
본 발명의 일실시예에 따르면, 단어 자동 번역에 기초한 입술 모양 변경 장치(110)는 영상 출력부(119)를 더 포함할 수 있다.
영상 출력부(119)는 상기 카메라를 통해 촬영된 영상에 대해 상기 부분 영상의 삽입이 완료되면, 상기 부분 영상의 삽입이 완료된 최종 영상을 출력한다.
이를 통해, 사용자는 번역된 단어에 따라 자신의 입술 모양이 변경된 최종 영상을 볼 수 있다.
또한, 본 발명의 일실시예에 따르면, 단어 자동 번역에 기초한 입술 모양 변경 장치(110)는 데이터 전송부(120)를 더 포함할 수 있다.
데이터 전송부(120)는 상기 카메라를 통해 촬영된 영상에 대해 상기 부분 영상의 삽입이 완료되면, 상기 부분 영상의 삽입이 완료된 최종 영상에 대한 영상 데이터를 수신자의 단말 장치(130)로 전송한다.
즉, 사용자가 단어 자동 번역에 기초한 입술 모양 변경 장치(110)를 이용하여 다른 사람과 화상 통화나 화상 채팅을 하는 경우, 데이터 전송부(120)는 입술 모양의 변경이 완료된 최종 영상을 수신자의 단말 장치(130)로 전송함으로써, 화상 통화나 화상 채팅이 가능하도록 보조할 수 있다.
도 2는 본 발명의 일실시예에 따른 단어 자동 번역에 기초한 입술 모양 변경 방법을 도시한 순서도이다.
단계(S210)에서는 제1 언어로 구성된 복수의 단어들과, 상기 제1 언어로 구성된 복수의 단어들 각각에 대해 제2 언어로 번역된 복수의 단어들이 서로 대응되도록 저장된 단어 데이터베이스를 유지한다.
단계(S220)에서는 상기 제2 언어로 번역된 복수의 단어들 각각에 대한 발음에 대응되는 복수의 선정된 입술 모양 영상 데이터들이 저장된 영상 데이터베이스를 유지한다.
단계(S230)에서는 카메라를 통해 사용자의 얼굴을 촬영하여 상기 카메라를 통해 촬영된 영상으로부터 상기 사용자의 얼굴 영역을 검출한다.
단계(S240)에서는 상기 검출된 얼굴 영역으로부터 상기 사용자의 입술이 위치하는 영역을 구분한다.
이때, 본 발명의 일실시예에 따르면, 단계(S230)에서는 상기 카메라를 통해 촬영된 영상을 구성하는 복수의 화소들의 색상 값에 기초하여 상기 카메라를 통해 촬영된 영상으로부터 상기 사용자의 얼굴 영역을 검출할 수 있고, 단계(S240)에서는 상기 검출된 얼굴 영역에 대응되는 영상을 구성하는 복수의 화소들의 색상 값에 기초하여 상기 사용자의 입술이 위치하는 영역을 구분할 수 있다.
이때, 본 발명의 일실시예에 따르면, 단계(S230)에서는 상기 카메라를 통해 촬영된 영상을 구성하는 복수의 화소들 중에서 색상 값이 얼굴의 피부색과 연관된 선정된 제1 색상 값 범위에 해당하는 색상 값을 갖는 화소들을 구분하여 상기 사용자의 얼굴 영역을 검출할 수 있고, 단계(S240)에서는 상기 검출된 얼굴 영역에 대응되는 영상을 구성하는 복수의 화소들 중에서 색상 값이 입술의 색상과 연관된 선정된 제2 색상 값 범위에 해당하는 색상 값을 갖는 화소들을 구분하여 상기 사용자의 입술이 위치하는 영역을 구분할 수 있다.
단계(S250)에서는 마이크로폰을 통해 상기 사용자의 음성을 입력받아, 상기 입력된 사용자의 음성을 인식하여 상기 단어 데이터베이스로부터 상기 인식된 사용자의 음성에 대응되는 단어를 검출한다.
단계(S260)에서는 상기 검출된 단어가 상기 제1 언어로 구성된 단어인 경우, 상기 단어 데이터베이스로부터 상기 검출된 제1 언어로 구성된 단어에 대응되는 상기 제2 언어로 번역된 단어를 추출한다.
단계(S270)에서는 상기 영상 데이터베이스로부터 상기 추출된 제2 언어로 번역된 단어에 대한 발음에 대응되는 입술 모양 영상 데이터를 추출한다.
단계(S280)에서는 상기 카메라를 통해 촬영된 영상 중에서 상기 구분된 사용자의 입술이 위치하는 영역에 대해, 상기 추출된 입술 모양 영상 데이터에 대응되는 부분 영상을 삽입한다.
이때, 본 발명의 일실시예에 따르면, 상기 단어 자동 번역에 기초한 입술 모양 변경 방법은 단계(S250)이후에 상기 카메라를 통해 촬영된 영상을 구성하는 영상 데이터와 상기 마이크로폰을 통해 입력된 음성을 구성하는 음성 데이터에 대해, 선정된 주기 간격으로 상기 카메라를 통해 상기 사용자의 얼굴이 촬영되는 시각과 상기 마이크로폰을 통해 상기 사용자의 음성이 입력되는 시각 사이의 시간 동기화와 연관된 적어도 하나의 타임스탬프를 기록하는 단계를 더 포함할 수 있다.
이때, 단계(S280)에서는 상기 적어도 하나의 타임스탬프를 참조하여 상기 카메라를 통해 촬영된 영상을 구성하는 영상 데이터 중에서 상기 인식된 사용자의 음성이 입력된 시점에 대응되는 영상 데이터에 대해 상기 부분 영상을 삽입할 수 있다.
또한, 본 발명의 일실시예에 따르면, 상기 단어 자동 번역에 기초한 입술 모양 변경 방법은 단계(S280)이후에 상기 카메라를 통해 촬영된 영상에 대해 상기 부분 영상의 삽입이 완료되면, 상기 부분 영상의 삽입이 완료된 최종 영상을 출력하는 단계를 더 포함할 수 있다.
또한, 본 발명의 일실시예에 따르면, 상기 단어 자동 번역에 기초한 입술 모양 변경 방법은 단계(S280)이후에 상기 카메라를 통해 촬영된 영상에 대해 상기 부분 영상의 삽입이 완료되면, 상기 부분 영상의 삽입이 완료된 최종 영상에 대한 영상 데이터를 수신자의 단말 장치로 전송하는 단계를 더 포함할 수 있다.
이상, 도 2를 참조하여 본 발명의 일실시예에 따른 단어 자동 번역에 기초한 입술 모양 변경 방법에 대해 설명하였다. 여기서, 본 발명의 일실시예에 따른 단어 자동 번역에 기초한 입술 모양 변경 방법은 도 1을 이용하여 설명한 단어 자동 번역에 기초한 입술 모양 변경 장치(110)의 동작에 대한 구성과 대응될 수 있으므로, 이에 대한 보다 상세한 설명은 생략하기로 한다.
본 발명의 일실시예에 따른 단어 자동 번역에 기초한 입술 모양 변경 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.

Claims (13)

  1. 제1 언어로 구성된 복수의 단어들과, 상기 제1 언어로 구성된 복수의 단어들 각각에 대해 제2 언어로 번역된 복수의 단어들이 서로 대응되도록 저장된 단어 데이터베이스;
    상기 제2 언어로 번역된 복수의 단어들 각각에 대한 발음에 대응되는 복수의 선정된(predetermined) 입술 모양 영상 데이터들이 저장된 영상 데이터베이스;
    카메라를 통해 사용자의 얼굴을 촬영하여 상기 카메라를 통해 촬영된 영상으로부터 상기 사용자의 얼굴 영역을 검출하는 영역 검출부;
    상기 검출된 얼굴 영역으로부터 상기 사용자의 입술이 위치하는 영역을 구분하는 영역 구분부;
    마이크로폰을 통해 상기 사용자의 음성을 입력받아, 상기 입력된 사용자의 음성을 인식하여 상기 단어 데이터베이스로부터 상기 인식된 사용자의 음성에 대응되는 단어를 검출하는 단어 검출부;
    상기 검출된 단어가 상기 제1 언어로 구성된 단어인 경우, 상기 단어 데이터베이스로부터 상기 검출된 제1 언어로 구성된 단어에 대응되는 상기 제2 언어로 번역된 단어를 추출하는 번역 단어 추출부;
    상기 영상 데이터베이스로부터 상기 추출된 제2 언어로 번역된 단어에 대한 발음에 대응되는 입술 모양 영상 데이터를 추출하는 영상 데이터 추출부; 및
    상기 카메라를 통해 촬영된 영상 중에서 상기 구분된 사용자의 입술이 위치하는 영역에 대해, 상기 추출된 입술 모양 영상 데이터에 대응되는 부분 영상을 삽입하는 영상 삽입부
    를 포함하는 단어 자동 번역에 기초한 입술 모양 변경 장치.
  2. 제1항에 있어서,
    상기 카메라를 통해 촬영된 영상에 대해 상기 부분 영상의 삽입이 완료되면, 상기 부분 영상의 삽입이 완료된 최종 영상을 출력하는 영상 출력부
    를 더 포함하는 단어 자동 번역에 기초한 입술 모양 변경 장치.
  3. 제1항에 있어서,
    상기 카메라를 통해 촬영된 영상에 대해 상기 부분 영상의 삽입이 완료되면, 상기 부분 영상의 삽입이 완료된 최종 영상에 대한 영상 데이터를 수신자의 단말 장치로 전송하는 데이터 전송부
    를 더 포함하는 단어 자동 번역에 기초한 입술 모양 변경 장치.
  4. 제1항에 있어서,
    상기 영역 검출부는
    상기 카메라를 통해 촬영된 영상을 구성하는 복수의 화소들의 색상 값에 기초하여 상기 카메라를 통해 촬영된 영상으로부터 상기 사용자의 얼굴 영역을 검출하고,
    상기 영역 구분부는
    상기 검출된 얼굴 영역에 대응되는 영상을 구성하는 복수의 화소들의 색상 값에 기초하여 상기 사용자의 입술이 위치하는 영역을 구분하는 단어 자동 번역에 기초한 입술 모양 변경 장치.
  5. 제4항에 있어서,
    상기 영역 검출부는
    상기 카메라를 통해 촬영된 영상을 구성하는 복수의 화소들 중에서 색상 값이 얼굴의 피부색과 연관된 선정된 제1 색상 값 범위에 해당하는 색상 값을 갖는 화소들을 구분하여 상기 사용자의 얼굴 영역을 검출하고,
    상기 영역 구분부는
    상기 검출된 얼굴 영역에 대응되는 영상을 구성하는 복수의 화소들 중에서 색상 값이 입술의 색상과 연관된 선정된 제2 색상 값 범위에 해당하는 색상 값을 갖는 화소들을 구분하여 상기 사용자의 입술이 위치하는 영역을 구분하는 단어 자동 번역에 기초한 입술 모양 변경 장치.
  6. 제1항에 있어서,
    상기 카메라를 통해 촬영된 영상을 구성하는 영상 데이터와 상기 마이크로폰을 통해 입력된 음성을 구성하는 음성 데이터에 대해, 선정된 주기 간격으로 상기 카메라를 통해 상기 사용자의 얼굴이 촬영되는 시각과 상기 마이크로폰을 통해 상기 사용자의 음성이 입력되는 시각 사이의 시간 동기화와 연관된 적어도 하나의 타임스탬프를 기록하는 타임스탬프 기록부
    를 더 포함하고,
    상기 영상 삽입부는
    상기 적어도 하나의 타임스탬프를 참조하여 상기 카메라를 통해 촬영된 영상을 구성하는 영상 데이터 중에서 상기 인식된 사용자의 음성이 입력된 시점에 대응되는 영상 데이터에 대해 상기 부분 영상을 삽입하는 단어 자동 번역에 기초한 입술 모양 변경 장치.
  7. 제1 언어로 구성된 복수의 단어들과, 상기 제1 언어로 구성된 복수의 단어들 각각에 대해 제2 언어로 번역된 복수의 단어들이 서로 대응되도록 저장된 단어 데이터베이스를 유지하는 단계;
    상기 제2 언어로 번역된 복수의 단어들 각각에 대한 발음에 대응되는 복수의 선정된(predetermined) 입술 모양 영상 데이터들이 저장된 영상 데이터베이스를 유지하는 단계;
    카메라를 통해 사용자의 얼굴을 촬영하여 상기 카메라를 통해 촬영된 영상으로부터 상기 사용자의 얼굴 영역을 검출하는 단계;
    상기 검출된 얼굴 영역으로부터 상기 사용자의 입술이 위치하는 영역을 구분하는 단계;
    마이크로폰을 통해 상기 사용자의 음성을 입력받아, 상기 입력된 사용자의 음성을 인식하여 상기 단어 데이터베이스로부터 상기 인식된 사용자의 음성에 대응되는 단어를 검출하는 단계;
    상기 검출된 단어가 상기 제1 언어로 구성된 단어인 경우, 상기 단어 데이터베이스로부터 상기 검출된 제1 언어로 구성된 단어에 대응되는 상기 제2 언어로 번역된 단어를 추출하는 단계;
    상기 영상 데이터베이스로부터 상기 추출된 제2 언어로 번역된 단어에 대한 발음에 대응되는 입술 모양 영상 데이터를 추출하는 단계; 및
    상기 카메라를 통해 촬영된 영상 중에서 상기 구분된 사용자의 입술이 위치하는 영역에 대해, 상기 추출된 입술 모양 영상 데이터에 대응되는 부분 영상을 삽입하는 단계
    를 포함하는 단어 자동 번역에 기초한 입술 모양 변경 방법.
  8. 제7항에 있어서,
    상기 카메라를 통해 촬영된 영상에 대해 상기 부분 영상의 삽입이 완료되면, 상기 부분 영상의 삽입이 완료된 최종 영상을 출력하는 단계
    를 더 포함하는 단어 자동 번역에 기초한 입술 모양 변경 방법.
  9. 제7항에 있어서,
    상기 카메라를 통해 촬영된 영상에 대해 상기 부분 영상의 삽입이 완료되면, 상기 부분 영상의 삽입이 완료된 최종 영상에 대한 영상 데이터를 수신자의 단말 장치로 전송하는 단계
    를 더 포함하는 단어 자동 번역에 기초한 입술 모양 변경 방법.
  10. 제7항에 있어서,
    상기 사용자의 얼굴 영역을 검출하는 단계는
    상기 카메라를 통해 촬영된 영상을 구성하는 복수의 화소들의 색상 값에 기초하여 상기 카메라를 통해 촬영된 영상으로부터 상기 사용자의 얼굴 영역을 검출하고,
    상기 사용자의 입술이 위치하는 영역을 구분하는 단계는
    상기 검출된 얼굴 영역에 대응되는 영상을 구성하는 복수의 화소들의 색상 값에 기초하여 상기 사용자의 입술이 위치하는 영역을 구분하는 단어 자동 번역에 기초한 입술 모양 변경 방법.
  11. 제10항에 있어서,
    상기 사용자의 얼굴 영역을 검출하는 단계는
    상기 카메라를 통해 촬영된 영상을 구성하는 복수의 화소들 중에서 색상 값이 얼굴의 피부색과 연관된 선정된 제1 색상 값 범위에 해당하는 색상 값을 갖는 화소들을 구분하여 상기 사용자의 얼굴 영역을 검출하고,
    상기 사용자의 입술이 위치하는 영역을 구분하는 단계는
    상기 검출된 얼굴 영역에 대응되는 영상을 구성하는 복수의 화소들 중에서 색상 값이 입술의 색상과 연관된 선정된 제2 색상 값 범위에 해당하는 색상 값을 갖는 화소들을 구분하여 상기 사용자의 입술이 위치하는 영역을 구분하는 단어 자동 번역에 기초한 입술 모양 변경 방법.
  12. 제7항에 있어서,
    상기 카메라를 통해 촬영된 영상을 구성하는 영상 데이터와 상기 마이크로폰을 통해 입력된 음성을 구성하는 음성 데이터에 대해, 선정된 주기 간격으로 상기 카메라를 통해 상기 사용자의 얼굴이 촬영되는 시각과 상기 마이크로폰을 통해 상기 사용자의 음성이 입력되는 시각 사이의 시간 동기화와 연관된 적어도 하나의 타임스탬프를 기록하는 단계
    를 더 포함하고,
    상기 부분 영상을 삽입하는 단계는
    상기 적어도 하나의 타임스탬프를 참조하여 상기 카메라를 통해 촬영된 영상을 구성하는 영상 데이터 중에서 상기 인식된 사용자의 음성이 입력된 시점에 대응되는 영상 데이터에 대해 상기 부분 영상을 삽입하는 단어 자동 번역에 기초한 입술 모양 변경 방법.
  13. 제7항 내지 제12항 중 어느 한 항의 방법을 수행하는 프로그램을 기록한 컴퓨터 판독 가능 기록 매체.
PCT/KR2013/008005 2012-09-18 2013-09-05 단어 자동 번역에 기초한 입술 모양 변경 장치 및 방법 WO2014046401A1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP13839930.8A EP2899718A4 (en) 2012-09-18 2013-09-05 DEVICE AND METHOD FOR CHANGING THE SHAPE OF LIPS ON THE BASIS OF AUTOMATIC WORD TRANSLATION
JP2015531005A JP6333260B2 (ja) 2012-09-18 2013-09-05 単語自動翻訳に基づく唇形状変更装置および方法
US14/426,760 US9372852B2 (en) 2012-09-18 2013-09-05 Device and method for changing lip shapes based on automatic word translation
CN201380054426.9A CN104756188A (zh) 2012-09-18 2013-09-05 基于自动的单词翻译改变嘴唇形状的装置及方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020120103135A KR101378811B1 (ko) 2012-09-18 2012-09-18 단어 자동 번역에 기초한 입술 모양 변경 장치 및 방법
KR10-2012-0103135 2012-09-18

Publications (1)

Publication Number Publication Date
WO2014046401A1 true WO2014046401A1 (ko) 2014-03-27

Family

ID=50341652

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2013/008005 WO2014046401A1 (ko) 2012-09-18 2013-09-05 단어 자동 번역에 기초한 입술 모양 변경 장치 및 방법

Country Status (6)

Country Link
US (1) US9372852B2 (ko)
EP (1) EP2899718A4 (ko)
JP (1) JP6333260B2 (ko)
KR (1) KR101378811B1 (ko)
CN (1) CN104756188A (ko)
WO (1) WO2014046401A1 (ko)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140146965A (ko) * 2013-06-18 2014-12-29 삼성전자주식회사 디스플레이 장치, 서버를 포함하는 변환 시스템 및 디스플레이 장치의 제어 방법
KR102127351B1 (ko) 2013-07-23 2020-06-26 삼성전자주식회사 사용자 단말 장치 및 그 제어 방법
CN105959723B (zh) * 2016-05-16 2018-09-18 浙江大学 一种基于机器视觉和语音信号处理相结合的假唱检测方法
CN108174123A (zh) * 2017-12-27 2018-06-15 北京搜狐新媒体信息技术有限公司 数据处理方法、装置及系统
CN108389573B (zh) * 2018-02-09 2022-03-08 北京世纪好未来教育科技有限公司 语种识别方法及装置、训练方法及装置、介质、终端
US20220399025A1 (en) * 2019-06-21 2022-12-15 Deepbrain Ai Inc. Method and device for generating speech video using audio signal
US20220358703A1 (en) * 2019-06-21 2022-11-10 Deepbrain Ai Inc. Method and device for generating speech video on basis of machine learning
KR102360839B1 (ko) * 2019-06-21 2022-02-09 주식회사 딥브레인에이아이 머신 러닝 기반의 발화 동영상 생성 방법 및 장치
KR102360840B1 (ko) * 2019-06-21 2022-02-09 주식회사 딥브레인에이아이 텍스트를 이용한 발화 동영상 생성 방법 및 장치
KR102346755B1 (ko) * 2019-06-21 2022-01-03 주식회사 딥브레인에이아이 음성 신호를 이용한 발화 동영상 생성 방법 및 장치
US11972516B2 (en) 2019-06-21 2024-04-30 Deepbrain Ai Inc. Method and device for generating speech video by using text
KR102405570B1 (ko) 2020-02-10 2022-06-03 대구대학교 산학협력단 베이지안 분류를 이용한 입 모양 기반의 발음 인식방법
KR102437039B1 (ko) * 2020-07-02 2022-08-26 주식회사 딥브레인에이아이 영상 생성을 위한 학습 장치 및 방법
KR20220013850A (ko) * 2020-07-27 2022-02-04 주식회사 딥브레인에이아이 발화 영상 생성 방법 및 장치
KR102483416B1 (ko) * 2020-08-25 2022-12-30 주식회사 딥브레인에이아이 발화 동영상 생성 방법 및 장치
KR102501773B1 (ko) * 2020-08-28 2023-02-21 주식회사 딥브레인에이아이 랜드마크를 함께 생성하는 발화 동영상 생성 장치 및 방법
CN112562721B (zh) * 2020-11-30 2024-04-16 清华珠三角研究院 一种视频翻译方法、系统、装置及存储介质
CN117528176A (zh) * 2022-07-30 2024-02-06 脸萌有限公司 视频确定方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11231899A (ja) * 1998-02-12 1999-08-27 Matsushita Electric Ind Co Ltd 音声・動画像合成装置及び音声・動画像データベース
JP4011844B2 (ja) * 2000-09-22 2007-11-21 株式会社国際電気通信基礎技術研究所 翻訳装置、翻訳方法および媒体

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59129809A (ja) * 1983-01-18 1984-07-26 Asahi Optical Co Ltd カメラの自動焦点装置
JP2795084B2 (ja) * 1992-07-27 1998-09-10 国際電信電話株式会社 口形状画像合成方法及び装置
US6112177A (en) * 1997-11-07 2000-08-29 At&T Corp. Coarticulation method for audio-visual text-to-speech synthesis
US7392190B1 (en) * 1997-11-07 2008-06-24 At&T Corp. Coarticulation method for audio-visual text-to-speech synthesis
JP2003503925A (ja) * 1999-06-24 2003-01-28 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 情報ストリームのポスト同期
US6766299B1 (en) * 1999-12-20 2004-07-20 Thrillionaire Productions, Inc. Speech-controlled animation system
US6813607B1 (en) * 2000-01-31 2004-11-02 International Business Machines Corporation Translingual visual speech synthesis
JP2001357414A (ja) * 2000-06-13 2001-12-26 Minolta Co Ltd アニメーション通信方法およびシステム並びにそれに用いる端末装置
US6925438B2 (en) * 2002-10-08 2005-08-02 Motorola, Inc. Method and apparatus for providing an animated display with translated speech
JP2005234686A (ja) * 2004-02-17 2005-09-02 Fuji Xerox Co Ltd 表情認識装置、表情認識方法、およびプログラム
US20070255570A1 (en) * 2006-04-26 2007-11-01 Annaz Fawaz Y Multi-platform visual pronunciation dictionary
US20080004879A1 (en) * 2006-06-29 2008-01-03 Wen-Chen Huang Method for assessing learner's pronunciation through voice and image
JP2008158642A (ja) * 2006-12-21 2008-07-10 Nippon Telegr & Teleph Corp <Ntt> 言語翻訳方法、言語翻訳装置、言語翻訳プログラム、および言語翻訳プログラムを記録した記録媒体
JP2012085083A (ja) * 2010-10-12 2012-04-26 Nikon Systems Inc 画像処理装置、撮像装置および画像処理プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11231899A (ja) * 1998-02-12 1999-08-27 Matsushita Electric Ind Co Ltd 音声・動画像合成装置及び音声・動画像データベース
JP4011844B2 (ja) * 2000-09-22 2007-11-21 株式会社国際電気通信基礎技術研究所 翻訳装置、翻訳方法および媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KIM, KI BAEK ET AL.: "VOICE ACTIVITY DETECTION USING MOTION AND VARIATION OF INTENSITY IN THE MOUTH REGION", THE KOREANS SOCIETY OF BROADCAST ENGINEERS, May 2012 (2012-05-01), XP055251371 *

Also Published As

Publication number Publication date
JP6333260B2 (ja) 2018-05-30
US9372852B2 (en) 2016-06-21
EP2899718A4 (en) 2016-06-01
JP2016502157A (ja) 2016-01-21
CN104756188A (zh) 2015-07-01
EP2899718A1 (en) 2015-07-29
KR101378811B1 (ko) 2014-03-28
KR20140037410A (ko) 2014-03-27
US20150242394A1 (en) 2015-08-27

Similar Documents

Publication Publication Date Title
WO2014046401A1 (ko) 단어 자동 번역에 기초한 입술 모양 변경 장치 및 방법
WO2012036424A2 (en) Method and apparatus for performing microphone beamforming
WO2017115905A1 (ko) 인체 포즈 인지 시스템 및 방법
WO2020045753A1 (ko) 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 시스템 및 방법
WO2018143486A1 (ko) 딥러닝 분석을 위한 모듈화시스템을 이용한 컨텐츠 제공 방법
WO2021112273A1 (ko) 딥러닝 기반 동영상에서 연속적으로 개인정보를 비식별화하기 위한 방법 및 장치
WO2022045516A1 (en) Audio and video synchronization method and device
WO2020159140A1 (ko) 전자 장치 및 이의 제어 방법
WO2016190472A1 (ko) 크로마키를 이용한 증강현실 영상 제작 장치 및 방법
WO2017164510A2 (ko) 음성 데이터 기반 멀티미디어 콘텐츠 태깅 방법 및 이를 이용한 시스템
WO2020235910A1 (en) Text reconstruction system and method thereof
WO2018117660A1 (en) Security enhanced speech recognition method and device
WO2022065537A1 (ko) 자막 동기화를 제공하는 영상 재생 장치 및 그 동작 방법
WO2013147374A1 (ko) 멀티 채널 분석을 이용한 비디오 스트림 분석 방법
WO2023063718A1 (en) Method and system for device feature analysis to improve user experience
WO2021096279A1 (ko) 내시경 검사 중 병변이 발견된 위치에서의 데이터 입력 방법 및 상기 데이터 입력 방법을 수행하는 컴퓨팅 장치
WO2011162508A2 (ko) 비교 영상을 이용한 발음 학습 방법 및 장치
WO2016013740A1 (ko) 멀티 채널 오디오 데이터의 시각화 장치 및 방법
WO2023068495A1 (ko) 전자 장치 및 그 제어 방법
WO2024053967A1 (ko) 디스플레이 기반 커뮤니케이션 시스템
WO2014178491A1 (ko) 발화 인식 방법 및 장치
WO2015093682A1 (ko) 컨텐츠에 대한 개인 관객의 몰입도 판단 방법
WO2021125501A1 (ko) 기계학습이 완료된 사물 인식 모델을 통해 동영상에 대한 상황 정보 판단이 가능한 동영상 정보 판단장치
WO2018034484A1 (ko) 전문가 교정이 가능한 발음 학습 시스템
WO2019088673A2 (ko) 이미지 분류장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13839930

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2015531005

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 14426760

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE