KR20070111270A - Displaying method using voice recognition in multilateral video conference - Google Patents

Displaying method using voice recognition in multilateral video conference Download PDF

Info

Publication number
KR20070111270A
KR20070111270A KR1020060044427A KR20060044427A KR20070111270A KR 20070111270 A KR20070111270 A KR 20070111270A KR 1020060044427 A KR1020060044427 A KR 1020060044427A KR 20060044427 A KR20060044427 A KR 20060044427A KR 20070111270 A KR20070111270 A KR 20070111270A
Authority
KR
South Korea
Prior art keywords
user
video call
voice
image
characteristic information
Prior art date
Application number
KR1020060044427A
Other languages
Korean (ko)
Inventor
이상훈
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020060044427A priority Critical patent/KR20070111270A/en
Publication of KR20070111270A publication Critical patent/KR20070111270A/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/2628Alteration of picture size, shape, position or orientation, e.g. zooming, rotation, rolling, perspective, translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

A displaying method using voice recognition in a multilateral video conference is provided to enlarge a speaker image and display the enlarged speaker image automatically using voice characteristic information of the speaker among users who participate in video communication so that a user can easily find the speaker during video communication. A displaying method using voice recognition in a multilateral video conference comprises the following steps of: inputting voice of a user(422); outputting voice characteristic information of the user(424); matching a telephone number of the user and storing the matched telephone number(426); transmitting the voice characteristic information to opposite side terminals; matching the voice characteristic information received from the opposite side terminals to each telephone number of the opposite side terminals; outputting voice characteristic information of a speaker; recognizing the speaker; and enlarging the recognized speaker image and displaying the enlarged speaker image(428).

Description

다자간 화상통화 중 음성인식을 활용한 화면 디스플레이 방법{DISPLAYING METHOD USING VOICE RECOGNITION IN MULTILATERAL VIDEO CONFERENCE}DISPLAYING METHOD USING VOICE RECOGNITION IN MULTILATERAL VIDEO CONFERENCE}

도 1은 일반적인 이동통신 시스템을 나타낸 예시도,1 is an exemplary view showing a general mobile communication system,

도 2는 종래에 따른 일반적인 다자간 화상통화 시 단말기의 화면 예시도,2 is a diagram illustrating a screen of a terminal during a conventional multi-party video call according to the related art;

도 3은 본 발명의 실시 예에 따른 다자간 화상통화가 가능한 단말기의 블록 구성도,3 is a block diagram of a terminal capable of a multi-party video call according to an embodiment of the present invention;

도 4는 본 발명의 실시 예에 따라 다자간 화상통화 중 음성을 활용해 화자의 화상을 확대하여 디스플레이 하는 제어 흐름도,4 is a control flow chart for enlarging and displaying an image of a speaker by using a voice during a multi-party video call according to an embodiment of the present invention;

도 5는 본 발명의 실시 예에 따라 다자간 화상통화 중 확대키를 입력한 사용자의 화상을 확대하여 디스플레이 하는 제어 흐름도,5 is a control flowchart of enlarging and displaying an image of a user who inputs an enlarged key during a multi-party video call according to an embodiment of the present invention;

도 6은 본 발명의 실시 예에 따라 화상확대신호 수신 시 확대키를 입력한 상대방 사용자의 화상을 확대하여 디스플레이 하는 제어 흐름도,6 is a control flowchart of enlarging and displaying an image of a counterpart user who has input an enlarged key when receiving an image enlargement signal according to an embodiment of the present invention;

도 7은 본 발명의 실시 예에 따라 화자의 화상을 확대하여 디스플레이 한 화면 예시도.7 is an exemplary view showing an enlarged image of a speaker according to an embodiment of the present invention.

본 발명은 화상통화 기능을 구비하는 단말기에서 다자간 화상통화 중인 사용자들의 화상을 화면에 디스플레이 하는 방법에 있어서, 특히 다자간 화상통화에 참여한 사용자들 중 화자의 화상을 단말기 화면상에 확대하여 디스플레이 하는 방법에 관한 것이다.The present invention relates to a method for displaying images of users who are in a multi-party video call on a screen in a terminal having a video call function. It is about.

일반적으로, 휴대용 이동 단말기는 시간과 장소에 구애 받지 않고 상대방과 연락을 취할 수 있는 편리함으로 인하여 그 수가 폭발적으로 늘어나고 있는 추세이다. 이러한 휴대용 이동 단말기의 기술의 발전으로 인하여 음성과 데이터를 교환하는 수준에서 한걸음 더 나아가 통화 중 화상 데이터까지 송, 수신 가능한 시대에 도래하였다. 이는, 백본(Backbone)과 같은 물리적인 기간 망이 잘 구축되어 있고 동영상 압축기술과 같은 소프트웨어적 기술의 발달에 힘입어 다자간의 음성은 물론 화상까지 송, 수신하는 다자간 화상 통화까지도 가능케 하고 있다.In general, the number of portable mobile terminals is exploding due to the convenience of contacting the other party regardless of time and place. Due to the development of the technology of the portable mobile terminal, it has arrived in an era in which voice data can be transmitted and received even further by exchanging voice and data. This is because physical backbone networks such as Backbone are well established, and thanks to the development of software technologies such as video compression technology, it is possible to make multi-party video calls that transmit and receive not only multi-party voice but also video.

상기와 같이, 이러한 다자간 화상통화 기능을 가능하게 한 종래기술로는 도 1에서 도시 된 바와 같은 이동통신망에 연결되어 있는 서버(도시하지 않았음.)를 이용하는 방법이 있다. 서버를 이용한 다자간 화상통화 방법을 살펴보면, 도 1의 단말기A(100-1)는 상대방 단말기인 단말기B(100-2)로 화상통화 연결을 요청한 후 대기한다. 그러면, 서버는 단말기B(100-2)로 단말기A(100-1)로부터 화상통화 요청이 있음을 알린 후 단말기B(100-2)가 응답할 때까지 대기한다. 이후, 단말기B(100-2)는 화상통화가 가능함을 서버로 알리고 통화대기 한다. 그러면, 단말기B(100-2)의 응답을 받은 서버는 단말기B(100-2)의 화상통화가 가능함을 단말기A(100-1)로 알린다. 다음으로, 단말기A(100-1)는 단말기C(100-3)로 화상통화 연결을 요청한 후 대기한다. 이후, 단말기A(100-1)의 화상통화 요청을 받은 서버는 단말기C(100-3)로 화상통화 연결을 요청한 후 단말기C(100-3)가 응답할 때까지 기다린다. 단말기C(100-3)는 화상통화가 가능함을 서버로 알리고 통화대기 한다. 그러면, 서버는 단말기A(100-1), 단말기B(100-2), 단말기C(100-3)의 접속상태를 각각의 단말기로 알린다. 접속상태를 확인한 단말기들은 접속대기 상태를 해제하고 화상통화를 시작한다.As described above, there is a method of using a server (not shown) connected to the mobile communication network as shown in FIG. Looking at the multi-party video call method using a server, the terminal A (100-1) of Figure 1 waits after requesting a video call connection to the terminal B (100-2) of the other terminal. Then, the server notifies the terminal B 100-2 of the request for a video call from the terminal A 100-1 and waits for the terminal B 100-2 to respond. Thereafter, the terminal B 100-2 notifies the server that the video call is possible and waits for a call. Then, the server receiving the response from the terminal B (100-2) informs the terminal A (100-1) that the video call of the terminal B (100-2) is possible. Next, the terminal A 100-1 waits after requesting a video call connection to the terminal C 100-3. Thereafter, the server receiving the video call request of the terminal A 100-1 requests the video call connection to the terminal C 100-3 and waits for the terminal C 100-3 to respond. Terminal C (100-3) informs the server that the video call is possible and waits for a call. Then, the server informs each terminal of the connection state of the terminal A (100-1), the terminal B (100-2), and the terminal C (100-3). After confirming the connection state, the terminal releases the connection standby state and starts a video call.

상기와 같은 과정을 통해 연결된 단말기A(100-1), 단말기B(100-2), 단말기C(100-3)는 각 단말기 화면에 도 2와 같이 화상통화에 참여한 사용자들의 화상이 디스플레이 되고, 각 사용자들은 단말기 화면에 디스플레이 된 화상통화에 참여한 사용자들의 화상을 보면서 대화를 할 수 있다.Terminal A (100-1), terminal B (100-2), and terminal C (100-3) connected through the above process is displayed on the screen of each terminal as shown in Figure 2 of the user participating in the video call, Each user can have a conversation while viewing the images of the users who participated in the video call displayed on the terminal screen.

상기한 바와 같이 종래의 화상통화 방법은 통화에 참여한 모든 사용자들을 동일한 크기의 화상으로 화면에 디스플레이 되었기 때문에 서로 초면인 사용자들이 화상통화에 참여한 경우에는 현재 화자가 누구인지 파악하기 어렵다. 또한, 화상통화에 참여한 인원이 증가할수록 사용자 단말기의 분할된 화면이 많아지게 된다. 따라서, 작은 단말기 화면에 표시되는 화상통화 중인 사용자의 얼굴은 분간하기 힘들 정도로 작게 표시가 된다. 이에 따라, 화상통화에 참여한 각각의 사용자들은 말을 하고 있는 화자를 추측해야 하는 번거로움이 따르게 된다.As described above, in the conventional video call method, since all users participating in the call are displayed on the screen with the same size image, it is difficult to determine who is the current speaker when the first-time users participate in the video call. In addition, as the number of participants in the video call increases, the divided screens of the user terminal increase. Therefore, the face of the user who is in the video call displayed on the small terminal screen is displayed so small that it is difficult to distinguish. Accordingly, each user participating in the video call is cumbersome to guess the speaker who is speaking.

따라서 본 발명은 다자간 화상통화 중 화자의 음성을 인식하고, 인식된 정보를 이용하여 화자의 화상을 확대하여 디스플레이 할 수 있는 다자간 화상통화 중 음성인식을 활용한 디스플레이 방법을 제공한다.Accordingly, the present invention provides a display method that utilizes voice recognition during a multi-party video call to recognize a speaker's voice during a multi-party video call and to enlarge and display the speaker's image using the recognized information.

또한, 본 발명은 다자간 화상통화 중 자신의 화상을 확대하기를 원하는 사용자가 확대키를 입력하면 화상통화에 참여중인 사용자들의 단말기에 확대키를 입력한 사용자의 화상을 확대하여 디스플레이 할 수 있는 다자간 화상통화 중 음성인식을 활용한 디스플레이 방법을 제공한다.In addition, according to the present invention, if a user who wants to enlarge his / her image during a multi-party video call inputs an enlargement key, the multi-party image that can enlarge and display an image of the user who inputs the enlargement key to a terminal of users participating in the video call Provides a display method using voice recognition during a call.

상술한 목적을 달성하기 위한 본 발명은 화상통화 기능을 구비하는 단말기에서 다자간 화상통화 중인 사용자들의 화상을 화면상에 디스플레이 하는 방법에 있어서, 사용자의 다자간 화상통화 요구에 응답하여 상기 사용자로부터 상기 사용자의 음성을 입력 받는 단계와, 상기 입력된 사용자의 음성으로부터 상기 사용자의 음성특성정보를 추출하는 단계와, 상기 추출된 사용자의 음성특성정보를 상기 사용자의 전화번호와 매칭하여 저장하는 단계와, 상기 사용자의 상기 음성특성정보를 다자간 화상통화 중인 상대방 단말기들에게 전송하는 단계와, 상기 상대방 단말기들로부터 수신된 음성특성정보를 상기 상대방 단말기들 각각의 전화번호와 매칭하여 저장하는 단계와, 상기 화상통화 중인 사용자들 중 화자의 음성으로부터 상기 화자의 음성특성정보를 추출하는 단계와, 상기 추출된 화자의 음성특성정보를 상기 저장되어 있는 음성특성정보들과 비교하여 상기 다자간 화상통화 중인 사용자들 중 에 상기 화자에 해당하는 사용자를 인식하는 단계와, 상기 화면상에 디스플레이 되는 다자간 화상통화 중인 사용자 화상들 중에 상기 인식된 사용자에 대응하는 사용자 화상을 나머지 사용자 화상들에 비해 크게 확대하여 디스플레이 하는 단계를 구비함을 특징으로 한다.According to an aspect of the present invention, there is provided a method of displaying an image of a user who is in a multi-party video call on a screen in a terminal having a video call function. Receiving a voice, extracting voice characteristic information of the user from the input voice of the user, matching the stored voice characteristic information of the user with the telephone number of the user, and storing the user; Transmitting the voice characteristic information to the counterpart terminals in the multi-party video call; matching and storing the voice characteristic information received from the counterpart terminals with the telephone numbers of the counterpart terminals; Voice characteristics of the speaker from the speaker's voice among users Extracting a voice, comparing the extracted voice characteristic information of the speaker with the stored voice characteristic information, and recognizing a user corresponding to the speaker among the users in the multi-party video call; And displaying a user image corresponding to the recognized user in a multi-view video call, which is displayed in a larger image than the other user images.

또한, 화상통화 기능을 구비하는 단말기에서 다자간 화상통화 중인 사용자들의 화상을 화면상에 디스플레이 하는 방법에 있어서, 다자간 화상통화 모드 중에 사용자로부터 미리 설정된 확대키가 입력되면 상기 사용자의 화상을 나머지 사용자 화상들에 비해 확대하여 디스플레이 하는 단계와, 상기 사용자에 관한 화상확대신호를 상기 화상통화 중인 상대방 사용자들의 단말기로 전송하는 단계를 구비하는 것을 특징으로 한다.A method of displaying a picture of a user who is in a multi-party video call on a screen in a terminal having a video call function, wherein the user's image is displayed when the preset enlarged key is input from the user during the multi-party video call mode. And displaying the enlarged image, and transmitting the enlarged image signal of the user to the terminals of the counterpart users in the video call.

이하 본 발명의 바람직한 실시 예를 첨부한 도면을 참조하여 상세히 설명한다. 하기 설명 및 첨부 도면에서 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings. In the following description and the annexed drawings, detailed descriptions of well-known functions and configurations that may unnecessarily obscure the subject matter of the present invention will be omitted.

본 발명은 화상통화 중 음성인식을 활용하여 화자의 화상을 확대하여 디스플레이 하는 방법과, 화상통화 중 확대키가 입력되면 확대키를 입력한 사용자의 화상을 화상통화에 참여하고 있는 사용자들의 단말기 화면에 확대하여 디스플레이 하는 방법을 제안한다.The present invention provides a method of enlarging and displaying an image of a speaker by using voice recognition during a video call, and when an enlarged key is input during a video call, the user's image of the user who entered the enlarged key is displayed on the terminal screen of the users participating in the video call. We propose a method to enlarge and display.

그러면, 도 3을 참조하여 다자간 화상통화 중 음성인식을 활용하여 화자의 화상을 확대하여 디스플레이 하기 위한 단말기에 대해 살펴보도록 한다. 도 3은 본 발명이 적용되는 단말기의 블록 구성도로서, 화상전화 기능을 가지는 이동통신 단 말기의 예를 보인 것이다.Next, a terminal for enlarging and displaying an image of a speaker using voice recognition during a multi-party video call will be described with reference to FIG. 3. 3 is a block diagram of a terminal to which the present invention is applied and shows an example of a mobile communication terminal having a video telephone function.

도 3을 살펴보면, 제어부(300)는 전화 통화, 데이터 통신 등의 통상적인 기능을 처리 및 제어함과 아울러 후술하는 본 발명의 실시에 따른 다자간 화상통화 중 음성인식을 통해 화자의 화면을 확대하여 디스플레이 하는 기능을 처리한다. 제어부(300) 기능에 대한 구체적인 설명은 도 4 내지 6을 참조하여 하기에서 구체적으로 설명하도록 한다.Referring to FIG. 3, the controller 300 processes and controls common functions such as a phone call and data communication, and displays the speaker's screen by expanding the screen of the speaker through voice recognition during a multi-party video call according to the present invention. To handle the function. A detailed description of the function of the control unit 300 will be described in detail below with reference to FIGS. 4 to 6.

RF(Radio Frequency)모듈(302)은 안테나를 통해 이동통신 기지국과 무선 신호를 송, 수신하는데, 베이스밴드처리부(304)를 통해 제어부(300)로부터 입력되는 송신할 신호를 변조하여 RF신호를 안테나를 통해 송신하고, 안테나를 통해 수신되는 RF신호를 복조하여 베이스밴드처리부(304)를 통해 제어부(300)에 제공한다. 베이스밴드처리부(304)는 RF모듈(302)과 제어부(300) 간에 송, 수신되는 베이스밴드 신호를 처리한다.The radio frequency (RF) module 302 transmits and receives a radio signal with a mobile communication base station through an antenna, and modulates a signal to be transmitted from the control unit 300 through the baseband processor 304 to convert an RF signal into an antenna. And demodulates an RF signal received through the antenna and provides the demodulated RF signal to the controller 300 through the baseband processor 304. The baseband processor 304 processes a baseband signal transmitted and received between the RF module 302 and the controller 300.

메모리부(306)는 제어부(300)의 처리 및 제어를 위한 프로그램, 참조 데이터, 전화번호 정보와 같은 갱신 가능한 각종 보관용 데이터 등을 저장하며, 제어부(300)의 워킹 메모리로 제공된다. 특히 본 발명에 따른 화자의 음성으로부터 음성분석을 하기 위한 음성분석 프로그램과 화상통화 중인 사용자들의 음성특성정보를 사용자들 각각의 전화번호와 매칭한 음성인식테이블을 저장한다. 키입력부(308)는 0∼9의 숫자 키들과, *, #키, 그리고 해당 이동통신 단말기가 구비하는 여러 가지 기능에 대응되게 메뉴(menu), 선택, 통화, 지움, 전원/종료, 볼륨(volume)조절 등 다수 기능 키들을 구비하며 사용자가 누르는 키에 대응하는 키 입력 데이터를 제어부(300)에 제공한다. 특히 본 발명에 따른 단말기의 확대키는 확대키를 입력한 사용자의 화상을 화상통화에 참여하고 있는 모든 사용자들의 단말기 화면에 확대하여 디스플레이 할 수 있는 기능을 구비한다. 이러한 확대키는 화상통화 시 이미 구 버전에서 구비된 키 입력을 통해 확대키를 입력한 사용자의 화상을 화상통화에 참여하고 있는 모든 사용자들의 단말기 화면에 확대하여 디스플레이 할 수 있도록 하거나, 별도의 키로 구비할 수도 있다. 음성처리부(310)는 전화 통화, 음성 녹음, 음성 출력 등을 위해 이동통신 단말기에 입력되거나 출력되는 음성신호를 처리하게 된다. 디스플레이부(312)는 각종 화상정보와 수신 또는 메모리부(306)에 저장되어 있는 화상을 제어부(300)의 제어에 의해 화면상에 디스플레이 한다.The memory unit 306 stores various updateable storage data such as programs, reference data, and phone number information for processing and control of the controller 300, and is provided as a working memory of the controller 300. In particular, a voice analysis program for voice analysis from a speaker's voice and a voice recognition table matching voice characteristic information of users in a video call with telephone numbers of the users are stored. The key input unit 308 corresponds to menus, selections, calls, deletes, power / end, volume (e.g., keys) corresponding to the numeric keys 0 to 9, * and # keys, and various functions of the mobile communication terminal. It is provided with a plurality of function keys, such as volume) adjustment and provides the control unit 300 with key input data corresponding to the key pressed by the user. In particular, the magnification key of the terminal according to the present invention has a function to enlarge and display the image of the user who inputs the magnification key on the terminal screen of all users participating in the video call. The enlarged key may be used to enlarge and display the image of the user who inputs the enlarged key on the terminal screen of all users participating in the video call through a key input already provided in the previous version during the video call, or as a separate key. You may. The voice processor 310 processes a voice signal input or output to the mobile communication terminal for a phone call, voice recording, voice output, and the like. The display unit 312 displays various image information and images stored in the reception or memory unit 306 on the screen under the control of the control unit 300.

그러면 이제 상기의 도 3과 같이 구성되는 단말기에서 다자간 화상통화 중 음성인식을 활용하여 화자의 화상을 확대하여 디스플레이 하기 위한 제어 과정을 도 4를 참조하여 살펴보도록 한다. 도 4는 다자간 화상통화 중 음성을 활용해 화자의 화상을 확대하여 디스플레이 하는 과정이다.Next, a control process for enlarging and displaying an image of a speaker using voice recognition during a multi-party video call in a terminal configured as shown in FIG. 3 will now be described with reference to FIG. 4. 4 is a process of enlarging and displaying an image of a speaker using voice during a multi-party video call.

먼저, 400단계에서 제어부(300)는 대기상태를 유지한다. 이후, 402단계에서 제어부(300)는 키입력부(308)를 통해 화상통화버튼 입력이 있으면, 404단계로 진행하여 키입력부(308)를 통해 단말기 사용자로부터 상대방의 전화번호를 입력 받는다. 다음으로, 406단계에서 제어부(300)는 메모리부(306)의 음성인식테이블에 단말기 사용자의 음성특성정보가 저장되어 있는지 확인한 후, 음성인식테이블에 단말기 사용자의 음성특성정보가 이미 존재하면 408단계로 진행하여 화상통화 연결을 시도한다. 만일, 406단계에서 메모리부(306)에 저장되어 있는 음성인식테이블에 단말기 사용자의 음성특성정보가 저장되어 있지 않으면 410단계로 진행한다. 410단계에서 제어부(300)는 사용자의 음성특성정보를 추출해 내기 위한 음성입력 메시지를 디스플레이부(312)를 통해 디스플레이 하거나, 음성처리부(310)의 스피커를 통해 출력한다. 이후, 음성처리부(310)를 통해 단말기 사용자의 음성 입력이 있으면, 제어부(300)는 412단계로 진행하여 메모리부(306)에 저장되어 있는 음성분석프로그램을 이용해 단말기 사용자로부터 입력된 음성에서 음성특성정보를 추출해 낸다. 이후, 412단계로 진행하여 제어부(300)는 추출된 단말기 사용자의 음성특성정보를 단말기 사용자의 전화번호와 매칭하여 메모리부(306)의 음성인식테이블에 저장을 하고, 408단계로 진행하여 화상통화 연결을 한다. 이후, 화상통화가 연결이 되면 416단계에서 제어부(300)는 베이스밴드처리부(304)와 RF모듈(302)을 통해 상대방 단말기들로 메모리부(306)에 저장되어 있는 단말기 사용자의 음성인식테이블을 전송한다. 이후, 418단계에서 제어부(300)는 RF모듈(302)과 베이스밴드처리부(304)를 통해 상대방 사용자들의 음성인식테이블을 수신하면 420단계로 진행한다. 이후, 420단계에서 제어부(300)는 상대방 단말기들로부터 수신된 음성특성정보를 사용자 단말기의 메모리부(306)에 저장되어 있는 음성인식테이블에 상대방 각각의 전화번호와 매칭하여 저장한다. 이후, 422단계에서 음성처리부(310)를 통해 단말기 사용자의 음성이 입력되거나, RF모듈(302)과 베이스밴드처리부(304)를 통해 상대방 단말기로부터 음성신호가 수신되면 424단계로 진행한다. 이후, 424단계에서 제어부(300)는 사용자 단말기의 메모리부(306)에 저장되어 있는 음성인식 프로그램을 이용해 화자의 음성에서 음성특성정보를 추출해 낸다. 이후, 426단계에서 제어부(300)는 추출된 음성특성정보와 메모리부(306)에 저장되어 있는 음성인식테이블의 음성특성정보를 비교하여 화자를 인식한다. 이후, 제어부(300)는 428단계로 진행하여 인식된 화자의 화상을 도 7과 같이 디스플레이부(312)를 통해 확대하여 디스플레이 한다. 이후, 430단계에서 제어부(300)는 키입력부(308)의 종료를 위한 키 입력이 있으면 화상통화를 종료한다.First, in step 400 the control unit 300 maintains a standby state. In step 402, if there is a video call button input through the key input unit 308, the control unit 300 proceeds to step 404 and receives the other party's telephone number from the terminal user through the key input unit 308. Next, in step 406, the controller 300 checks whether the voice characteristic information of the terminal user is stored in the voice recognition table of the memory unit 306, and if the voice characteristic information of the terminal user already exists in the voice recognition table, step 408. Proceed to attempt to connect the video call. If the voice characteristic information of the terminal user is not stored in the voice recognition table stored in the memory unit 306 in step 406, the control proceeds to step 410. In step 410, the control unit 300 displays a voice input message for extracting the voice characteristic information of the user through the display unit 312, or outputs through the speaker of the voice processing unit 310. Then, if there is a voice input of the terminal user through the voice processing unit 310, the control unit 300 proceeds to step 412 voice characteristics from the voice input from the terminal user using the voice analysis program stored in the memory unit 306 Extract information In step 412, the control unit 300 matches the extracted voice characteristic information of the terminal user with the phone number of the terminal user, and stores the extracted voice characteristic information in the voice recognition table of the memory unit 306. Make a connection. Then, when the video call is connected, in step 416, the control unit 300 uses the baseband processor 304 and the RF module 302 as a counterpart terminal to the voice recognition table of the terminal user stored in the memory unit 306. send. Thereafter, in step 418, when the controller 300 receives the voice recognition table of the counterpart users through the RF module 302 and the baseband processor 304, the controller 300 proceeds to step 420. Thereafter, in step 420, the controller 300 matches the voice characteristic information received from the counterpart terminals to the phone number of the counterpart in the voice recognition table stored in the memory unit 306 of the user terminal. Thereafter, when the voice of the terminal user is input through the voice processor 310 or the voice signal is received from the counterpart terminal through the RF module 302 and the baseband processor 304, the controller proceeds to step 424. In operation 424, the controller 300 extracts voice characteristic information from the speaker's voice using a voice recognition program stored in the memory unit 306 of the user terminal. In operation 426, the controller 300 compares the extracted voice characteristic information with the voice characteristic information of the voice recognition table stored in the memory unit 306 to recognize the speaker. In operation 428, the controller 300 enlarges and displays the recognized speaker image through the display 312 as illustrated in FIG. 7. Thereafter, in step 430, the controller 300 ends the video call when there is a key input for terminating the key input unit 308.

다음으로, 도 5를 참조하여 다자간 화상통화 중 확대키를 입력한 단말기 사용자의 화상을 사용자 단말기 화면에 확대하여 디스플레이하고, 다자간 화상통화에 참여한 상대방 사용자들 각각의 단말기에 확대하여 디스플레이 하기 위한 화상확대신호를 전송하도록 하는 제어 과정을 설명하도록 한다.Next, referring to FIG. 5, an enlarged image of a terminal user who inputs an enlarged key during a multi-party video call is displayed on the screen of the user terminal, and an enlarged image for enlargement and display on each terminal of the counterparties participating in the multi-party video call. A control process for transmitting a signal will be described.

도 5를 살펴보면, 제어부(300)는 500단계에서 도 4를 통해 살펴본 음성을 활용한 다자간 화상통화 중 화자의 화상을 확대하여 디스플레이 하는 다자간 화상통화 모드를 수행하는 것을 가정한다. 이후, 502단계에서 키입력부(308)를 통해 단말기 사용자로부터 자신의 화상을 확대하기 위한 확대키 입력이 있으면, 제어부(300)는 504단계로 진행하여, 단말기 사용자의 화상을 사용자 단말기의 디스플레이부(312)를 통해 사용자 단말기의 화면에 확대하여 디스플레이를 한다. 이후, 506단계에서 제어부(300)는 베이스밴드처리부(304)와 RF모듈(302)을 통해 단말기 사용자의 화상을 확대하여 디스플레이 하기 위한 화상확대신호를 상대방 단말기들로 전송한다. 이후, 508단계에서, 제어부(300)는 키입력부(308)의 종료를 위한 키 입력이 있으면 화상통화를 종료한다.Referring to FIG. 5, it is assumed that the controller 300 performs a multi-party video call mode in which the image of the speaker is enlarged and displayed during the multi-party video call using the voice described with reference to FIG. 4 in operation 500. Thereafter, if there is an enlarged key input for enlarging an image of the user from the terminal user through the key input unit 308 in step 502, the control unit 300 proceeds to step 504, and displays the image of the terminal user on the display unit of the user terminal. The display is enlarged on the screen of the user terminal through 312). In operation 506, the control unit 300 transmits an image magnification signal for enlarging and displaying an image of the terminal user through the baseband processor 304 and the RF module 302 to the counterpart terminals. In operation 508, if there is a key input for terminating the key input unit 308, the controller 300 ends the video call.

다음으로, 도 6은 다자간 화상통화 중 상대방 단말기들로부터 화상확대신호 가 수신되면, 화상확대신호를 전송한 상대방의 화상을 단말기의 화면에 확대하여 디스플레이 하기 위한 제어 과정이다.Next, FIG. 6 is a control process for enlarging and displaying an image of the counterpart, which has transmitted the image enlargement signal, on the screen of the terminal when the image enlargement signal is received from the counterpart terminals during the multi-party video call.

도 6을 살펴보면, 제어부(300)는 600단계에서, 도 4를 통해 살펴본 음성을 활용한 다자간 화상통화 중 화자의 화상을 확대하여 디스플레이 하는 다자간 화상통화 모드를 수행하는 것을 가정한다. 이후, 602단계에서 RF모듈(302)과 베이스밴드처리부(304)를 통해 상대방 단말기들로부터 상대방 화상을 확대하기 위한 화상확대신호가 수신되면 제어부(300)는 604단계로 진행한다. 이후, 604단계에서 제어부(300)는 화상확대신호를 전송한 상대방의 화상을 사용자 단말기의 화면에 디스플레이부(312)를 통해 확대하여 디스플레이 한다. 이후, 606단계에서 제어부(300)는 키입력부(308)의 종료를 위한 키 입력이 있으면 화상통화를 종료한다.Referring to FIG. 6, it is assumed in step 600 that the controller 300 performs a multi-party video call mode in which the speaker's image is enlarged and displayed during the multi-party video call using the voice described with reference to FIG. 4. Subsequently, when an image enlargement signal for enlarging the counterpart image is received from the counterpart terminals through the RF module 302 and the baseband processor 304 in step 602, the controller 300 proceeds to step 604. In operation 604, the controller 300 enlarges and displays the image of the other party who has transmitted the image enlargement signal through the display 312 on the screen of the user terminal. Thereafter, in step 606, the controller 300 ends the video call when there is a key input for terminating the key input unit 308.

상술한 바와 같이 본 발명은 다자간의 화상통화 중 화상통화에 참여하고 있는 사용자들 중 화자의 음성특성정보를 이용해 화자의 화상을 자동으로 확대하여 디스플레이 함으로써, 화상통화 중 화자를 쉽게 찾을 수 있는 이점이 있다. 또한, 자신의 화상을 확대하여 디스플레이 할 수 있는 확대키를 사용하여 상대방 사용자가 말을 하는 중에 자신의 화상을 확대하여 보여 줄 수 있는 이점이 있다.As described above, the present invention has an advantage of easily finding a speaker during a video call by automatically expanding and displaying the image of the speaker using voice characteristic information of the speaker among users participating in the video call. have. In addition, there is an advantage in that the counterpart user can enlarge and show his or her own image while talking by using an enlarged key capable of enlarging and displaying the own image.

Claims (5)

화상통화 기능을 구비하는 단말기에서 다자간 화상통화 중인 사용자들의 화상을 화면상에 디스플레이 하는 방법에 있어서,Claims [1] A method for displaying an image of a user who is in a multi-party video call on a screen in a terminal having a video call function. 사용자의 다자간 화상통화 요구에 응답하여 상기 사용자로부터 상기 사용자의 음성을 입력 받는 단계와,Receiving a voice of the user from the user in response to a user's multi-call request; 상기 입력된 사용자의 음성으로부터 상기 사용자의 음성특성정보를 추출하는 단계와,Extracting voice characteristic information of the user from the input voice of the user; 상기 추출된 사용자의 음성특성정보를 상기 사용자의 전화번호와 매칭하여 저장하는 단계와,Storing the extracted voice characteristic information of the user by matching with the telephone number of the user; 상기 사용자의 상기 음성특성정보를 다자간 화상통화 중인 상대방 단말기들에게 전송하는 단계와,Transmitting the voice characteristic information of the user to counterpart terminals in a multi-party video call; 상기 상대방 단말기들로부터 수신된 음성특성정보를 상기 상대방 단말기들 각각의 전화번호와 매칭하여 저장하는 단계와,Storing voice characteristic information received from the counterpart terminals in correspondence with phone numbers of the counterpart terminals; 상기 화상통화 중인 사용자들 중 화자의 음성으로부터 상기 화자의 음성특성정보를 추출하는 단계와,Extracting voice characteristic information of the speaker from the speaker's voice among the users in the video call; 상기 추출된 화자의 음성특성정보를 상기 저장되어 있는 음성특성정보들과 비교하여 상기 다자간 화상통화 중인 사용자들 중에 상기 화자에 해당하는 사용자를 인식하는 단계와,Comparing the extracted voice characteristic information of the speaker with the stored voice characteristic information to recognize a user corresponding to the speaker among the users in the multi-party video call; 상기 화면상에 디스플레이 되는 다자간 화상통화 중인 사용자 화상들 중에 상기 인식된 사용자에 대응하는 사용자 화상을 나머지 사용자 화상들에 비해 크게 확대하여 디스플레이 하는 단계를 구비함을 특징으로 하는 다자간 화상통화 중 음성인식을 활용한 화면 디스플레이 방법.And displaying the user image corresponding to the recognized user in a larger way than the other user images among the user images displayed on the screen. How to display the screen. 제 1항에 있어서, 상기 사용자 음성 입력 단계가, 미리 정해진 특정 단어를 입력 받는 것을 특징으로 하는 다자간 화상통화 중 음성인식을 활용한 화면 디스플레이 방법.The method of claim 1, wherein the user's voice input step receives a predetermined specific word. 제 1항에 있어서, 상기 사용자 음성 입력 단계가, 임의의 문구와 문장 중에 적어도 어느 한 가지를 입력 받는 것을 특징으로 하는 다자간 화상통화 중 음성인식을 활용한 화면 디스플레이 방법. The method of claim 1, wherein the user's voice input step receives at least one of an arbitrary phrase and a sentence. 화상통화 기능을 구비하는 단말기에서 다자간 화상통화 중인 사용자들의 화상을 화면상에 디스플레이 하는 방법에 있어서,Claims [1] A method for displaying an image of a user who is in a multi-party video call on a screen in a terminal having a video call function. 다자간 화상통화 모드 중에 사용자로부터 미리 설정된 확대키가 입력되면 상기 사용자의 화상을 나머지 사용자 화상들에 비해 확대하여 디스플레이 하는 단계와,Displaying an enlarged image of the user compared to the other user images when a preset enlarged key is input from the user during the multi-party video call mode; 상기 사용자에 관한 화상확대신호를 상기 화상통화 중인 상대방 사용자들의 단말기로 전송하는 단계를 구비함을 특징으로 하는 다자간 화상통화 중 음성인식을 활용한 화면 디스플레이 방법.And transmitting the image magnification signal for the user to the terminals of the counterpart users in the video call. 제 4항에 있어서, 다자간 화상통화 중 상기 상대방 사용자로부터 상기 화상확대신호가 수신되면 상기 화상확대신호를 전송한 사용자의 화상을 확대하여 디스플레이 하는 것을 더 구비함을 특징으로 하는 다자간 화상통화 중 음성인식을 활용한 디스플레이 방법.The voice recognition of a multi-way video call according to claim 4, further comprising: enlarging and displaying an image of the user who has transmitted the picture-extension signal when the image-expansion signal is received from the counterpart user during the multi-way video call. Display method using
KR1020060044427A 2006-05-17 2006-05-17 Displaying method using voice recognition in multilateral video conference KR20070111270A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020060044427A KR20070111270A (en) 2006-05-17 2006-05-17 Displaying method using voice recognition in multilateral video conference

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060044427A KR20070111270A (en) 2006-05-17 2006-05-17 Displaying method using voice recognition in multilateral video conference

Publications (1)

Publication Number Publication Date
KR20070111270A true KR20070111270A (en) 2007-11-21

Family

ID=39090255

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060044427A KR20070111270A (en) 2006-05-17 2006-05-17 Displaying method using voice recognition in multilateral video conference

Country Status (1)

Country Link
KR (1) KR20070111270A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100947027B1 (en) * 2007-12-28 2010-03-11 한국과학기술원 Method of communicating with multi-user simultaneously using virtual sound and computer-readable medium therewith
CN102025970A (en) * 2010-12-15 2011-04-20 广东威创视讯科技股份有限公司 Method and system for automatically adjusting display mode of video conference
KR101442112B1 (en) * 2008-05-26 2014-09-18 엘지전자 주식회사 Mobile terminal capable of controlling operation using a proximity sensor and control method thereof
US9998707B2 (en) 2014-03-13 2018-06-12 Google Llc Video chat picture-in-picture
US11025861B2 (en) 2010-04-07 2021-06-01 Apple Inc. Establishing a video conference during a phone call

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100947027B1 (en) * 2007-12-28 2010-03-11 한국과학기술원 Method of communicating with multi-user simultaneously using virtual sound and computer-readable medium therewith
KR101442112B1 (en) * 2008-05-26 2014-09-18 엘지전자 주식회사 Mobile terminal capable of controlling operation using a proximity sensor and control method thereof
US11025861B2 (en) 2010-04-07 2021-06-01 Apple Inc. Establishing a video conference during a phone call
CN102025970A (en) * 2010-12-15 2011-04-20 广东威创视讯科技股份有限公司 Method and system for automatically adjusting display mode of video conference
US9998707B2 (en) 2014-03-13 2018-06-12 Google Llc Video chat picture-in-picture

Similar Documents

Publication Publication Date Title
JP4352471B2 (en) Communication system and communication method
US9123271B2 (en) Apparatus and method for establishing a network connection in a portable terminal
EP2892210B1 (en) Providing video telephony using broadcast receiving apparatus and SMS message
JP2006217628A (en) Transceiver for providing image communication among many person and transmission method
KR100793299B1 (en) Apparatus and method for storing/calling telephone number in a mobile station
KR20070111270A (en) Displaying method using voice recognition in multilateral video conference
JP4893797B2 (en) COMMUNICATION DEVICE AND METHOD, COMMUNICATION SYSTEM, AND PROGRAM RECORDING MEDIUM
KR100762642B1 (en) Method for displaying sms message background picture in terminal including sms function and terminal thereof
KR100735415B1 (en) Method for performing video telephone call of multilateral in?wireless terminal
KR100438540B1 (en) Image transmitting/receiving method and system for mobile communication terminal equipment
KR20110056638A (en) Apparatus and method for changing call mode in portable terminal
KR20070075581A (en) Method and mobile communication terminal for making image call list by using captured image
KR100724892B1 (en) Method for calling using inputted character in wireless terminal
JP4477079B2 (en) Mobile phone equipment
JP2005295574A (en) Communication equipment
KR100782077B1 (en) Mute image transmitting method for multilateral image communication terminal
KR100630184B1 (en) Method for calling using message in wireless terminal
JP2002125208A (en) Videophone system
KR100605875B1 (en) Method for transmitting number while taking over ?he telephone in wireless terminal
KR100664559B1 (en) Method for multi number selection using pause function with portable communication terminal
KR100663531B1 (en) Method for displaying clock in wireless terminal
KR100605956B1 (en) Method for sending short message service in wireless telephone
KR101394262B1 (en) Method for sending call of mobile terminal
KR100703384B1 (en) Method and system for deleting the send number in mobile terminal
JP2005304039A (en) Communication apparatus

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application