WO2019221506A1 - 바이노럴 사운드를 이용한 감성 통화 방법 및 이를 위한 장치 - Google Patents

바이노럴 사운드를 이용한 감성 통화 방법 및 이를 위한 장치 Download PDF

Info

Publication number
WO2019221506A1
WO2019221506A1 PCT/KR2019/005823 KR2019005823W WO2019221506A1 WO 2019221506 A1 WO2019221506 A1 WO 2019221506A1 KR 2019005823 W KR2019005823 W KR 2019005823W WO 2019221506 A1 WO2019221506 A1 WO 2019221506A1
Authority
WO
WIPO (PCT)
Prior art keywords
call
emotional
voice
user
sound
Prior art date
Application number
PCT/KR2019/005823
Other languages
English (en)
French (fr)
Inventor
박승민
박준서
곽남훈
Original Assignee
Park Seung Min
Park Jun Seo
Gwack Nam Hun
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Park Seung Min, Park Jun Seo, Gwack Nam Hun filed Critical Park Seung Min
Publication of WO2019221506A1 publication Critical patent/WO2019221506A1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/725Cordless telephones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/34Microprocessors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/52Details of telephonic subscriber devices including functional features of a camera

Definitions

  • the present invention relates to an emotional call method using a binaural sound and a device therefor (METHOD FOR EMOTIONAL CALLING USING BINAURAL SOUND AND APPARATUS THEREOF).
  • a binaural sound and a device therefor Method FOR EMOTIONAL CALLING USING BINAURAL SOUND AND APPARATUS THEREOF.
  • the position of the caller's voice can be set differently according to the situation to reduce the cognitive load and reduce the energy required for the user to talk. It is about technology.
  • the video call is basically a method of talking while looking at the other party's appearance, the user can make a call while looking at the display window of the mobile device.
  • the user may make a video call with the mobile device in his or her right hand or left hand, or mount it on a separate holder that can fix the mobile device, depending on the situation.
  • the voice of the caller always hears a certain feeling, so that the user may feel heterogeneous in the relationship between the position and the sound. This situation can also add fatigue to the call because it creates a cognitive load on the user.
  • An object of the present invention is to provide a call technology that generates a sentimental effect by combining psychological elements with stereophonic technology using binaural sound.
  • an object of the present invention is to reduce the user's fatigue by reducing the cognitive load required for a user to make a voice call or a video call.
  • the emotional call method for reducing the cognitive load for the call comprising the steps of: confirming the emotional sound settings; And changing the voice position of the counterpart according to the emotional sound setting, and providing the counterpart voice as a binaural sound corresponding to the changed voice position.
  • the emotional sound setting may be activated when the earphone is used, and may be deactivated when the earphone is not used.
  • the step of confirming the emotional sound setting may check the relative position of the call terminal with respect to the face of the user who performs the call, the relative position can be confirmed as the voice position of the other party.
  • the checking of the emotional sound setting may include detecting at least two or more positional relationships among eyes, noses, mouths, and ears included in the face of the user based on a camera provided in the call terminal, and considering the positional relationship. And calculating an angle corresponding to the relative position based on the detected front face direction.
  • the step of confirming the emotional sound setting may determine whether or not to pre-set the counterpart based on the phone number, and if the pre-set is set to determine the voice position of the counterpart corresponding to the pre-set.
  • the position corresponding to the right ear of the user may be confirmed as the voice position of the counterpart.
  • the position corresponding to the back of the user's head may be confirmed as the voice position of the counterpart.
  • the designated position may be identified as the voice position of the counterpart in consideration of the number of counterparts participating in the conference call.
  • the designated position may be set based on a value obtained by dividing an angle of a preset range based on the line of sight of the user corresponding to the number of relative persons.
  • the emotional call method may further include providing a location designation interface that can designate the voice location of the counterpart in consideration of the number of opponents.
  • the emotional call method if the emotional call end condition is satisfied during the emotional call, deactivating the emotional sound setting; And when the emotional call execution condition is satisfied during the general call, activating the emotional sound setting.
  • the emotional call end condition is satisfied when the use of the earphone is terminated during the emotional call and when the emotional call end command based on a user input is input during the emotional call, and the emotional call execution condition is satisfied. May be satisfied when at least one of the case where the use of the earphone is executed during the general call and the case where the emotional call execution command based on the user input is input during the general call.
  • the emotional call method may be applicable to at least one of a voice call and a video call.
  • the emotional call application stored in the computer-readable recording medium according to an embodiment of the present invention, to reduce the cognitive load for the call, the step of confirming the emotional sound settings; And changing the voice position of the counterpart according to the emotional sound setting, and providing the counterpart voice as a binaural sound corresponding to the changed voice position.
  • the emotional sound setting may be activated when the earphone is used, and may be deactivated when the earphone is not used.
  • the step of confirming the emotional sound setting may check the relative position of the call terminal with respect to the face of the user who performs the call, the relative position can be confirmed as the voice position of the other party.
  • the checking of the emotional sound setting may include detecting at least two or more positional relationships among eyes, noses, mouths, and ears included in the face of the user based on a camera provided in the call terminal, and considering the positional relationship. And calculating an angle corresponding to the relative position based on the detected front face direction.
  • the step of confirming the emotional sound setting may determine whether or not to pre-set the counterpart based on the phone number, and if the pre-set is set to determine the voice position of the counterpart corresponding to the pre-set.
  • the position corresponding to the right ear of the user may be confirmed as the voice position of the counterpart.
  • the position corresponding to the back of the user's head may be confirmed as the voice position of the counterpart.
  • the designated position may be identified as the voice position of the counterpart in consideration of the number of counterparts participating in the conference call.
  • the designated position may be set based on a value obtained by dividing an angle of a preset range based on the line of sight of the user corresponding to the number of relative persons.
  • the emotional call application may further execute the step of providing a location interface for designating the voice location of the counterpart in consideration of the number of opponents.
  • the emotional call application if the emotional call end condition is satisfied during the emotional call, deactivating the emotional sound setting; And if the emotional call execution condition is satisfied during the general call, activating the emotional sound setting.
  • the emotional call end condition is satisfied when the use of the earphone is terminated during the emotional call and when the emotional call end command based on a user input is input during the emotional call, and the emotional call execution condition is satisfied. May be satisfied when at least one of the case where the use of the earphone is executed during the general call and the case where the emotional call execution command based on the user input is input during the general call.
  • the emotional call application may be applicable to at least one of a voice call and a video call.
  • the present invention can reduce the fatigue that the user feels by reducing the cognitive load required for the user (voice) for the voice call or video call.
  • the present invention can provide a personalized call environment for the user by identifying the call counterpart and setting the emotional sound.
  • the present invention can improve efficiency in work by effectively recognizing voices for each participant in a conference call.
  • FIG. 1 is a flowchart illustrating an emotional call method using binaural sound according to an embodiment of the present invention.
  • FIG. 2 is a diagram illustrating an example of an emotional sound setting based on a relative position of a call terminal with respect to a face of a user according to the present invention.
  • FIG. 3 is a view showing an example of detecting the positional relationship of eyes, nose, mouth, ear according to the present invention.
  • FIG. 4 is a diagram illustrating an example of calculating an angle of a relative position according to the present invention.
  • 5 to 6 are diagrams showing an example of calculating the distance of the relative position according to the present invention.
  • 10 to 12 are diagrams showing an example of an emotional sound setting for a conference call according to the present invention.
  • 13 to 16 illustrate an example of a positioning interface according to the present invention.
  • 17 is a diagram illustrating a process of using a relative position of a call terminal with respect to a face of a user in an emotional call method according to an embodiment of the present invention.
  • FIG. 18 is a diagram illustrating a process of using pre-setting in the emotional call method according to an embodiment of the present invention in detail.
  • FIG. 19 is a diagram illustrating a process of using a conference call in detail in an emotional call method according to an embodiment of the present invention.
  • 20 is a detailed flowchart illustrating a process of activating or deactivating emotional sound settings during a call in an emotional call method according to an embodiment of the present invention.
  • 21 is a block diagram showing a call terminal running the emotional call application according to an embodiment of the present invention.
  • FIG. 1 is a flowchart illustrating an emotional call method using binaural sound according to an exemplary embodiment of the present invention.
  • the emotional call method using the binaural sound checks the emotional sound settings (S110).
  • the emotional call according to the present invention may correspond to a call method for reducing the cognitive load that may occur when the user makes a call using the emotional sound.
  • the emotional sound corresponds to the binaural sound to which the binaural effect is applied, and the sound actually output to the user may correspond to the emotional sound.
  • Emotional call reduces the cognitive load through stereoscopic effect based on binaural sound to reduce the fatigue feeling when the user makes a call or to provide the user with a three-dimensional call experience by providing an emotional element that cannot be felt in the general call. You can also provide
  • a service may be provided in consideration of the use of an audio device that can feel the binaural effect such as an earphone or a headphone.
  • the emotional sound setting may be activated when the earphone is used, and deactivated when the earphone is not used.
  • the earphone or headphone for activating the emotional sound setting may include wireless as well as a wired Bluetooth headset or a Bluetooth headphone.
  • the emotional sound setting is described as the use of the earphone.
  • the activation or deactivation of the emotional sound setting may be performed according to the use of the headphones similar to the earphone.
  • the relative position of the call terminal with respect to the face of the user performing the call can be checked, and the relative position can be confirmed as the voice position of the counterpart.
  • the voice location of the other party may be confirmed by checking the relative position of the call terminal 220 with respect to the face of the user 210 who performs the call. That is, the user 210 may perform the emotional sound setting so that the user 210 may feel as if the other party's voice is heard at the location of the call terminal 220.
  • the position of the position based on the detected front direction in consideration of the positional relationship can be calculated.
  • eyes, nose, mouth, and ears may be detected as shown in FIG. 3. .
  • the frontal direction of the face may be detected by detecting which direction the face of the user 210 faces through the positional relationship with respect to the detected eyes, nose, mouth, and ears.
  • the face front direction 411 of the user 410 and the call terminal for the call terminal 420 are illustrated.
  • the relative position angle 430 between the front direction 421 may be calculated.
  • the user 410 and the call terminal 420 are called with their right hand. At this time, if the user 410 speaks with the call terminal 420 in the face front direction 411, there is no difference in angle between the call terminal front direction 421 and the face front direction 411. Emotional sound settings can be performed to hear.
  • the terminal 420 may provide a stereoscopic call experience to the user 410 by performing emotional sound setting in the same manner.
  • a face image of the user may be obtained based on a camera provided in the call terminal, and a distance corresponding to the relative position may be calculated in consideration of the image size of the face image.
  • the size of the face image 520 obtained through the camera of the call terminal in the call state 510 as shown in FIG. 5 is the call state 610 as shown in FIG. 6. It can be seen that the face is larger than the face image 620 obtained through the camera of the call terminal. That is, the face image 520 of FIG. 5 is larger than the face image 620 of FIG. 6, so that the relative position distance 511 of the call state 510 of FIG. 5 is greater than that of the call state 610 of FIG. 6. It may mean that it is shorter than the relative position distance 611.
  • the emotional sound setting may be performed by calculating a distance corresponding to the relative position based on the image photographed by the call terminal in this manner.
  • the pre-setting corresponds to information that can be set according to who is the call counterpart, and a separate interface may be provided so that the user of the call terminal may be set based on the phone number stored in the call terminal.
  • the pre-setting when the pre-setting is in the whisper mode, the position corresponding to the right ear of the user can be confirmed as the voice position of the other party.
  • pre-set to operate in the whisper mode when talking to a lover and the position of the lover's voice position 730 near the right ear of the user 710 as shown in FIG. It can be confirmed that. That is, when pre-setting is performed, the voice position may be determined according to a mode set to pre-setting regardless of the position of the call terminal 720.
  • the user's voice may be more easily recognized by setting the voice position of the other party to the right ear instead of the left ear.
  • This setting takes into account the sound recognition path of the cerebrum, which will be described below with reference to the drawing shown in FIG. 8.
  • the sound coming into the right ear 810 is transmitted to the left cerebral primary auditory cortex via the right cochlear 811 nerve and the sagittal medial humerus, and the sound coming into the left ear 820 is the nerve and thalamus of the left cochlear 821.
  • Via the medial knee body can be delivered to the right brain primary auditory cortex. That is, as can be seen in the nerve connecting portion 800, the right cochlea 811 nerve is connected to the left brain, the left cochlear 821 nerve is connected to the right brain, so the sound coming into the right ear 810 is transmitted to the left brain.
  • the sound coming into the left ear 820 may be delivered to the right brain.
  • the Wernicke region which corresponds to the listening region in the brain, is the backbone of the linguistic nerve located in the temporal lobe of the left brain, and receives and receives information from the primary auditory cortex.
  • the primary auditory cortex processes only simple hearing without considering the meaning of language, and later processes the listening as a language having meaning in the Bernike region. In the end, processing in the Wernicke region may be necessary.
  • the sound coming into the left ear 820 is first transmitted to the primary auditory cortex of the right brain where the Wernicke region is not located, one more path is required when comparing the paths of the sound coming into the right ear 810. can do. That is, the sound coming into the right ear 810 is directly transmitted from the left brain primary auditory cortex to the Wernicke region located in the left brain, while the sound coming into the left ear 820 is located in the right brain primary auditory cortex.
  • the path through the right ear 810 may be shorter than the path through the left ear 820 because it must be delivered to the area.
  • the user 710 may be less tired to recognize the voice and may recognize the voice more easily by providing a sound to the right ear of the user 710 as shown in FIG. 7.
  • the pre-setting when the pre-setting is in the nagging mode, the position corresponding to the back of the user's head can be confirmed as the voice position of the other party.
  • the emotional sound setting may be deactivated to perform a general call instead of an emotional call.
  • the designated position may be identified as the voice position of the counterpart in consideration of the number of counterparts participating in the conference call.
  • the designated position may be set based on a value obtained by dividing an angle of a predetermined range based on the line of sight of the user corresponding to the number of relative persons.
  • the area is divided by dividing 180 degrees based on the front of the user 1000 by 2 corresponding to the number of people, and the designated positions 1010 and 1020 at the intermediate angle points of the divided areas. You can set the voice position of the other party by setting.
  • the angle of the preset range is similarly 180 degrees.
  • the area is divided by dividing 180 degrees based on the front of the user 1100 by 3 corresponding to the number of people, and the designated positions 1110 and 1120 at the intermediate angle points of the divided area. 1130 may set the voice position of the other party.
  • the area is divided by dividing 360 degrees based on the user 1200 by 4 corresponding to the number of relative persons, and the designated positions 1210, 1220, 1230 at the intermediate angle points of the divided areas. 1240 may be set to set the voice position of the other party.
  • the method of setting the designated position is not limited to the method shown in Figs.
  • the emotional call method using the binaural sound can provide a positioning interface that can specify the voice position of the other party in consideration of the number of opponents. .
  • the call terminal of the user may provide the positioning interface shown in FIG. 13. If it is assumed that there is a participant of A, B, C, and D except the user, an interface screen for selecting the location of the participant may be sequentially provided as shown in FIGS. 13 to 15.
  • the Modify Location button 1610 for modifying the designated location of the participants as shown in FIG. 16 and the start of the conference call to start the conference call to the currently specified location. Button 1620 may be provided.
  • the positioning interface may be provided before the conference call starts or during the conference call, and the form thereof may not be limited to FIGS. 13 to 16.
  • the emotional call method using the binaural sound changes the position of the other party's voice according to the emotional sound setting, and provides the other party's voice as a binaural sound corresponding to the changed voice position ( S120).
  • the binaural sound may be generated by applying the existing technology and the technology that can be developed in the future.
  • Korean Patent Publication No. 10-1599554 discloses a method of outputting a 3D binaural signal based on an international standard multichannel audio encoding technology called MPEG Surround. 10-1599554 extracts multi-channel audio playback parameters based on the MPEG-Surround (MPS) international standard and performs HRD (Head Related Transfer function) filtering on downmix audio signals using the audio playback parameters. Disclosed is a content for outputting a binaural signal.
  • HRTF filtering may be filtering to obtain the impulse response of the left and right sides for each position at a specific interval between the azimuth angle of 360 degrees and the altitude angle of 180 degrees using a dummy header microphone modeling a human auditory organ.
  • the multi-channel audio reproduction characteristic parameter is related to the output level difference of the front and rear channel signals for each frequency band. It may be extracted based on the spatial parameter expressed by the degree of correlation.
  • Korean Patent Publication No. 10-0971700 filters left and right audio signals in a frequency domain based on the location information of a virtual sound source and binaural filter coefficients for each channel, and decodes the filtered signal into a binaural stereo signal.
  • the contents are disclosed.
  • the stereo left / right audio signal of the input time domain is converted into a signal of the frequency domain using a Discrete Fourier Transform (DFT) or a Fast Fourier Transform (FFT), and the sub is allocated based on the location information of the virtual sound source.
  • DFT Discrete Fourier Transform
  • FFT Fast Fourier Transform
  • a stereo left / right signal corresponding to the frequency domain may be filtered as a binaural stereo signal based on a power gain value of each channel per band and a left / right HRTF coefficient block in the frequency domain for each channel.
  • the spatial gain of each channel can be calculated by synthesizing the spatial cue information based on the virtual source location information (VSLI) of the virtual sound source, and the VSLI-based spatial cue information for the stereo signal For any subband (m), Left Half-plane Angle (LHA) (LHA (m)), Left Subsequent Angle (LSA) (LSA (m)), Right Half-Angle ( RHA: Right Half-plane Angle (RHA (m)) and Right Subsequent Angle (RSA (RSA (m)).
  • LHA Left Half-plane Angle
  • LSA Left Subsequent Angle
  • RHA Right Half-Angle
  • RHA Right Half-plane Angle
  • RSA Right Subsequent Angle
  • the present invention can also generate a binaural sound corresponding to the voice position of the counterpart based on the emotional sound setting based on the above technique.
  • the emotional call method using the binaural sound if the emotional call end condition is satisfied during the emotional call, the emotional sound setting can be deactivated.
  • the emotional call termination condition may be satisfied when at least one of the case where the use of the earphone is terminated during the emotional call and the case where the emotional call termination command based on the user input is input during the emotional call.
  • the emotional call method using the binaural sound if the emotional call execution condition is satisfied during the general call, the emotional sound setting can be activated.
  • the emotional call execution condition may be satisfied when at least one of the case where the use of the earphone is executed during the general call and the case when the emotional call execution command based on the user input is input during the general call.
  • the emotional call method may be applicable to at least one of a voice call and a video call. That is, the emotional call method according to the present invention can be applied to a video call showing an image together with a voice call or a voice in which only a voice is heard.
  • the emotional call method using the binaural sound according to an embodiment of the present invention as described above separates the various information generated in the emotional call process according to an embodiment of the present invention Can be stored in the storage module.
  • the user may reduce fatigue, and personalized call environment for the user by identifying emotional parties and setting emotional sound. It can also provide
  • 17 is a diagram illustrating a process of using a relative position of a call terminal with respect to a face of a user in an emotional call method according to an embodiment of the present invention.
  • a process of using a relative position of a call terminal with respect to a face of a user in the emotional call method may be performed when a call is first connected between the user terminal 1710 and the counterpart terminal 1720 (In operation S1702, the user may perform face recognition using the camera equipped with the user terminal 1710 (S1704).
  • the user terminal 1710 may assume that the emotional sound setting is activated by using the earphone according to the present invention.
  • the relative position of the user terminal 1710 with respect to the user's face may be checked (S1706) to set the emotional sound, and the voice position of the other party may be confirmed.
  • the voice location of the voice data may be changed according to the voice location identified in the emotional sound setting step (S1710).
  • the binaural sound may be generated and output to the user according to the changed voice position (S1712).
  • FIG. 18 is a diagram illustrating a process of using pre-setting in the emotional call method according to an embodiment of the present invention in detail.
  • the process of using the pre-setting of the emotional call method according to an embodiment of the present invention is performed by pre-setting at the user terminal 1810 (S1802), for each phone number stored in the user terminal 1810. Each emotional call mode can be set.
  • the user terminal 1810 may check the phone number of the counterpart terminal 1820 to determine whether to pre-set (S1806). ).
  • the user terminal 1810 may assume that the emotional sound setting is activated by using the earphone according to the present invention.
  • the pre-setting mode may include a quick step mode for checking a position corresponding to the right ear of the user as the voice position of the counterpart and a nagging mode for checking a position corresponding to the back of the user's head as the voice position of the counterpart.
  • the voice position of the voice data may be changed to the voice position corresponding to the pre-setting mode (S1814).
  • the binaural sound may be generated and output to the user according to the changed voice position (S1816).
  • the call may be performed using a general call sound.
  • FIG. 19 is a diagram illustrating a process of using a conference call in detail in an emotional call method according to an embodiment of the present invention.
  • a process of using a conference call in an emotional call method may include a conference call with counterpart terminals 1920-1 to 1920 -N, including a user terminal 1910. Once started (S1902), first, the user terminal 1910 can determine the number of opponents (S1904).
  • the user terminal 1910 may assume that the emotional sound setting is activated by using the earphone according to the present invention.
  • the user terminal 1910 may designate the locations of the counterpart terminals based on the number of participants excluding the user from the counterpart number (S1906).
  • the location of the other party's voice may be changed to the location of the other party's 1 corresponding to the location specified in step S1906 (S1910). ).
  • the binaural sound may be generated and output to the user according to the changed voice position (S1912).
  • step S1908 the process of step S1912 may be applied to the other counterpart terminals in the same manner (S1914 to S1918), so that voices of various parties participating in the conference call may be output corresponding to the binaural sound. .
  • 20 is a detailed flowchart illustrating a process of activating or deactivating emotional sound settings during a call in an emotional call method according to an embodiment of the present invention.
  • the emotional call termination condition is satisfied. It may be determined whether or not (S2015).
  • the emotional call termination condition may be satisfied when at least one of the case where the use of the earphone is terminated during the emotional call and the case where the emotional call termination command based on the user input is input during the emotional call.
  • the call may be performed by deactivating the emotional sound setting and changing to the general call (S2020).
  • the call process may be terminated.
  • step S2015 it may be determined whether the call is terminated (S2025).
  • the call may be performed by activating the emotional sound setting again and changing to the emotional call (S2050).
  • the emotional call execution condition may be satisfied when at least one of the case where the use of the earphone is executed during the general call and the case when the emotional call execution command based on the user input is input during the general call.
  • step S2055 After determining whether the call is ended (S2055), if the call is not ended, it may be determined whether the emotional call termination condition is satisfied again in step S2015.
  • the call process may be terminated.
  • step S2045 it may be determined whether or not the call has ended corresponding to step S2035.
  • 21 is a block diagram showing a call terminal running the emotional call application according to an embodiment of the present invention.
  • a call terminal running an emotional call application includes a communication unit 2110, a processor 2120, and a memory 2130.
  • the communication unit 2110 may receive an emotional call application through a communication network such as a network, or may connect a video call or a voice call with a counterpart communication terminal. That is, the communication unit 2110 according to an embodiment of the present invention may receive the other party's voice data and transmit the received voice data to the processor 2120 or the memory 2130 that performs an operation for emotional call.
  • a communication network such as a network
  • the communication unit 2110 may receive the other party's voice data and transmit the received voice data to the processor 2120 or the memory 2130 that performs an operation for emotional call.
  • the processor 2120 corresponds to a central processing unit, and may be controlled by executing an emotional call application according to an embodiment of the present invention stored in the memory 2130 through the communication unit 2110 or another path.
  • the processor 2120 verifies the emotional sound setting.
  • the emotional call according to the present invention may correspond to a call method for reducing the cognitive load that may occur when the user makes a call using the emotional sound.
  • the emotional sound corresponds to the binaural sound to which the binaural effect is applied, and the sound actually output to the user may correspond to the emotional sound.
  • Emotional call reduces the cognitive load through stereoscopic effect based on binaural sound to reduce the fatigue feeling when the user makes a call or to provide the user with a three-dimensional call experience by providing an emotional element that cannot be felt in the general call. You can also provide
  • a service may be provided in consideration of the use of an audio device that can feel the binaural effect such as an earphone or a headphone.
  • the emotional sound setting may be activated when the earphone is used, and deactivated when the earphone is not used.
  • the earphone or headphone for activating the emotional sound setting may include wireless as well as a wired Bluetooth headset or a Bluetooth headphone.
  • the emotional sound setting is described as the use of the earphone.
  • the activation or deactivation of the emotional sound setting may be performed according to the use of the headphones similar to the earphone.
  • the relative position of the call terminal with respect to the face of the user performing the call can be checked, and the relative position can be confirmed as the voice position of the counterpart.
  • the voice location of the other party may be confirmed by checking the relative position of the call terminal 220 with respect to the face of the user 210 who performs the call. That is, the user 210 may perform the emotional sound setting so that the user 210 may feel as if the other party's voice is heard at the location of the call terminal 220.
  • the position of the position based on the detected front direction in consideration of the positional relationship can be calculated.
  • eyes, nose, mouth, and ears may be detected as shown in FIG. 3. .
  • the frontal direction of the face may be detected by detecting which direction the face of the user 210 faces through the positional relationship with respect to the detected eyes, nose, mouth, and ears.
  • the face front direction 411 of the user 410 and the call terminal for the call terminal 420 are illustrated.
  • the relative position angle 430 between the front direction 421 may be calculated.
  • the user 410 and the call terminal 420 are called with their right hand. At this time, if the user 410 speaks with the call terminal 420 in the face front direction 411, there is no difference in angle between the call terminal front direction 421 and the face front direction 411. Emotional sound settings can be performed to hear.
  • the terminal 420 may provide a stereoscopic call experience to the user 410 by performing emotional sound setting in the same manner.
  • a face image of the user may be obtained based on a camera provided in the call terminal, and a distance corresponding to the relative position may be calculated in consideration of the image size of the face image.
  • the size of the face image 520 obtained through the camera of the call terminal in the call state 510 as shown in FIG. 5 is the call state 610 as shown in FIG. 6. It can be seen that the face is larger than the face image 620 obtained through the camera of the call terminal. That is, the face image 520 of FIG. 5 is larger than the face image 620 of FIG. 6, so that the relative position distance 511 of the call state 510 of FIG. 5 is greater than that of the call state 610 of FIG. 6. It may mean that it is shorter than the relative position distance 611.
  • the emotional sound setting may be performed by calculating a distance corresponding to the relative position based on the image photographed by the call terminal in this manner.
  • the pre-setting corresponds to information that can be set according to who is the call counterpart, and a separate interface may be provided so that the user of the call terminal may be set based on the phone number stored in the call terminal.
  • the pre-setting when the pre-setting is in the whisper mode, the position corresponding to the right ear of the user can be confirmed as the voice position of the other party.
  • pre-set to operate in the whisper mode when talking to a lover and the position of the lover's voice position 730 near the right ear of the user 710 as shown in FIG. It can be confirmed that. That is, when pre-setting is performed, the voice position may be determined according to a mode set to pre-setting regardless of the position of the call terminal 720.
  • the user's voice may be more easily recognized by setting the voice position of the other party to the right ear instead of the left ear.
  • This setting takes into account the sound recognition path of the cerebrum, which will be described below with reference to the drawing shown in FIG. 8.
  • the sound coming into the right ear 810 is transmitted to the left cerebral primary auditory cortex via the right cochlear 811 nerve and the sagittal medial humerus, and the sound coming into the left ear 820 is the nerve and thalamus of the left cochlear 821.
  • Via the medial knee body can be delivered to the right brain primary auditory cortex. That is, as can be seen in the nerve connecting portion 800, the right cochlea 811 nerve is connected to the left brain, the left cochlear 821 nerve is connected to the right brain, so the sound coming into the right ear 810 is transmitted to the left brain.
  • the sound coming into the left ear 820 may be delivered to the right brain.
  • the Wernicke region which corresponds to the listening region in the brain, is the backbone of the linguistic nerve located in the temporal lobe of the left brain, and receives and receives information from the primary auditory cortex.
  • the primary auditory cortex processes only simple hearing without considering the meaning of language, and later processes the listening as a language having meaning in the Bernike region. In the end, processing in the Wernicke region may be necessary.
  • the sound coming into the left ear 820 is first transmitted to the primary auditory cortex of the right brain where the Wernicke region is not located, one more path is required when comparing the paths of the sound coming into the right ear 810. can do. That is, the sound coming into the right ear 810 is directly transmitted from the left brain primary auditory cortex to the Wernicke region located in the left brain, while the sound coming into the left ear 820 is located in the right brain primary auditory cortex.
  • the path through the right ear 810 may be shorter than the path through the left ear 820 because it must be delivered to the area.
  • the user 710 may be less tired to recognize the voice and may recognize the voice more easily by providing a sound to the right ear of the user 710 as shown in FIG. 7.
  • the pre-setting when the pre-setting is in the nagging mode, the position corresponding to the back of the user's head can be confirmed as the voice position of the other party.
  • the emotional sound setting may be deactivated to perform a general call instead of an emotional call.
  • the designated position may be identified as the voice position of the counterpart in consideration of the number of counterparts participating in the conference call.
  • the designated position may be set based on a value obtained by dividing an angle of a predetermined range based on the line of sight of the user corresponding to the number of relative persons.
  • the area is divided by dividing 180 degrees based on the front of the user 1000 by 2 corresponding to the number of people, and the designated positions 1010 and 1020 at the intermediate angle points of the divided areas. You can set the voice position of the other party by setting.
  • the angle of the preset range is similarly 180 degrees.
  • the area is divided by dividing 180 degrees based on the front of the user 1100 by 3 corresponding to the number of people, and the designated positions 1110 and 1120 at the intermediate angle points of the divided area. 1130 may set the voice position of the other party.
  • the area is divided by dividing 360 degrees based on the user 1200 by 4 corresponding to the number of relative persons, and the designated positions 1210, 1220, 1230 at the intermediate angle points of the divided areas. 1240 may be set to set the voice position of the other party.
  • the method of setting the designated position is not limited to the method shown in Figs.
  • the processor 2120 may provide a location designation interface capable of designating the location of the other party's voice in consideration of the number of opponents.
  • the call terminal of the user may provide the positioning interface shown in FIG. 13. If it is assumed that there is a participant of A, B, C, and D except the user, an interface screen for selecting the location of the participant may be sequentially provided as shown in FIGS. 13 to 15.
  • the Modify Location button 1610 for modifying the designated location of the participants as shown in FIG. 16 and the start of the conference call to start the conference call to the currently specified location. Button 1620 may be provided.
  • the positioning interface may be provided before the conference call starts or during the conference call, and the form thereof may not be limited to FIGS. 13 to 16.
  • the processor 2120 changes the voice position of the counterpart according to the emotional sound setting, and provides the counterpart voice as a binaural sound corresponding to the changed voice position.
  • the binaural sound may be generated by applying the existing technology and the technology that can be developed in the future.
  • Korean Patent Publication No. 10-1599554 discloses a method of outputting a 3D binaural signal based on an international standard multichannel audio encoding technology called MPEG Surround. 10-1599554 extracts multi-channel audio playback parameters based on the MPEG-Surround (MPS) international standard and performs HRD (Head Related Transfer function) filtering on downmix audio signals using the audio playback parameters. Disclosed is a content for outputting a binaural signal.
  • HRTF filtering may be filtering to obtain the impulse response of the left and right sides for each position at a specific interval between the azimuth angle of 360 degrees and the altitude angle of 180 degrees using a dummy header microphone modeling a human auditory organ.
  • the multi-channel audio reproduction characteristic parameter is related to the output level difference of the front and rear channel signals for each frequency band. It may be extracted based on the spatial parameter expressed by the degree of correlation.
  • Korean Patent Publication No. 10-0971700 filters left and right audio signals in a frequency domain based on the location information of a virtual sound source and binaural filter coefficients for each channel, and decodes the filtered signal into a binaural stereo signal.
  • the contents are disclosed.
  • the stereo left / right audio signal of the input time domain is converted into a signal of the frequency domain using a Discrete Fourier Transform (DFT) or a Fast Fourier Transform (FFT), and the sub is allocated based on the location information of the virtual sound source.
  • DFT Discrete Fourier Transform
  • FFT Fast Fourier Transform
  • a stereo left / right signal corresponding to the frequency domain may be filtered as a binaural stereo signal based on a power gain value of each channel per band and a left / right HRTF coefficient block in the frequency domain for each channel.
  • the spatial gain of each channel can be calculated by synthesizing the spatial cue information based on the virtual source location information (VSLI) of the virtual sound source, and the VSLI-based spatial cue information for the stereo signal For any subband (m), Left Half-plane Angle (LHA) (LHA (m)), Left Subsequent Angle (LSA) (LSA (m)), Right Half-Angle ( RHA: Right Half-plane Angle (RHA (m)) and Right Subsequent Angle (RSA (RSA (m)).
  • LHA Left Half-plane Angle
  • LSA Left Subsequent Angle
  • RHA Right Half-Angle
  • RHA Right Half-plane Angle
  • RSA Right Subsequent Angle
  • the present invention can also generate a binaural sound corresponding to the voice position of the counterpart based on the emotional sound setting based on the above technique.
  • the processor 2120 may deactivate the emotional sound setting.
  • the emotional call termination condition may be satisfied when at least one of the case where the use of the earphone is terminated during the emotional call and the case where the emotional call termination command based on the user input is input during the emotional call.
  • the processor 2120 may activate the emotional sound setting when the emotional call execution condition is satisfied during the general call.
  • the emotional call execution condition may be satisfied when at least one of the case where the use of the earphone is executed during the general call and the case when the emotional call execution command based on the user input is input during the general call.
  • the emotional call method may be applicable to at least one of a voice call and a video call. That is, the emotional call method according to the present invention can be applied to a video call showing an image together with a voice call or a voice in which only a voice is heard.
  • the memory 2130 may store various applications including an emotional call application along with an operating system (OS) for the call terminal. Therefore, the emotional call application may correspond to a computer program installed and executed in the mobile terminal.
  • OS operating system
  • the memory 2130 may support a function for performing an emotional call according to an embodiment of the present invention.
  • the memory 2130 may operate as a separate mass storage, and may include a control function for performing an operation.
  • the memory is a computer readable medium.
  • the memory may be a volatile memory unit, and for other implementations, the memory may be a nonvolatile memory unit.
  • the memory may include, for example, a hard disk device, an optical disk device, or some other mass storage device.
  • the user may reduce fatigue, and personalized call environment for the user by identifying emotional parties and setting emotional sound. It can also provide
  • the method and apparatus for emotional communication using binaural sound according to the present invention are not limited to the configuration and method of the embodiments described as described above, but the embodiments may be modified in various ways. All or part of each of the embodiments may be selectively combined to be implemented.

Abstract

바이노럴 사운드를 이용한 감성 통화 방법 및 이를 위한 장치가 개시된다. 본 발명의 일실시예에 따른 감성통화방법은 통화를 위한 인지적 부하를 경감하기 위한 감성통화방법에 있어서, 감성사운드 세팅을 확인하고, 감성사운드 세팅에 따라 상대방 목소리 위치를 변경하고, 상대방 목소리를 변경된 목소리 위치에 상응하는 바이노럴 사운드로 제공한다.

Description

바이노럴 사운드를 이용한 감성 통화 방법 및 이를 위한 장치
본 발명은 바이노럴 사운드를 이용한 감성 통화 방법 및 이를 위한 장치(METHOD FOR EMOTIONAL CALLING USING BINAURAL SOUND AND APPARATUS THEREOF)에 관한 것으로, 더욱 상세하게는 바이노럴 사운드를 이용한 입체음향기술에 감성공학(심리적인 요소)을 결합한 통화 기술에 관한 것이며, 바이노럴 기술을 이용하여 통화하는 사람의 목소리 위치를 상황에 따라 다르게 설정함으로써 인지적 부하를 감소시켜 사용자가 대화(통화)하는데 필요한 에너지를 줄여줄 수 있는 기술에 관한 것이다.
본 발명은 2018년 5월 15일 출원된 한국특허출원 제10-2018-0055558호의 출원일의 이익을 주장하며, 그 내용 전부는 본 명세서에 포함된다.
최근 모바일 통신 기술이 발달함에 따라 모바일 기기를 이용하여 영상통화를 하는 사용자의 수가 많아지고 있다. 영상통화는 기본적으로 통화 상대방의 모습을 바라보면서 통화하는 방식이기 때문에 사용자가 모바일 기기의 디스플레이창을 보면서 통화를 수행할 수 있다.
따라서, 사용자는 자신의 상황에 따라 모바일 기기를 오른손이나 왼손에 들고 영상통화하거나 또는 모바일 기기를 고정시킬 수 있는 별도의 거치대에 장착시킨 상태로 영상 통화할 수 있다.
그러나, 영상통화를 수행할 때 모바일 기기가 다양한 위치에 위치할 수 있는 것과 다르게 통화 상대방의 목소리는 항상 일정한 느낌으로 들리기 때문에 사용자가 위치와 소리의 관계에 있어 이질감을 느낄 수 있다. 또한, 이러한 상황은 사용자에게 인지적 부하를 발생시키기 때문에 통화하는데 피로감을 가중시킬 수도 있다.
본 발명의 목적은 바이노럴 사운드를 이용한 입체음향기술에 심리학적인 요소를 결합하여 감상적 효과를 발생시키는 통화 기술을 제공하는 것이다.
또한, 본 발명의 목적은 음성통화 또는 영상통화를 하는 사용자가 대화(통화)하는데 필요한 인지적 부하를 감소시킴으로써 사용자가 느끼는 피로감을 감소시키는 것이다.
또한, 본 발명의 목적은 통화 상대방을 식별하여 감성사운드를 세팅함으로써 사용자에 대해 개인화된 통화 환경을 제공하는 것이다.
또한, 본 발명의 목적은 컨퍼런스 콜에서 참여자들 각각에 대한 목소리를 효과적으로 인지함으로써 업무에 있어서도 효율을 향상시키는 것이다.
상기한 목적을 달성하기 위한 본 발명에 따른 감성통화방법은, 통화를 위한 인지적 부하를 경감하기 위한 감성통화방법에 있어서, 감성사운드 세팅을 확인하는 단계; 및 상기 감성사운드 세팅에 따라 상대방의 목소리 위치를 변경하고, 상대방 목소리를 변경된 목소리 위치에 상응하는 바이노럴 사운드로 제공하는 단계를 포함한다.
이 때, 감성사운드 세팅은 이어폰이 사용되면 활성화되고, 이어폰이 사용되지 않으면 비활성화될 수 있다.
이 때, 감성사운드 세팅을 확인하는 단계는 상기 통화를 수행하는 사용자의 얼굴에 대한 통화 단말의 상대위치를 확인하고, 상기 상대위치를 상기 상대방의 목소리 위치로 확인할 수 있다.
이 때, 감성사운드 세팅을 확인하는 단계는 상기 통화 단말에 구비된 카메라를 기반으로 상기 사용자의 얼굴에 포함된 눈, 코, 입 및 귀 중 적어도 둘 이상의 위치 관계를 검출하고, 상기 위치 관계를 고려하여 검출된 얼굴 정면 방향을 기준으로 상기 상대위치에 상응하는 각도를 산출하는 단계를 포함할 수 있다.
이 때, 감성사운드 세팅을 확인하는 단계는 전화번호를 기반으로 상기 상대방에 대한 사전세팅 여부를 확인하고, 사전세팅이 되어있는 경우에 상기 사전세팅에 상응하게 상기 상대방의 목소리 위치를 확인할 수 있다.
이 때, 상기 감성사운드 세팅을 확인하는 단계는 상기 사전세팅이 속삭임 모드일 경우, 사용자의 오른쪽 귀에 상응하는 위치를 상기 상대방의 목소리 위치로 확인할 수 있다.
이 때, 감성사운드 세팅을 확인하는 단계는 상기 사전세팅이 잔소리 모드일 경우, 사용자의 머리 뒤쪽에 상응하는 위치를 상기 상대방의 목소리 위치로 확인할 수 있다.
이 때, 감성사운드 세팅을 확인하는 단계는 상기 통화가 컨퍼런스 콜에 상응하는 경우, 상기 컨퍼런스 콜에 참여한 상대 인원 수를 고려하여 지정된 위치를 상기 상대방의 목소리 위치로 확인할 수 있다.
이 때, 지정된 위치는 사용자의 시선을 기준으로 기설정된 범위의 각도를 상기 상대 인원수에 상응하게 분할한 값을 기반으로 설정될 수 있다.
이 때, 감성통화방법은 상기 상대 인원 수를 고려하여 상기 상대방의 목소리 위치를 지정할 수 있는 위치 지정 인터페이스를 제공하는 단계를 더 포함할 수 있다.
이 때, 감성통화방법은 감성통화 도중에 감성통화 종료 조건이 만족되는 경우, 상기 감성사운드 세팅을 비활성화시키는 단계; 및 일반통화 도중에 감성통화 실행 조건이 만족되는 경우, 상기 감성사운드 세팅을 활성화시키는 단계를 더 포함할 수 있다.
이 때, 감성통화 종료 조건은 상기 감성통화 도중에 이어폰 사용이 종료되는 경우 및 상기 감성통화 도중에 사용자 입력에 기반한 감성통화 종료 명령이 입력된 경우 중 적어도 하나에 상응할 때 만족되고, 상기 감성통화 실행 조건은 상기 일반통화 도중에 이어폰 사용이 실행되는 경우 및 상기 일반통화 도중에 사용자 입력에 기반한 감성통화 실행 명령이 입력되는 경우 중 적어도 하나에 상응할 때 만족될 수 있다.
이 때, 감성통화방법은 음성 통화 및 영상 통화 중 적어도 하나의 통화 방식에 적용 가능할 수 있다.
또한, 본 발명의 일실시예에 따른 컴퓨터로 판독 가능한 기록매체에 저장된 감성통화 어플리케이션은, 통화를 위한 인지적 부하를 경감하기 위해서, 감성사운드 세팅을 확인하는 단계; 및 상기 감성사운드 세팅에 따라 상대방의 목소리 위치를 변경하고, 상대방 목소리를 변경된 목소리 위치에 상응하는 바이노럴 사운드로 제공하는 단계를 실행한다.
이 때, 감성사운드 세팅은 이어폰이 사용되면 활성화되고, 이어폰이 사용되지 않으면 비활성화될 수 있다.
이 때, 감성사운드 세팅을 확인하는 단계는 상기 통화를 수행하는 사용자의 얼굴에 대한 통화 단말의 상대위치를 확인하고, 상기 상대위치를 상기 상대방의 목소리 위치로 확인할 수 있다.
이 때, 감성사운드 세팅을 확인하는 단계는 상기 통화 단말에 구비된 카메라를 기반으로 상기 사용자의 얼굴에 포함된 눈, 코, 입 및 귀 중 적어도 둘 이상의 위치 관계를 검출하고, 상기 위치 관계를 고려하여 검출된 얼굴 정면 방향을 기준으로 상기 상대위치에 상응하는 각도를 산출하는 단계를 포함할 수 있다.
이 때, 감성사운드 세팅을 확인하는 단계는 전화번호를 기반으로 상기 상대방에 대한 사전세팅 여부를 확인하고, 사전세팅이 되어있는 경우에 상기 사전세팅에 상응하게 상기 상대방의 목소리 위치를 확인할 수 있다.
이 때, 상기 감성사운드 세팅을 확인하는 단계는 상기 사전세팅이 속삭임 모드일 경우, 사용자의 오른쪽 귀에 상응하는 위치를 상기 상대방의 목소리 위치로 확인할 수 있다.
이 때, 감성사운드 세팅을 확인하는 단계는 상기 사전세팅이 잔소리 모드일 경우, 사용자의 머리 뒤쪽에 상응하는 위치를 상기 상대방의 목소리 위치로 확인할 수 있다.
이 때, 감성사운드 세팅을 확인하는 단계는 상기 통화가 컨퍼런스 콜에 상응하는 경우, 상기 컨퍼런스 콜에 참여한 상대 인원 수를 고려하여 지정된 위치를 상기 상대방의 목소리 위치로 확인할 수 있다.
이 때, 지정된 위치는 사용자의 시선을 기준으로 기설정된 범위의 각도를 상기 상대 인원수에 상응하게 분할한 값을 기반으로 설정될 수 있다.
이 때, 감성통화 어플리케이션은 상기 상대 인원 수를 고려하여 상기 상대방의 목소리 위치를 지정할 수 있는 위치 지정 인터페이스를 제공하는 단계를 더 실행시킬 수 있다.
이 때, 감성통화 어플리케이션은 감성통화 도중에 감성통화 종료 조건이 만족되는 경우, 상기 감성사운드 세팅을 비활성화시키는 단계; 및 일반통화 도중에 감성통화 실행 조건이 만족되는 경우, 상기 감성사운드 세팅을 활성화시키는 단계를 더 실행시킬 수 있다.
이 때, 감성통화 종료 조건은 상기 감성통화 도중에 이어폰 사용이 종료되는 경우 및 상기 감성통화 도중에 사용자 입력에 기반한 감성통화 종료 명령이 입력된 경우 중 적어도 하나에 상응할 때 만족되고, 상기 감성통화 실행 조건은 상기 일반통화 도중에 이어폰 사용이 실행되는 경우 및 상기 일반통화 도중에 사용자 입력에 기반한 감성통화 실행 명령이 입력되는 경우 중 적어도 하나에 상응할 때 만족될 수 있다.
이 때, 감성통화 어플리케이션은 음성 통화 및 영상 통화 중 적어도 하나의 통화 방식에 적용 가능할 수 있다.
본 발명에 따르면, 바이노럴 사운드를 이용한 입체음향기술에 심리학적인 요소를 결합하여 감상적 효과를 발생시키는 통화 기술을 제공할 수 있다.
또한, 본 발명은 음성통화 또는 영상통화를 하는 사용자가 대화(통화)하는데 필요한 인지적 부하를 감소시킴으로써 사용자가 느끼는 피로감을 감소시킬 수 있다.
또한, 본 발명은 통화 상대방을 식별하여 감성사운드를 세팅함으로써 사용자에 대해 개인화된 통화 환경을 제공할 수 있다.
또한, 본 발명은 컨퍼런스 콜에서 참여자들 각각에 대한 목소리를 효과적으로 인지함으로써 업무에 있어서도 효율을 향상시킬 수 있다.
도 1은 본 발명의 일실시예에 따른 바이노럴 사운드를 이용한 감성 통화 방법을 나타낸 동작흐름도이다.
도 2는 본 발명에 따른 사용자의 얼굴에 대한 통화 단말의 상대위치에 기반한 감성사운드 세팅의 일 예를 나타낸 도면이다.
도 3은 본 발명에 따른 눈, 코, 입, 귀의 위치 관계를 검출하는 일 예를 나타낸 도면이다.
도 4는 본 발명에 따른 상대위치의 각도를 산출하는 일 예를 나타낸 도면이다.
도 5 내지 도 6은 본 발명에 따른 상대위치의 거리를 산출하는 일 예를 나타낸 도면이다.
도 7 내지 도 9는 본 발명에 따른 사전세팅의 기반한 감성사운드 세팅의 일 예를 나타낸 도면이다.
도 10 내지 도 12는 본 발명에 따른 컨퍼런스 콜에 대한 감성사운드 세팅의 일 예를 나타낸 도면이다.
도 13 내지 도 16은 본 발명에 따른 위치 지정 인터페이스의 일 예를 나타낸 도면이다.
도 17은 본 발명의 일실시예에 따른 감성통화방법 중 사용자의 얼굴에 대한 통화 단말의 상대위치를 이용하는 과정을 상세하게 나타낸 도면이다.
도 18은 본 발명의 일실시예에 따른 감성통화방법 중 사전세팅을 이용하는 과정을 상세하게 나타낸 도면이다.
도 19는 본 발명의 일실시예에 따른 감성통화방법 중 컨퍼런스콜을 이용하는 과정을 상세하게 나타낸 도면이다.
도 20은 본 발명의 일실시예에 따른 감성통화방법 중 통화 도중에 감성사운드 세팅을 활성화 또는 비활성화시키는 과정을 상세하게 나타낸 동작흐름도이다.
도 21은 본 발명의 일실시예에 따른 감성통화 어플리케이션이 실행되는 통화 단말을 나타낸 블록도이다.
본 발명을 첨부된 도면을 참조하여 상세히 설명하면 다음과 같다. 여기서, 반복되는 설명, 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능, 및 구성에 대한 상세한 설명은 생략한다. 본 발명의 실시형태는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해서 제공되는 것이다. 따라서, 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.
이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 일실시예에 따른 바이노럴 사운드를 이용한 감성통화방법을 나타낸 동작흐름도이다.
도 1을 참조하면, 본 발명의 일실시예에 따른 바이노럴 사운드를 이용한 감성통화방법은 감성사운드 세팅을 확인한다(S110).
이 때, 본 발명에 따른 감성통화란, 감성사운드를 이용하여 사용자가 통화를 하는데 발생할 수 있는 인지적 부하를 경감하기 위한 통화방법에 해당하는 것일 수 있다.
이 때, 감성사운드는 바이노럴 효과가 적용된 바이노럴 사운드에 상응하는 것으로, 사용자에게 실제로 출력되는 소리가 감성사운드에 상응할 수 있다.
이러한 감성통화는 바이노럴 사운드에 기반한 입체적 효과를 통해 인지적 부하를 감소시킴으로써 사용자가 통화를 하면서 느끼는 피로감을 감소시키거나 또는 일반통화에서는 느낄 수 없었던 감성적인 요소를 제공함으로써 사용자에게 입체적인 통화 경험을 제공할 수도 있다.
이 때, 감성통화는 바이노럴 사운드에 해당하는 감성사운드를 기반으로 제공되기 때문에 이어폰 또는 헤드폰과 같이 바이노럴 효과를 느낄 수 있는 음향기기의 사용여부를 고려하여 서비스가 제공될 수 있다.
따라서, 감성사운드 세팅은 이어폰이 사용되면 활성화되고, 이어폰이 사용되지 않으면 비활성화될 수 있다.
이 때, 감성사운드 세팅의 활성화를 위한 이어폰 또는 헤드폰은 유선뿐만 아니라 블루투스이어폰 또는 블루투스헤드폰과 같은 무선도 포함될 수 있다.
이 때, 설명의 편의를 위해 이어폰의 사용여부로 감성사운드 세팅의 활성화 여부를 서술하였으나, 이어폰과 유사한 헤드폰의 사용여부에 따라 감성사운드 세팅의 활성화 또는 비활성화가 수행될 수도 있다.
이 때, 통화를 수행하는 사용자의 얼굴에 대한 통화 단말의 상대위치를 확인하고, 상대위치를 상대방의 목소리 위치로 확인할 수 있다.
예를 들어, 도 2에 도시된 것처럼, 통화를 수행하는 사용자(210)의 얼굴에 대한 통화 단말(220)의 상대위치를 확인함으로써 상대방의 목소리 위치를 확인할 수 있다. 즉, 사용자(210)가 통화 단말(220)의 위치에서 상대방의 목소리가 들리는 것처럼 느낄 수 있도록 감성사운드 세팅을 수행할 수 있다.
이 때, 통화 단말에 구비된 카메라를 기반으로 사용자의 얼굴에 포함된 눈, 코, 입 및 귀 중 적어도 둘 이상의 위치 관계를 검출하고, 위치 관계를 고려하여 검출된 얼굴 정면 방향을 기준으로 상태위치에 상응하는 각도를 산출할 수 있다.
예를 들어, 도 2에 도시된 것처럼 통화 단말(220)에 구비된 카메라를 기반으로 사용자(210)의 얼굴을 촬영하면 도 3에 도시된 것처럼 눈, 코, 입 및 귀를 각각 검출할 수 있다. 이 때, 검출된 눈, 코, 입 및 귀에 대한 위치 관계를 통해 사용자(210)의 얼굴이 어느 방향을 향하고 있는지 검출하여 얼굴 정면 방향을 검출할 수 있다.
이 때, 도 3에서는 눈, 코, 입, 귀가 모두 검출된 예시를 사용하였으나, 눈, 코, 입 및 귀 중에 적어도 2개의 위치만 검출되는 경우에도 검출된 적어도 2 개의 대한 위치 관계를 이용하여 얼굴의 정면 방향을 검출할 수도 있다.
이와 같이 눈, 코, 입 및 귀에 대한 위치 관계를 기반으로 얼굴 정면 방향이 검출되면, 도 4에 도시된 것과 같이 사용자(410)의 얼굴 정면 방향(411)과 통화 단말(420)에 대한 통화 단말 정면 방향(421) 간의 상대위치 각도(430)를 산출할 수 있다.
예를 들어, 사용자(410)과 통화 단말(420)을 오른손으로 들고 통화를 한다고 가정할 수 있다. 이 때, 사용자(410)가 통화 단말(420)을 얼굴 정면 방향(411)에 두고 이야기한다면, 통화 단말 정면 방향(421)과 얼굴 정면 방향(411)간의 각도 차이가 없으므로 상대방의 목소리도 정면에서 들리도록 감성사운드 세팅을 수행할 수 있다.
그러나 도 4에 도시된 것처럼, 사용자(410)가 통화 단말(420)을 오른쪽으로 치우친 위치에서 들고 통화하는 경우에는 얼굴 정면 방향(411)과 통화 단말 정면 방향(421)이 차이가 발생하기 때문에 상대방의 목소리도 상대위치 각도(430)만큼 차이나는 통화 단말(420)의 위치에서 들리도록 감성사운드 세팅을 수행할 수 있다.
즉, 통화 단말(420)의 위치가 통화 단말 정면 방향(421)이 얼굴 정면 방향(411)을 기준으로 오른쪽으로 20도의 위치라면, 사용자(420)가 느끼기에 오른쪽으로 20도의 위치에서 상대방의 목소리가 들리도록 감성사운드 세팅을 수행할 수 있다.
마찬가지로, 사용자(410)가 통화 단말(420)을 왼손으로 들고 통화를 할 때에도, 동일한 방식으로 감성사운드 세팅을 수행함으로써 사용자(410)에게 입체적인 통화 경험을 제공할 수 있다.
이 때, 통화 단말에 구비된 카메라를 기반으로 사용자의 얼굴 이미지를 획득하고, 얼굴 이미지의 이미지 크기를 고려하여 상대위치에 상응하는 거리를 산출할 수도 있다.
예를 들어, 도 5 내지 도 6을 참조하면, 도 5와 같은 통화 상태(510)일 때에 통화단말의 카메라를 통해 획득된 얼굴 이미지(520)의 크기가 도 6과 같은 통화 상태(610)일 때의 통화단말의 카메라를 통해 획득된 얼굴 이미지(620)보다 큰 것을 알 수 있다. 즉, 도 5의 얼굴 이미지(520)가 도 6의 얼굴 이미지(620)보다 크다는 것은, 도 5의 통화 상태(510)에서의 상대위치 거리(511)가 도 6의 통화 상태(610)에서의 상대위치 거리(611)보다 짧음을 의미할 수 있다.
따라서, 이와 같은 방식으로 통화 단말에서 촬영된 이미지를 기반으로 상대위치에 상응하는 거리를 산출하여 감성사운드 세팅을 수행할 수도 있다.
또한, 전화번호를 기반으로 상대방에 대한 사전세팅 여부를 확인하고, 사전세팅이 되어있는 경우에 사전세팅에 상응하게 상대방의 목소리 위치를 확인할 수 있다.
즉, 사전세팅은 통화를 하는 상대방이 누구인지에 따라 설정될 수 있는 정보에 상응하는 것으로, 통화단말의 사용자가 통화단말에 저장된 전화번호를 기반으로 설정할 수 있도록 별도의 인터페이스가 제공될 수도 있다.
이 때, 사전세팅이 속삭임 모드일 경우, 사용자의 오른쪽 귀에 상응하는 위치를 상대방의 목소리 위치로 확인할 수 있다.
예를 들어, 애인과 통화를 하는 경우에 속삭임 모드로 동작하도록 사전세팅을 해두고, 향후 애인과 통화 시 도 7에 도시된 것처럼 사용자(710)의 오른쪽 귀와 가까운 위치를 애인의 목소리 위치(730)인 것으로 확인할 수 있다. 즉, 사전세팅이 되어있는 경우, 통화 단말(720)의 위치와는 관계없이 사전세팅으로 설정된 모드에 따라 목소리 위치가 결정될 수 있다.
또한, 이와 같은 사전세팅을 통해 통화하는 상대방에 따라 사용자가 보다 감성적인 통화를 할 수 있는 환경을 제공할 수 있다.
이 때, 속삭임 모드에서는 상대방의 목소리 위치를 왼쪽 귀가 아닌 오른쪽 귀로 세팅함으로써 사용자가 상대방의 목소리를 보다 쉽게 인식하도록 할 수 있다.
이러한 세팅은 대뇌의 소리인식 경로를 고려한 것으로, 도 8에 도시된 도면을 참조하여 설명하면 다음과 같다.
먼저, 오른쪽 귀(810)로 들어온 소리는 오른쪽 달팽이관(811) 신경과 시상내측슬상체를 거쳐 좌뇌 1차 청각피질로 전달되고, 왼쪽 귀(820)로 들어온 소리는 왼쪽 달팽이관(821) 신경과 시상내측슬상체를 거쳐 우뇌 1차 청각피질로 전달될 수 있다. 즉, 신경 연결 부분(800)에서 확인할 수 있듯이 오른쪽 달팽이관(811) 신경은 좌뇌로 연결되어 있고, 왼쪽 달팽이관(821) 신경은 우뇌로 연결되어 있기 때문에 오른쪽 귀(810)로 들어온 소리는 좌뇌로 전달되고, 왼쪽 귀(820)로 들어온 소리는 우뇌로 전달될 수 있다.
이 때, 뇌에서 듣기영역에 해당하는 베르니케 영역은 좌뇌의 측두엽에 위치하는 언어신경의 중추로써, 1차 청각피질로부터 정보를 받아 듣기와 읽기를 관장하고 있다. 즉, 1차 청각피질은 언어의 의미를 고려하지 않은 단순한 듣기(Hearing)만을 처리하고, 이후에 베르니케 영역에서 의미를 갖는 언어로서의 듣기(Listening)를 처리하므로 통화를 할 때 들리는 상대방의 목소리는 결국 베르니케 영역에서의 처리가 필요할 수 있다.
그러나, 왼쪽 귀(820)로 들어온 소리는 1차적으로 베르니케 영역이 위치하지 않은 우뇌의 1차 청각피질로 전달되기 때문에 오른쪽 귀(810)로 들어온 소리의 경로를 비교하였을 때 한가지 경로를 더 거쳐야 할 수 있다. 즉, 오른쪽 귀(810)로 들어온 소리는 좌뇌 1차 청각피질에서 좌뇌에 위치하는 베르니케 영역으로 바로 전달되지만, 왼쪽 귀(820)로 들어온 소리는 우뇌 1차 청각피질에서 좌뇌에 위치하는 베르니케 영역으로 전달되어야 하기 때문에 오른쪽 귀(810)를 통한 경로가 왼쪽 귀(820)를 통한 경로보다 짧을 수 있다.
따라서, 속삭임 모드 수행 시에는 도 7에 도시된 것처럼 사용자(710)의 오른쪽 귀에 소리를 제공함으로써 사용자(710)가 목소리를 인지하는데 덜 피곤하게 할 수 있고, 보다 쉽게 목소리를 인식할 수 있다.
이 때, 사전세팅이 잔소리 모드일 경우, 사용자의 머리 뒤쪽에 상응하는 위치를 상대방의 목소리 위치로 확인할 수 있다.
예를 들어, 잔소리를 많이 하는 상대방과 통화를 하는 경우에 잔소리 모드로 동작하도록 사전세팅을 해두고, 향후 잔소리를 많이 하는 상대방과 통화 시 도 9에 도시된 것처럼 사용자(910)의 머리 뒤쪽에 상응하는 위치를 상대방의 목소리 위치(930)인 것으로 확인할 수 있다. 즉, 사용자가 크게 관심을 두지 않는 위치로 상대방의 목소리 위치(930)를 설정함으로써 통화 시에 사용자가 잔소리로 스트레스 받지 않도록 할 수 있다.
이 때, 상대방의 전화번호에 별도의 사전세팅이 되어있지 않은 경우에는 감성통화가 아닌 일반적인 통화를 수행하도록 감성사운드 세팅을 비활성화시킬 수도 있다.
이와 같은 사전세팅을 이용하면 통화하는 상대방에 따라 사용자가 보다 감성적이거나 효율적인 통화를 할 수 있는 환경을 제공할 수 있다.
또한, 통화가 컨퍼런스 콜에 상응하는 경우, 컨퍼런스 콜에 참여한 상대 인원 수를 고려하여 지정된 위치를 상대방의 목소리 위치로 확인할 수 있다.
컨퍼런스 콜의 경우, 통화에 참여한 여러 참여자들 중에 현재 발언하는 사람이 누구인지를 판단하는 것에 많은 인지적 부하가 발생할 수 있다. 예를 들어, 컨퍼런스 콜에 참여한 여러 상대 인원들의 목소리가 모두 하나의 위치에서 들리는 경우, 오로지 음성의 차이만으로 발언자를 구분해야 하므로 사용자의 피로감이 증가될 수 있다.
따라서, 본 발명에서는 컨퍼런스 콜에 참여한 여러 상대 인원들의 목소리 위치를 서로 떨어진 곳에 지정함으로써 사용자가 컴퍼런스 콜에서의 발언자가 누구인지를 보다 수월하게 인지할 수 있도록 할 수 있다.
이 때, 지정된 위치는 사용자의 시선을 기준으로 기설정된 범위의 각도를 상대 인원수에 상응하게 분할한 값을 기반으로 설정될 수 있다.
예를 들어, 사용자를 포함하여 3명이 컨퍼런스 콜에 참여하였고, 기설정된 범위의 각도를 180도라고 가정할 수 있다. 이러한 경우에는 도 10에 도시된 것처럼 사용자(1000)의 정면을 기준으로 하는 180도를 상대 인원수에 해당하는 2로 나누어 영역을 분할하고, 분할된 영역의 중간 각도 지점에 지정 위치(1010, 1020)를 설정하여 상대방의 목소리 위치를 설정할 수 있다.
다른 예를 들어, 사용자를 포함하여 4명이 컴퍼런스 콜에 참여하였고, 기설정된 범위의 각도는 마찬가지로 180도라고 가정할 수 있다. 이러한 경우에는 도 11에 도시된 것처럼, 사용자(1100)의 정면을 기준으로 하는 180도를 상대 인원수에 해당하는 3으로 나누어 영역을 분할하고, 분할된 영역의 중간 각도 지점에 지정 위치(1110, 1120, 1130)를 설정하여 상대방의 목소리 위치를 설정할 수 있다.
또 다른 예를 들어, 사용자를 포함하여 5명이 컨퍼런스 콜에 참여하였고, 기설정된 범위의 각도가 360도라고 가정할 수 있다. 이러한 경우에는 도 12에 도시된 것처럼, 사용자(1200)를 기준으로 하는 360도를 상대 인원수에 해당하는 4로 나누어 영역을 분할하고, 분할된 영역의 중간 각도 지점에 지정 위치(1210, 1220, 1230, 1240)를 설정하여 상대방의 목소리 위치를 설정할 수도 있다.
이 때, 지정위치를 설정하는 방식은 도 10 내지 도 12에 도시된 방법에 한정되지 않는다.
또한, 도 1에는 도시하지 아니하였으나, 본 발명의 일실시예에 따른 바이노럴 사운드를 이용한 감성통화방법은 상대 인원 수를 고려하여 상대방의 목소리 위치를 지정할 수 있는 위치 지정 인터페이스를 제공할 수 있다.
예를 들어, 사용자를 포함하여 5명이 컨퍼런스 콜을 수행하는 경우, 사용자의 통화 단말로 도 13에 도시된 위치 지정 인터페이스를 제공할 수 있다. 만약, 사용자를 제외한 A, B, C, D의 참여자가 존재한다고 가정한다면, 도 13부터 도 15에 도시된 것처럼 참여자들의 위치를 선택하기 위한 인터페이스 화면을 순차적으로 제공할 수 있다.
이 후, 사용자가 자신을 제외한 모든 참여자들의 위치를 지정한 경우, 도 16에 도시된 것처럼 참여자들의 지정 위치를 수정할 수 있는 위치 수정 버튼(1610)과 현재 지정된 위치로 컨퍼런스 콜을 시작하기 위한 컨퍼런스 콜 시작 버튼(1620)을 제공할 수 있다.
이 때, 위치 지정 인터페이스는 컨퍼런스 콜이 시작되기 전, 또는 컨퍼런스 콜 도중에 제공될 수도 있으며, 그 형태는 도 13 내지 도 16에 한정되지 않을 수 있다.
또한, 본 발명의 일실시예에 따른 바이노럴 사운드를 이용한 감성통화방법은 감성사운드 세팅에 따라 상대방의 목소리 위치를 변경하고, 상대방 목소리를 변경된 목소리 위치에 상응하는 바이노럴 사운드로 제공한다(S120).
이 때, 바이노럴 사운드는 기존에 이용되는 기술 및 향후 개발 가능한 기술을 적용하여 생성될 수 있다.
예를 들어, 한국등록공보 10-1599554에는 MPEG 서라운드(MPEG Surround)라는 국제 표준의 다채널 오디오 부호화 기술을 기반으로 3차원 바이너럴 신호를 출력하는 내용을 개시하고 있다. 10-1599554에서는 MPEG-Surround(MPS) 국제 표준을 기반으로 멀티채널 오디오 재생특성 파라미터를 추출하고, 오디오 재생특성 파라미터를 이용하여 다운믹스 오디오 신호에 대해 HRTF(Head Related Transfer function) 필터링을 수행하여 3D 바이너럴 신호를 출력하는 내용을 개시하고 있다. 여기서, HRTF 필터링은 인간의 청각기관을 모델링한 더미 헤더 마이크를 이용하여 360도의 방위각과 180도의 고도각 사이를 특정 간격을 두고 각각의 위치에 대한 좌우 양쪽의 임펄스 응답을 구하는 필터링일 수 있다.
이 때, 멀티채널 오디오 재생특성 파라미터는 주파수 대역 별 전후방 채널 신호의 출력 레벨 차에 대한 것으로, MPEG-Surround(MPS) 국제 표준에서 다채널 오디오 신호를 입력 받아 두 귀 사이의 소리 크기 차이와 채널 사이의 상관도 등으로 표현되는 공간 파라미터를 기반으로 추출될 수 있다.
또한, 한국등록공보 10-0971700에는 가상음원의 위치정보와 각 채널 별 바이노럴 필터 계수에 기초하여 좌/우 오디오 신호를 주파수 영역에서 필터링하고, 필터링된 신호를 바이노럴 스테레오 신호로 복호화하는 내용을 개시하고 있다. 이 때, 입력되는 시간 영역의 스테레오 좌/우 오디오 신호를 DFT(Discrete Fourier Transform) 또는 FFT(Fast Fourier Transform)를 이용하여 주파수 영역의 신호로 변환하고, 가상음원의 위치정보를 기반으로 할당된 서브밴드 별 각 채널의 파워 이득 값과 각 채널에 대한 주파수 영역의 좌/우 HRTF 계수 블록에 기초하여 주파수 영역에 상응하는 스테레오 좌/우 신호를 바이노럴 스테레오 신호로 필터링할 수 있다.
이 때, 가상음원의 위치정보(VSLI: Virtual Source Location Information) 기반의 공간 큐 정보를 합성하여 서브밴드 별 각 채널의 파워 이득값을 산출할 수 있고, 스테레오 신호에 대한 VSLI 기반의 공간 큐 정보는 임의의 서브밴드(m)에 대하여, 좌측반면각(LHA: Left Half-plane Angle)(LHA(m)), 좌측보조평면각(LSA: Left Subsequent Angle)(LSA(m)), 우측반면각(RHA: Right Half-plane Angle)(RHA(m)) 및 우측보조평면각(RSA: Right Subsequent Angle)(RSA(m))을 포함할 수 있다.
따라서, 본 발명에서도 상기와 같은 기술을 기반으로 감성사운데 세팅에 의한 상대방의 목소리 위치에 상응하게 바이노럴 사운드를 생성할 수 있다.
또한, 도 1에는 도시하지 아니하였으나, 본 발명의 일실시예에 따른 바이노럴 사운드를 이용한 감성통화방법은 감성통화 도중에 감성통화 종료 조건이 만족되는 경우, 감성사운드 세팅을 비활성화시킬 수 있다.
이 때, 감성통화 종료 조건은 감성통화 도중에 이어폰 사용이 종료되는 경우 및 감성통화 도중에 사용자 입력에 기반한 감성통화 종료 명령이 입력된 경우 중 적어도 하나에 상응할 때 만족될 수 있다.
또한, 도 1에는 도시하지 아니하였으나, 본 발명의 일실시예에 따른 바이노럴 사운드를 이용한 감성통화방법은 일반통화 도중에 감성통화 실행 조건이 만족되는 경우, 감성사운드 세팅을 활성화시킬 수 있다.
이 때, 감성통화 실행 조건은 일반통화 도중에 이어폰 사용이 실행되는 경우 및 일반통화 도중에 사용자 입력에 기반한 감성통화 실행 명령이 입력되는 경우 중 적어도 하나에 상응할 때 만족될 수 있다.
이 때, 감성통화방법은 음성 통화 및 영상 통화 중 적어도 하나의 통화 방식에 적용 가능할 수 있다. 즉, 본 발명에 따른 감성통화방법은 상호간에 목소리만 들리는 음성통화나 목소리와 함께 영상을 보여주는 영상통화에 적용할 수 있다.
또한, 도 1에는 도시하지 아니하였으나, 본 발명의 일실시예에 따른 바이노럴 사운드를 이용한 감성 통화 방법은 상술한 바와 같이 본 발명의 일실시예에 따른 감성통화 과정에서 발생하는 다양한 정보를 별도의 저장 모듈에 저장할 수 있다.
이와 같은 감성통화방법을 이용하여, 바이노럴 사운드를 이용한 입체음향기술에 심리학적인 요소를 결합하여 감상적 효과를 발생시키는 통화 기술을 제공할 수 있다.
또한, 음성통화 또는 영상통화를 하는 사용자가 대화(통화)하는데 필요한 인지적 부하를 감소시킴으로써 사용자가 느끼는 피로감을 감소시킬 수 있으며, 통화 상대방을 식별하여 감성사운드를 세팅함으로써 사용자에 대해 개인화된 통화 환경을 제공할 수도 있다.
도 17은 본 발명의 일실시예에 따른 감성통화방법 중 사용자의 얼굴에 대한 통화 단말의 상대위치를 이용하는 과정을 상세하게 나타낸 도면이다.
도 17을 참조하면, 본 발명의 일실시예에 따른 감성통화방법 중 사용자의 얼굴에 대한 통화 단말의 상대위치를 이용하는 과정은 먼저 사용자 단말(1710)과 상대방 단말(1720) 간에 통화가 연결되면(S1702), 사용자 단말(1710)이 구비된 카메라를 이용하여 사용자의 얼굴 인식을 수행할 수 있다(S1704).
이 때, 사용자 단말(1710)은 본 발명에 따라 이어폰이 사용되어 감성사운드 세팅이 활성화된 상태인 것으로 가정할 수 있다.
이 후, 감성사운드 세팅을 위해 사용자의 얼굴에 대한 사용자 단말(1710)의 상대위치를 확인(S1706)하여 상대방의 목소리 위치를 확인할 수 있다.
이 후, 상대방 단말(1720)로부터 상대방의 목소리 데이터가 입력되면(S1708), 감성사운드 세팅 단계에서 확인된 목소리 위치에 상응하게 목소리 데이터의 목소리 위치를 변경할 수 있다(S1710).
이 후, 변경된 목소리 위치에 상응하게 바이노럴 사운드를 생성하여 사용자에게 출력할 수 있다(S1712).
도 18은 본 발명의 일실시예에 따른 감성통화방법 중 사전세팅을 이용하는 과정을 상세하게 나타낸 도면이다.
도 18을 참조하면, 본 발명의 일실시예에 따른 감성통화방법 중 사전세팅을 이용하는 과정은 먼저 사용자 단말(1810)에서 사전세팅을 수행함으로써(S1802), 사용자 단말(1810)에 저장된 전화번호 별로 각각의 감성통화 모드를 설정할 수 있다.
이 후, 사용자 단말(1810)과 상대방 단말(1820) 간에 통화가 연결되면(S1804), 사용자 단말(1810)이 사전세팅 여부를 판단하기 위해 상대방 단말(1820)의 전화번호를 확인할 수 있다(S1806).
이 때, 사용자 단말(1810)은 본 발명에 따라 이어폰이 사용되어 감성사운드 세팅이 활성화된 상태인 것으로 가정할 수 있다.
이 후, 전화번호를 기반으로 사전세팅 여부를 판단하고(S1808), 상대방 단말(1820)에 대한 사전세팅이 되어있으면 상대방 단말(1820)에 대한 사전세팅 모드가 무엇인지 확인할 수 있다(S1810).
예를 들어, 사전세팅 모드는 사용자의 오른쪽 귀에 상응하는 위치를 상대방의 목소리 위치로 확인하는 속사임 모드 및 사용자의 머리 뒤쪽에 상응하는 위치를 상대방의 목소리 위치로 확인하는 잔소리 모드를 포함할 수 있다.
이 후, 상대방 단말(1820)로부터 상대방의 목소리 데이터가 입력되면(S1812), 사전세팅 모드에 상응하는 목소리 위치로 목소리 데이터의 목소리 위치를 변경할 수 있다(S1814).
이 후, 변경된 목소리 위치에 상응하게 바이노럴 사운드를 생성하여 사용자에게 출력할 수 있다(S1816).
또한, 단계(S1808)의 판단결과 상대방 단말(1820)에 대한 사전세팅이 되어있지 않으면, 일반통화 사운드로 통화를 수행할 수도 있다.
도 19는 본 발명의 일실시예에 따른 감성통화방법 중 컨퍼런스콜을 이용하는 과정을 상세하게 나타낸 도면이다.
도 19를 참조하면, 본 발명의 일실시예에 따른 감성통화방법 중 컨퍼런스콜을 이용하는 과정은 먼저, 사용자 단말(1910)을 포함하여 상대방 단말들(1920-1~1920-N)과 컨퍼런스 콜이 시작되면(S1902), 먼저 사용자 단말(1910)에서 상대 인원수를 파악할 수 있다(S1904).
이 때, 사용자 단말(1910)은 본 발명에 따라 이어폰이 사용되어 감성사운드 세팅이 활성화된 상태인 것으로 가정할 수 있다.
이 후, 사용자 단말(1910)이 상대 인원수에서 사용자를 제외한 참여 인원수를 기반으로 상대방 단말들의 위치를 지정할 수 있다(S1906).
이 후, 상대방 단말 1(1920-1)로부터 상대방 1의 목소리 데이터가 입력되면(S1908), 단계(S1906)에서 지정된 위치에 상응하는 상대방 1의 위치로 상대방 1 목소리의 위치를 변경할 수 있다(S1910).
이 후, 변경된 목소리 위치에 상응하게 바이노럴 사운드를 생성하여 사용자에게 출력할 수 있다(S1912).
이 후, 단계(S1908)에서 단계(S1912)의 과정을 나머지 상대방 단말들에도 동일한 방식으로 적용하여(S1914~S1918) 컨퍼런스 콜에 참여한 여러 상대방들의 목소리를 바이노럴 사운드에 상응하게 출력할 수 있다.
도 20은 본 발명의 일실시예에 따른 감성통화방법 중 통화 도중에 감성사운드 세팅을 활성화 또는 비활성화시키는 과정을 상세하게 나타낸 동작흐름도이다.
도 20을 참조하면, 본 발명의 일실시예에 따른 감성통화방법 중 통화 도중에 감성사운드 세팅을 활성화 또는 비활성화시키는 과정은 사용자와 상대방 간의 감성통화가 연결된 경우(S2010), 감성통화 종료조건이 만족되었는지 여부를 판단할 수 있다(S2015).
이 때, 감성통화 종료조건은 감성통화 도중에 이어폰 사용이 종료되는 경우 및 감성통화 도중에 사용자 입력에 기반한 감성통화 종료 명령이 입력된 경우 중 적어도 하나에 상응할 때 만족될 수 있다.
단계(S2015)의 판단결과 감성통화 종료조건이 만족되었으면, 감성사운드 세팅을 비활성화시키고 일반통화로 변경하여 통화를 수행할 수 있다(S2020).
이 후, 통화가 종료되었는지 여부를 판단한 뒤 (S2035), 통화가 종료되지 않았으면 감성통화 실행조건이 만족되었는지 여부를 판단하는 단계를 수행할 수 있다(S2045).
이 때, 단계(S2035)의 판단결과 통화가 종료되었으면, 통화 과정을 종료할 수 있다.
또한, 단계(S2015)의 판단결과 감성통화 종료조건이 만족되지 안았으면, 통화가 종료되었는지 여부를 판단할 수 있다(S2025).
이 후, 통화가 종료되지 않았으면 다시 감성통화 종료조건이 만족되었는지 여부를 판단하는 단계를 수행하고(S2015), 통화가 종료되었으면 통화과정을 종료할 수 있다.
또한, 단계(S2045)의 판단결과 감성통화 실행조건이 만족되었으면, 감성사운드 세팅을 다시 활성화시키고 감성통화로 변경하여 통화를 수행할 수 있다(S2050).
이 때, 감성통화 실행조건은 일반통화 도중에 이어폰 사용이 실행되는 경우 및 일반통화 도중에 사용자 입력에 기반한 감성통화 실행 명령이 입력되는 경우 중 적어도 하나에 상응할 때 만족될 수 있다.
이 후, 통화가 종료되었는지 여부를 판단한 뒤(S2055), 통화가 종료되지 않았으면 다시 단계(S2015)에 상응하게 감성통화 종료조건이 만족되는지 여부를 판단할 수 있다.
또한, 단계(S2055)의 판단결과 통화가 종료되었으면, 통화 과정을 종료할 수 있다.
또한, 단계(S2045)의 판단결과 감성통화 실행조건이 만족되지 않았으면, 단계(S2035)에 상응하게 통화가 종료되었는지 여부를 판단단계를 수행할 수 있다.
도 21은 본 발명의 일실시예에 따른 감성통화 어플리케이션이 실행되는 통화 단말을 나타낸 블록도이다.
도 21을 참조하면, 본 발명의 일실시예에 따른 감성통화 어플리케이션이 실행되는 통화 단말은 통신부(2110), 프로세서(2120) 및 메모리(2130)를 포함한다.
통신부(2110)는 네트워크와 같은 통신망을 통해 감성통화 어플리케이션을 수신하거나, 상대방 통신단말과의 영상통화 또는 음성통화를 연결해주는 역할을 수행할 수 있다. 즉, 본 발명의 일실시예에 따른 통신부(2110)는 상대방 목소리 데이터를 수신하여 감성통화를 위한 동작을 수행하는 프로세서(2120) 또는 메모리(2130)로 전달할 수 있다.
프로세서(2120)는 중앙연산 처리장치에 상응하는 것으로, 통신부(2110) 또는 다른 경로를 통해 메모리(2130)에 저장된 본 발명의 일실시예에 따른 감성통화 어플리케이션을 실행시켜 제어할 수 있다.
프로세서(2120)는 감성사운드 세팅을 확인한다.
이 때, 본 발명에 따른 감성통화란, 감성사운드를 이용하여 사용자가 통화를 하는데 발생할 수 있는 인지적 부하를 경감하기 위한 통화방법에 해당하는 것일 수 있다.
이 때, 감성사운드는 바이노럴 효과가 적용된 바이노럴 사운드에 상응하는 것으로, 사용자에게 실제로 출력되는 소리가 감성사운드에 상응할 수 있다.
이러한 감성통화는 바이노럴 사운드에 기반한 입체적 효과를 통해 인지적 부하를 감소시킴으로써 사용자가 통화를 하면서 느끼는 피로감을 감소시키거나 또는 일반통화에서는 느낄 수 없었던 감성적인 요소를 제공함으로써 사용자에게 입체적인 통화 경험을 제공할 수도 있다.
이 때, 감성통화는 바이노럴 사운드에 해당하는 감성사운드를 기반으로 제공되기 때문에 이어폰 또는 헤드폰과 같이 바이노럴 효과를 느낄 수 있는 음향기기의 사용여부를 고려하여 서비스가 제공될 수 있다.
따라서, 감성사운드 세팅은 이어폰이 사용되면 활성화되고, 이어폰이 사용되지 않으면 비활성화될 수 있다.
이 때, 감성사운드 세팅의 활성화를 위한 이어폰 또는 헤드폰은 유선뿐만 아니라 블루투스이어폰 또는 블루투스헤드폰과 같은 무선도 포함될 수 있다.
이 때, 설명의 편의를 위해 이어폰의 사용여부로 감성사운드 세팅의 활성화 여부를 서술하였으나, 이어폰과 유사한 헤드폰의 사용여부에 따라 감성사운드 세팅의 활성화 또는 비활성화가 수행될 수도 있다.
이 때, 통화를 수행하는 사용자의 얼굴에 대한 통화 단말의 상대위치를 확인하고, 상대위치를 상대방의 목소리 위치로 확인할 수 있다.
예를 들어, 도 2에 도시된 것처럼, 통화를 수행하는 사용자(210)의 얼굴에 대한 통화 단말(220)의 상대위치를 확인함으로써 상대방의 목소리 위치를 확인할 수 있다. 즉, 사용자(210)가 통화 단말(220)의 위치에서 상대방의 목소리가 들리는 것처럼 느낄 수 있도록 감성사운드 세팅을 수행할 수 있다.
이 때, 통화 단말에 구비된 카메라를 기반으로 사용자의 얼굴에 포함된 눈, 코, 입 및 귀 중 적어도 둘 이상의 위치 관계를 검출하고, 위치 관계를 고려하여 검출된 얼굴 정면 방향을 기준으로 상태위치에 상응하는 각도를 산출할 수 있다.
예를 들어, 도 2에 도시된 것처럼 통화 단말(220)에 구비된 카메라를 기반으로 사용자(210)의 얼굴을 촬영하면 도 3에 도시된 것처럼 눈, 코, 입 및 귀를 각각 검출할 수 있다. 이 때, 검출된 눈, 코, 입 및 귀에 대한 위치 관계를 통해 사용자(210)의 얼굴이 어느 방향을 향하고 있는지 검출하여 얼굴 정면 방향을 검출할 수 있다.
이 때, 도 3에서는 눈, 코, 입, 귀가 모두 검출된 예시를 사용하였으나, 눈, 코, 입 및 귀 중에 적어도 2개의 위치만 검출되는 경우에도 검출된 적어도 2 개의 대한 위치 관계를 이용하여 얼굴의 정면 방향을 검출할 수도 있다.
이와 같이 눈, 코, 입 및 귀에 대한 위치 관계를 기반으로 얼굴 정면 방향이 검출되면, 도 4에 도시된 것과 같이 사용자(410)의 얼굴 정면 방향(411)과 통화 단말(420)에 대한 통화 단말 정면 방향(421) 간의 상대위치 각도(430)를 산출할 수 있다.
예를 들어, 사용자(410)과 통화 단말(420)을 오른손으로 들고 통화를 한다고 가정할 수 있다. 이 때, 사용자(410)가 통화 단말(420)을 얼굴 정면 방향(411)에 두고 이야기한다면, 통화 단말 정면 방향(421)과 얼굴 정면 방향(411)간의 각도 차이가 없으므로 상대방의 목소리도 정면에서 들리도록 감성사운드 세팅을 수행할 수 있다.
그러나 도 4에 도시된 것처럼, 사용자(410)가 통화 단말(420)을 오른쪽으로 치우친 위치에서 들고 통화하는 경우에는 얼굴 정면 방향(411)과 통화 단말 정면 방향(421)이 차이가 발생하기 때문에 상대방의 목소리도 상대위치 각도(430)만큼 차이나는 통화 단말(420)의 위치에서 들리도록 감성사운드 세팅을 수행할 수 있다.
즉, 통화 단말(420)의 위치가 통화 단말 정면 방향(421)이 얼굴 정면 방향(411)을 기준으로 오른쪽으로 20도의 위치라면, 사용자(420)가 느끼기에 오른쪽으로 20도의 위치에서 상대방의 목소리가 들리도록 감성사운드 세팅을 수행할 수 있다.
마찬가지로, 사용자(410)가 통화 단말(420)을 왼손으로 들고 통화를 할 때에도, 동일한 방식으로 감성사운드 세팅을 수행함으로써 사용자(410)에게 입체적인 통화 경험을 제공할 수 있다.
이 때, 통화 단말에 구비된 카메라를 기반으로 사용자의 얼굴 이미지를 획득하고, 얼굴 이미지의 이미지 크기를 고려하여 상대위치에 상응하는 거리를 산출할 수도 있다.
예를 들어, 도 5 내지 도 6을 참조하면, 도 5와 같은 통화 상태(510)일 때에 통화단말의 카메라를 통해 획득된 얼굴 이미지(520)의 크기가 도 6과 같은 통화 상태(610)일 때의 통화단말의 카메라를 통해 획득된 얼굴 이미지(620)보다 큰 것을 알 수 있다. 즉, 도 5의 얼굴 이미지(520)가 도 6의 얼굴 이미지(620)보다 크다는 것은, 도 5의 통화 상태(510)에서의 상대위치 거리(511)가 도 6의 통화 상태(610)에서의 상대위치 거리(611)보다 짧음을 의미할 수 있다.
따라서, 이와 같은 방식으로 통화 단말에서 촬영된 이미지를 기반으로 상대위치에 상응하는 거리를 산출하여 감성사운드 세팅을 수행할 수도 있다.
또한, 전화번호를 기반으로 상대방에 대한 사전세팅 여부를 확인하고, 사전세팅이 되어있는 경우에 사전세팅에 상응하게 상대방의 목소리 위치를 확인할 수 있다.
즉, 사전세팅은 통화를 하는 상대방이 누구인지에 따라 설정될 수 있는 정보에 상응하는 것으로, 통화단말의 사용자가 통화단말에 저장된 전화번호를 기반으로 설정할 수 있도록 별도의 인터페이스가 제공될 수도 있다.
이 때, 사전세팅이 속삭임 모드일 경우, 사용자의 오른쪽 귀에 상응하는 위치를 상대방의 목소리 위치로 확인할 수 있다.
예를 들어, 애인과 통화를 하는 경우에 속삭임 모드로 동작하도록 사전세팅을 해두고, 향후 애인과 통화 시 도 7에 도시된 것처럼 사용자(710)의 오른쪽 귀와 가까운 위치를 애인의 목소리 위치(730)인 것으로 확인할 수 있다. 즉, 사전세팅이 되어있는 경우, 통화 단말(720)의 위치와는 관계없이 사전세팅으로 설정된 모드에 따라 목소리 위치가 결정될 수 있다.
또한, 이와 같은 사전세팅을 통해 통화하는 상대방에 따라 사용자가 보다 감성적인 통화를 할 수 있는 환경을 제공할 수 있다.
이 때, 속삭임 모드에서는 상대방의 목소리 위치를 왼쪽 귀가 아닌 오른쪽 귀로 세팅함으로써 사용자가 상대방의 목소리를 보다 쉽게 인식하도록 할 수 있다.
이러한 세팅은 대뇌의 소리인식 경로를 고려한 것으로, 도 8에 도시된 도면을 참조하여 설명하면 다음과 같다.
먼저, 오른쪽 귀(810)로 들어온 소리는 오른쪽 달팽이관(811) 신경과 시상내측슬상체를 거쳐 좌뇌 1차 청각피질로 전달되고, 왼쪽 귀(820)로 들어온 소리는 왼쪽 달팽이관(821) 신경과 시상내측슬상체를 거쳐 우뇌 1차 청각피질로 전달될 수 있다. 즉, 신경 연결 부분(800)에서 확인할 수 있듯이 오른쪽 달팽이관(811) 신경은 좌뇌로 연결되어 있고, 왼쪽 달팽이관(821) 신경은 우뇌로 연결되어 있기 때문에 오른쪽 귀(810)로 들어온 소리는 좌뇌로 전달되고, 왼쪽 귀(820)로 들어온 소리는 우뇌로 전달될 수 있다.
이 때, 뇌에서 듣기영역에 해당하는 베르니케 영역은 좌뇌의 측두엽에 위치하는 언어신경의 중추로써, 1차 청각피질로부터 정보를 받아 듣기와 읽기를 관장하고 있다. 즉, 1차 청각피질은 언어의 의미를 고려하지 않은 단순한 듣기(Hearing)만을 처리하고, 이후에 베르니케 영역에서 의미를 갖는 언어로서의 듣기(Listening)를 처리하므로 통화를 할 때 들리는 상대방의 목소리는 결국 베르니케 영역에서의 처리가 필요할 수 있다.
그러나, 왼쪽 귀(820)로 들어온 소리는 1차적으로 베르니케 영역이 위치하지 않은 우뇌의 1차 청각피질로 전달되기 때문에 오른쪽 귀(810)로 들어온 소리의 경로를 비교하였을 때 한가지 경로를 더 거쳐야 할 수 있다. 즉, 오른쪽 귀(810)로 들어온 소리는 좌뇌 1차 청각피질에서 좌뇌에 위치하는 베르니케 영역으로 바로 전달되지만, 왼쪽 귀(820)로 들어온 소리는 우뇌 1차 청각피질에서 좌뇌에 위치하는 베르니케 영역으로 전달되어야 하기 때문에 오른쪽 귀(810)를 통한 경로가 왼쪽 귀(820)를 통한 경로보다 짧을 수 있다.
따라서, 속삭임 모드 수행 시에는 도 7에 도시된 것처럼 사용자(710)의 오른쪽 귀에 소리를 제공함으로써 사용자(710)가 목소리를 인지하는데 덜 피곤하게 할 수 있고, 보다 쉽게 목소리를 인식할 수 있다.
이 때, 사전세팅이 잔소리 모드일 경우, 사용자의 머리 뒤쪽에 상응하는 위치를 상대방의 목소리 위치로 확인할 수 있다.
예를 들어, 잔소리를 많이 하는 상대방과 통화를 하는 경우에 잔소리 모드로 동작하도록 사전세팅을 해두고, 향후 잔소리를 많이 하는 상대방과 통화 시 도 9에 도시된 것처럼 사용자(910)의 머리 뒤쪽에 상응하는 위치를 상대방의 목소리 위치(930)인 것으로 확인할 수 있다. 즉, 사용자가 크게 관심을 두지 않는 위치로 상대방의 목소리 위치(930)를 설정함으로써 통화 시에 사용자가 잔소리로 스트레스 받지 않도록 할 수 있다.
이 때, 상대방의 전화번호에 별도의 사전세팅이 되어있지 않은 경우에는 감성통화가 아닌 일반적인 통화를 수행하도록 감성사운드 세팅을 비활성화시킬 수도 있다.
이와 같은 사전세팅을 이용하면 통화하는 상대방에 따라 사용자가 보다 감성적이거나 효율적인 통화를 할 수 있는 환경을 제공할 수 있다.
또한, 통화가 컨퍼런스 콜에 상응하는 경우, 컨퍼런스 콜에 참여한 상대 인원 수를 고려하여 지정된 위치를 상대방의 목소리 위치로 확인할 수 있다.
컨퍼런스 콜의 경우, 통화에 참여한 여러 참여자들 중에 현재 발언하는 사람이 누구인지를 판단하는 것에 많은 인지적 부하가 발생할 수 있다. 예를 들어, 컨퍼런스 콜에 참여한 여러 상대 인원들의 목소리가 모두 하나의 위치에서 들리는 경우, 오로지 음성의 차이만으로 발언자를 구분해야 하므로 사용자의 피로감이 증가될 수 있다.
따라서, 본 발명에서는 컨퍼런스 콜에 참여한 여러 상대 인원들의 목소리 위치를 서로 떨어진 곳에 지정함으로써 사용자가 컴퍼런스 콜에서의 발언자가 누구인지를 보다 수월하게 인지할 수 있도록 할 수 있다.
이 때, 지정된 위치는 사용자의 시선을 기준으로 기설정된 범위의 각도를 상대 인원수에 상응하게 분할한 값을 기반으로 설정될 수 있다.
예를 들어, 사용자를 포함하여 3명이 컨퍼런스 콜에 참여하였고, 기설정된 범위의 각도를 180도라고 가정할 수 있다. 이러한 경우에는 도 10에 도시된 것처럼 사용자(1000)의 정면을 기준으로 하는 180도를 상대 인원수에 해당하는 2로 나누어 영역을 분할하고, 분할된 영역의 중간 각도 지점에 지정 위치(1010, 1020)를 설정하여 상대방의 목소리 위치를 설정할 수 있다.
다른 예를 들어, 사용자를 포함하여 4명이 컴퍼런스 콜에 참여하였고, 기설정된 범위의 각도는 마찬가지로 180도라고 가정할 수 있다. 이러한 경우에는 도 11에 도시된 것처럼, 사용자(1100)의 정면을 기준으로 하는 180도를 상대 인원수에 해당하는 3으로 나누어 영역을 분할하고, 분할된 영역의 중간 각도 지점에 지정 위치(1110, 1120, 1130)를 설정하여 상대방의 목소리 위치를 설정할 수 있다.
또 다른 예를 들어, 사용자를 포함하여 5명이 컨퍼런스 콜에 참여하였고, 기설정된 범위의 각도가 360도라고 가정할 수 있다. 이러한 경우에는 도 12에 도시된 것처럼, 사용자(1200)를 기준으로 하는 360도를 상대 인원수에 해당하는 4로 나누어 영역을 분할하고, 분할된 영역의 중간 각도 지점에 지정 위치(1210, 1220, 1230, 1240)를 설정하여 상대방의 목소리 위치를 설정할 수도 있다.
이 때, 지정위치를 설정하는 방식은 도 10 내지 도 12에 도시된 방법에 한정되지 않는다.
또한, 프로세서(2120)는 상대 인원 수를 고려하여 상대방의 목소리 위치를 지정할 수 있는 위치 지정 인터페이스를 제공할 수 있다.
예를 들어, 사용자를 포함하여 5명이 컨퍼런스 콜을 수행하는 경우, 사용자의 통화 단말로 도 13에 도시된 위치 지정 인터페이스를 제공할 수 있다. 만약, 사용자를 제외한 A, B, C, D의 참여자가 존재한다고 가정한다면, 도 13부터 도 15에 도시된 것처럼 참여자들의 위치를 선택하기 위한 인터페이스 화면을 순차적으로 제공할 수 있다.
이 후, 사용자가 자신을 제외한 모든 참여자들의 위치를 지정한 경우, 도 16에 도시된 것처럼 참여자들의 지정 위치를 수정할 수 있는 위치 수정 버튼(1610)과 현재 지정된 위치로 컨퍼런스 콜을 시작하기 위한 컨퍼런스 콜 시작 버튼(1620)을 제공할 수 있다.
이 때, 위치 지정 인터페이스는 컨퍼런스 콜이 시작되기 전, 또는 컨퍼런스 콜 도중에 제공될 수도 있으며, 그 형태는 도 13 내지 도 16에 한정되지 않을 수 있다.
또한, 프로세서(2120)는 감성사운드 세팅에 따라 상대방의 목소리 위치를 변경하고, 상대방 목소리를 변경된 목소리 위치에 상응하는 바이노럴 사운드로 제공한다.
이 때, 바이노럴 사운드는 기존에 이용되는 기술 및 향후 개발 가능한 기술을 적용하여 생성될 수 있다.
예를 들어, 한국등록공보 10-1599554에는 MPEG 서라운드(MPEG Surround)라는 국제 표준의 다채널 오디오 부호화 기술을 기반으로 3차원 바이너럴 신호를 출력하는 내용을 개시하고 있다. 10-1599554에서는 MPEG-Surround(MPS) 국제 표준을 기반으로 멀티채널 오디오 재생특성 파라미터를 추출하고, 오디오 재생특성 파라미터를 이용하여 다운믹스 오디오 신호에 대해 HRTF(Head Related Transfer function) 필터링을 수행하여 3D 바이너럴 신호를 출력하는 내용을 개시하고 있다. 여기서, HRTF 필터링은 인간의 청각기관을 모델링한 더미 헤더 마이크를 이용하여 360도의 방위각과 180도의 고도각 사이를 특정 간격을 두고 각각의 위치에 대한 좌우 양쪽의 임펄스 응답을 구하는 필터링일 수 있다.
이 때, 멀티채널 오디오 재생특성 파라미터는 주파수 대역 별 전후방 채널 신호의 출력 레벨 차에 대한 것으로, MPEG-Surround(MPS) 국제 표준에서 다채널 오디오 신호를 입력 받아 두 귀 사이의 소리 크기 차이와 채널 사이의 상관도 등으로 표현되는 공간 파라미터를 기반으로 추출될 수 있다.
또한, 한국등록공보 10-0971700에는 가상음원의 위치정보와 각 채널 별 바이노럴 필터 계수에 기초하여 좌/우 오디오 신호를 주파수 영역에서 필터링하고, 필터링된 신호를 바이노럴 스테레오 신호로 복호화하는 내용을 개시하고 있다. 이 때, 입력되는 시간 영역의 스테레오 좌/우 오디오 신호를 DFT(Discrete Fourier Transform) 또는 FFT(Fast Fourier Transform)를 이용하여 주파수 영역의 신호로 변환하고, 가상음원의 위치정보를 기반으로 할당된 서브밴드 별 각 채널의 파워 이득 값과 각 채널에 대한 주파수 영역의 좌/우 HRTF 계수 블록에 기초하여 주파수 영역에 상응하는 스테레오 좌/우 신호를 바이노럴 스테레오 신호로 필터링할 수 있다.
이 때, 가상음원의 위치정보(VSLI: Virtual Source Location Information) 기반의 공간 큐 정보를 합성하여 서브밴드 별 각 채널의 파워 이득값을 산출할 수 있고, 스테레오 신호에 대한 VSLI 기반의 공간 큐 정보는 임의의 서브밴드(m)에 대하여, 좌측반면각(LHA: Left Half-plane Angle)(LHA(m)), 좌측보조평면각(LSA: Left Subsequent Angle)(LSA(m)), 우측반면각(RHA: Right Half-plane Angle)(RHA(m)) 및 우측보조평면각(RSA: Right Subsequent Angle)(RSA(m))을 포함할 수 있다.
따라서, 본 발명에서도 상기와 같은 기술을 기반으로 감성사운데 세팅에 의한 상대방의 목소리 위치에 상응하게 바이노럴 사운드를 생성할 수 있다.
또한, 프로세서(2120)는 감성통화 도중에 감성통화 종료 조건이 만족되는 경우, 감성사운드 세팅을 비활성화시킬 수 있다.
이 때, 감성통화 종료 조건은 감성통화 도중에 이어폰 사용이 종료되는 경우 및 감성통화 도중에 사용자 입력에 기반한 감성통화 종료 명령이 입력된 경우 중 적어도 하나에 상응할 때 만족될 수 있다.
또한, 프로세서(2120)는 일반통화 도중에 감성통화 실행 조건이 만족되는 경우, 감성사운드 세팅을 활성화시킬 수 있다.
이 때, 감성통화 실행 조건은 일반통화 도중에 이어폰 사용이 실행되는 경우 및 일반통화 도중에 사용자 입력에 기반한 감성통화 실행 명령이 입력되는 경우 중 적어도 하나에 상응할 때 만족될 수 있다.
이 때, 감성통화방법은 음성 통화 및 영상 통화 중 적어도 하나의 통화 방식에 적용 가능할 수 있다. 즉, 본 발명에 따른 감성통화방법은 상호간에 목소리만 들리는 음성통화나 목소리와 함께 영상을 보여주는 영상통화에 적용할 수 있다.
메모리(2130)는 통화 단말에 대한 운영체제(Operating System, OS)와 함께 감성통화 어플리케이션을 포함한 각종 어플리케이션들이 저장될 수 있다. 따라서, 감성통화 어플리케이션은 모바일 단말에 설치되어 실행되는 컴퓨터 프로그램에 상응할 수 있다.
또한, 메모리(2130)는 본 발명의 실시예에 따른 감성통화를 수행하기 위한 기능을 지원할 수 있다. 이 때, 메모리(2130)는 별도의 대용량 스토리지로 동작할 수 있고, 동작 수행을 위한 제어 기능을 포함할 수도 있다. 일 구현예의 경우, 메모리는 컴퓨터로 판독 가능한 매체이다. 일 구현 예에서, 메모리는 휘발성 메모리 유닛일 수 있으며, 다른 구현예의 경우, 메모리는 비휘발성 메모리 유닛일 수도 있다. 다양한 서로 다른 구현 예에서, 메모리는 예컨대 하드디스크 장치, 광학디스크 장치, 혹은 어떤 다른 대용량 저장장치를 포함할 수도 있다.
이와 같은 감성통화 어플리케이션이 실행되는 통화 단말을 통해 바이노럴 사운드를 이용한 입체음향기술에 심리학적인 요소를 결합하여 감상적 효과를 발생시키는 통화 기술을 제공할 수 있다.
또한, 음성통화 또는 영상통화를 하는 사용자가 대화(통화)하는데 필요한 인지적 부하를 감소시킴으로써 사용자가 느끼는 피로감을 감소시킬 수 있으며, 통화 상대방을 식별하여 감성사운드를 세팅함으로써 사용자에 대해 개인화된 통화 환경을 제공할 수도 있다.
이상에서와 같이 본 발명에 따른 바이노럴 사운드를 이용한 감성 통화 방법 및 이를 위한 장치는 상기한 바와 같이 설명된 실시예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 상기 실시예들은 다양한 변형이 이루어질 수 있도록 각 실시예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.

Claims (20)

  1. 통화를 위한 인지적 부하를 경감하기 위한 감성통화방법에 있어서,
    감성사운드 세팅을 확인하는 단계; 및
    상기 감성사운드 세팅에 따라 상대방의 목소리 위치를 변경하고, 상대방 목소리를 변경된 목소리 위치에 상응하는 바이노럴 사운드로 제공하는 단계
    를 포함하는 것을 특징으로 하는 감성통화방법.
  2. 청구항 1에 있어서,
    상기 감성사운드 세팅은
    이어폰이 사용되면 활성화되고, 이어폰이 사용되지 않으면 비활성화되는 것을 특징으로 하는 감성통화방법.
  3. 청구항 1에 있어서,
    상기 감성사운드 세팅을 확인하는 단계는
    상기 통화를 수행하는 사용자의 얼굴에 대한 통화 단말의 상대위치를 확인하고, 상기 상대위치를 상기 상대방의 목소리 위치로 확인하는 것을 특징으로 하는 감성통화방법.
  4. 청구항 3에 있어서,
    상기 감성사운드 세팅을 확인하는 단계는
    상기 통화 단말에 구비된 카메라를 기반으로 상기 사용자의 얼굴에 포함된 눈, 코, 입 및 귀 중 적어도 둘 이상의 위치 관계를 검출하고, 상기 위치 관계를 고려하여 검출된 얼굴 정면 방향을 기준으로 상기 상대위치에 상응하는 각도를 산출하는 단계를 포함하는 것을 특징으로 하는 감성통화방법.
  5. 청구항 1에 있어서,
    상기 감성사운드 세팅을 확인하는 단계는
    전화번호를 기반으로 상기 상대방에 대한 사전세팅 여부를 확인하고, 사전세팅이 되어있는 경우에 상기 사전세팅에 상응하게 상기 상대방의 목소리 위치를 확인하는 것을 특징으로 하는 감성통화방법.
  6. 청구항 5에 있어서,
    상기 감성사운드 세팅을 확인하는 단계는
    상기 사전세팅이 속삭임 모드일 경우, 사용자의 오른쪽 귀에 상응하는 위치를 상기 상대방의 목소리 위치로 확인하는 것을 특징으로 하는 감성통화방법.
  7. 청구항 5에 있어서,
    상기 감성사운드 세팅을 확인하는 단계는
    상기 사전세팅이 잔소리 모드일 경우, 사용자의 머리 뒤쪽에 상응하는 위치를 상기 상대방의 목소리 위치로 확인하는 것을 특징으로 하는 감성통화방법.
  8. 청구항 1에 있어서,
    상기 감성사운드 세팅을 확인하는 단계는
    상기 통화가 컨퍼런스 콜에 상응하는 경우, 상기 컨퍼런스 콜에 참여한 상대 인원 수를 고려하여 지정된 위치를 상기 상대방의 목소리 위치로 확인하는 것을 특징으로 하는 감성통화방법.
  9. 청구항 8에 있어서,
    상기 지정된 위치는
    사용자의 시선을 기준으로 기설정된 범위의 각도를 상기 상대 인원수에 상응하게 분할한 값을 기반으로 설정되는 것을 특징으로 하는 감성통화방법.
  10. 청구항 8에 있어서,
    상기 감성통화방법은
    상기 상대 인원 수를 고려하여 상기 상대방의 목소리 위치를 지정할 수 있는 위치 지정 인터페이스를 제공하는 단계를 더 포함하는 것을 특징으로 하는 감성통화방법.
  11. 청구항 1에 있어서,
    상기 감성통화방법은
    감성통화 도중에 감성통화 종료 조건이 만족되는 경우, 상기 감성사운드 세팅을 비활성화시키는 단계; 및
    일반통화 도중에 감성통화 실행 조건이 만족되는 경우, 상기 감성사운드 세팅을 활성화시키는 단계를 더 포함하는 것을 특징으로 하는 감성통화방법.
  12. 청구항 11에 있어서,
    상기 감성통화 종료 조건은 상기 감성통화 도중에 이어폰 사용이 종료되는 경우 및 상기 감성통화 도중에 사용자 입력에 기반한 감성통화 종료 명령이 입력된 경우 중 적어도 하나에 상응할 때 만족되고,
    상기 감성통화 실행 조건은 상기 일반통화 도중에 이어폰 사용이 실행되는 경우 및 상기 일반통화 도중에 사용자 입력에 기반한 감성통화 실행 명령이 입력되는 경우 중 적어도 하나에 상응할 때 만족되는 것을 특징으로 하는 감성통화방법.
  13. 청구항 1에 있어서,
    상기 감성통화방법은
    음성 통화 및 영상 통화 중 적어도 하나의 통화 방식에 적용 가능한 것을 특징으로 하는 감성통화방법.
  14. 통화를 위한 인지적 부하를 경감하기 위해서,
    감성사운드 세팅을 확인하는 단계; 및
    상기 감성사운드 세팅에 따라 상대방의 목소리 위치를 변경하고, 상대방 목소리를 변경된 목소리 위치에 상응하는 바이노럴 사운드로 제공하는 단계
    를 실행시키는 것을 특징으로 하는 컴퓨터로 판독 가능한 기록매체에 저장된 감성통화 어플리케이션.
  15. 청구항 14에 있어서,
    상기 감성사운드 세팅은
    이어폰이 사용되면 활성화되고, 이어폰이 사용되지 않으면 비활성화되는 것을 특징으로 하는 컴퓨터로 판독 가능한 기록매체에 저장된 감성통화 어플리케이션.
  16. 청구항 14에 있어서,
    상기 감성사운드 세팅을 확인하는 단계는
    상기 통화를 수행하는 사용자의 얼굴에 대한 통화 단말의 상대위치를 확인하고, 상기 상대위치를 상기 상대방의 목소리 위치로 확인하는 것을 특징으로 하는 컴퓨터로 판독 가능한 기록매체에 저장된 감성통화 어플리케이션.
  17. 청구항 16에 있어서,
    상기 감성사운드 세팅을 확인하는 단계는
    상기 통화 단말에 구비된 카메라를 기반으로 상기 사용자의 얼굴에 포함된 눈, 코, 입 및 귀 중 적어도 둘 이상의 위치 관계를 검출하고, 상기 위치 관계를 고려하여 검출된 얼굴 정면 방향을 기준으로 상기 상대위치에 상응하는 각도를 산출하는 단계를 포함하는 것을 특징으로 하는 컴퓨터로 판독 가능한 기록매체에 저장된 감성통화 어플리케이션.
  18. 청구항 14에 있어서,
    상기 감성사운드 세팅을 확인하는 단계는
    전화번호를 기반으로 상기 상대방에 대한 사전세팅 여부를 확인하고, 사전세팅이 되어있는 경우에 상기 사전세팅에 상응하게 상기 상대방의 목소리 위치를 확인하는 것을 특징으로 하는 컴퓨터로 판독 가능한 기록매체에 저장된 감성통화 어플리케이션.
  19. 청구항 18에 있어서,
    상기 사전세팅이 속삭임 모드일 경우, 사용자의 오른쪽 귀에 상응하는 위치를 상기 상대방의 목소리 위치로 확인하고,
    상기 사전세팅이 잔소리 모드일 경우, 사용자의 머리 뒤쪽에 상응하는 위치를 상기 상대방의 목소리 위치로 확인하는 것을 특징으로 하는 컴퓨터로 판독 가능한 기록매체에 저장된 감성통화 어플리케이션.
  20. 청구항 14에 있어서,
    상기 감성사운드 세팅을 확인하는 단계는
    상기 통화가 컨퍼런스 콜에 상응하는 경우, 상기 컨퍼런스 콜에 참여한 상대 인원 수를 고려하여 지정된 위치를 상기 상대방의 목소리 위치로 확인하는 것을 특징으로 하는 컴퓨터로 판독 가능한 기록매체에 저장된 감성통화 어플리케이션.
PCT/KR2019/005823 2018-05-15 2019-05-15 바이노럴 사운드를 이용한 감성 통화 방법 및 이를 위한 장치 WO2019221506A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2018-0055558 2018-05-15
KR1020180055558A KR102036010B1 (ko) 2018-05-15 2018-05-15 바이노럴 사운드를 이용한 감성 통화 방법 및 이를 위한 장치

Publications (1)

Publication Number Publication Date
WO2019221506A1 true WO2019221506A1 (ko) 2019-11-21

Family

ID=68420580

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/005823 WO2019221506A1 (ko) 2018-05-15 2019-05-15 바이노럴 사운드를 이용한 감성 통화 방법 및 이를 위한 장치

Country Status (2)

Country Link
KR (1) KR102036010B1 (ko)
WO (1) WO2019221506A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006279492A (ja) * 2005-03-29 2006-10-12 Tsuken Denki Kogyo Kk 電話会議システム
JP2012529843A (ja) * 2009-06-09 2012-11-22 アンダーソン,ディーン・ロバート・ゲイリー 補聴器の方向音響フィッティングのための方法と装置
KR101405646B1 (ko) * 2010-06-29 2014-06-10 알까뗄 루슨트 휴대용 통신 디바이스 및 지향된 사운드 출력을 이용한 통신 가능화
US20160266865A1 (en) * 2013-10-31 2016-09-15 Dolby Laboratories Licensing Corporation Binaural rendering for headphones using metadata processing
KR20180038073A (ko) * 2014-07-10 2018-04-13 와이덱스 에이/에스 적어도 하나의 보청기의 작동을 제어하기 위한 애플리케이션 소프트웨어를 갖는 개인 통신 디바이스

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100971700B1 (ko) 2007-11-07 2010-07-22 한국전자통신연구원 공간큐 기반의 바이노럴 스테레오 합성 장치 및 그 방법과,그를 이용한 바이노럴 스테레오 복호화 장치
KR101599554B1 (ko) 2009-03-23 2016-03-03 한국전자통신연구원 Sac 부가정보를 이용한 3d 바이노럴 필터링 시스템 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006279492A (ja) * 2005-03-29 2006-10-12 Tsuken Denki Kogyo Kk 電話会議システム
JP2012529843A (ja) * 2009-06-09 2012-11-22 アンダーソン,ディーン・ロバート・ゲイリー 補聴器の方向音響フィッティングのための方法と装置
KR101405646B1 (ko) * 2010-06-29 2014-06-10 알까뗄 루슨트 휴대용 통신 디바이스 및 지향된 사운드 출력을 이용한 통신 가능화
US20160266865A1 (en) * 2013-10-31 2016-09-15 Dolby Laboratories Licensing Corporation Binaural rendering for headphones using metadata processing
KR20180038073A (ko) * 2014-07-10 2018-04-13 와이덱스 에이/에스 적어도 하나의 보청기의 작동을 제어하기 위한 애플리케이션 소프트웨어를 갖는 개인 통신 디바이스

Also Published As

Publication number Publication date
KR102036010B1 (ko) 2019-10-25

Similar Documents

Publication Publication Date Title
WO2017204574A1 (en) Wireless sound equipment
WO2020141824A2 (en) Processing method of audio signal and electronic device supporting the same
US4008376A (en) Loudspeaking teleconferencing circuit
WO2015147530A1 (ko) 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
WO2012102464A1 (ko) 이어마이크로폰 및 이어마이크로폰용 전압 제어 장치
WO2010087630A2 (en) A method and an apparatus for decoding an audio signal
CN111464905A (zh) 基于智能穿戴设备的听力增强方法、系统和穿戴设备
WO2017188648A1 (ko) 이어셋 및 그 제어 방법
WO2016089180A1 (ko) 바이노럴 렌더링을 위한 오디오 신호 처리 장치 및 방법
WO2015147619A1 (ko) 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
WO2017043688A1 (ko) 이어커낼 마이크가 내장된 블루투스 이어셋 및 이의 제어방법
US9542957B2 (en) Procedure and mechanism for controlling and using voice communication
WO2015199508A1 (ko) 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
WO2021060680A1 (en) Methods and systems for recording mixed audio signal and reproducing directional audio
WO2022080612A1 (ko) 휴대용 음향기기
US20200245056A1 (en) Earphone having separate microphones for binaural recordings and for telephoning
WO2019221506A1 (ko) 바이노럴 사운드를 이용한 감성 통화 방법 및 이를 위한 장치
WO2021010562A1 (en) Electronic apparatus and controlling method thereof
EP0033744A1 (en) Voice controlled switching system
WO2020096406A1 (ko) 사운드 생성 방법 및 이를 수행하는 장치들
WO2019199040A1 (ko) 메타데이터를 이용하는 오디오 신호 처리 방법 및 장치
WO2020101358A2 (ko) 이어셋을 이용한 서비스 제공방법
WO2023080698A1 (ko) 향상된 brir에 기초한 입체 음향 생성 방법 및 이를 이용한 어플리케이션
WO2020040541A1 (ko) 전자장치, 그 제어방법 및 기록매체
WO2022197151A1 (ko) 외부 소리를 듣기 위한 전자 장치 및 전자 장치의 동작 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19803365

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19803365

Country of ref document: EP

Kind code of ref document: A1

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 21/05/2021)

122 Ep: pct application non-entry in european phase

Ref document number: 19803365

Country of ref document: EP

Kind code of ref document: A1