WO2011033780A1 - 端末装置、音声出力方法および情報処理システム - Google Patents

端末装置、音声出力方法および情報処理システム Download PDF

Info

Publication number
WO2011033780A1
WO2011033780A1 PCT/JP2010/005670 JP2010005670W WO2011033780A1 WO 2011033780 A1 WO2011033780 A1 WO 2011033780A1 JP 2010005670 W JP2010005670 W JP 2010005670W WO 2011033780 A1 WO2011033780 A1 WO 2011033780A1
Authority
WO
WIPO (PCT)
Prior art keywords
buffer
voice
audio
jitter buffer
instruction
Prior art date
Application number
PCT/JP2010/005670
Other languages
English (en)
French (fr)
Inventor
渋谷清人
中村仁
柴田勝彦
柳瀬和大
山口明俊
森田章義
風間幸一
Original Assignee
株式会社ソニー・コンピュータエンタテインメント
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ソニー・コンピュータエンタテインメント filed Critical 株式会社ソニー・コンピュータエンタテインメント
Priority to CN201080043672.0A priority Critical patent/CN102648606B/zh
Priority to US13/496,504 priority patent/US8949115B2/en
Priority to EP10816894.9A priority patent/EP2472804B1/en
Publication of WO2011033780A1 publication Critical patent/WO2011033780A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/30Interconnection arrangements between game servers and game devices; Interconnection arrangements between game devices; Interconnection arrangements between game servers
    • A63F13/35Details of game servers
    • A63F13/358Adapting the game course according to the network or server load, e.g. for reducing latency due to different connection speeds between clients
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/90Constructional details or arrangements of video game devices not provided for in groups A63F13/20 or A63F13/25, e.g. housing, wiring, connections or cabinets
    • A63F13/98Accessories, i.e. detachable arrangements optional for the use of the video game device, e.g. grip supports of game controllers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04JMULTIPLEX COMMUNICATION
    • H04J3/00Time-division multiplex systems
    • H04J3/02Details
    • H04J3/06Synchronising arrangements
    • H04J3/062Synchronisation of signals having the same nominal but fluctuating bit rates, e.g. using buffers
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/90Constructional details or arrangements of video game devices not provided for in groups A63F13/20 or A63F13/25, e.g. housing, wiring, connections or cabinets
    • A63F13/92Video game devices specially adapted to be hand-held while playing
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/40Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterised by details of platform network
    • A63F2300/408Peer to peer connection
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/50Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by details of game servers
    • A63F2300/53Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by details of game servers details of basic data processing
    • A63F2300/534Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by details of game servers details of basic data processing for network load management, e.g. bandwidth optimization, latency reduction
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/50Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by details of game servers
    • A63F2300/57Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by details of game servers details of game services offered to the player
    • A63F2300/572Communication between players during game play of non game information, e.g. e-mail, chat, file transfer, streaming of audio and streaming of video
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/60Methods for processing data by generating or executing the game program
    • A63F2300/6063Methods for processing data by generating or executing the game program for sound processing
    • A63F2300/6081Methods for processing data by generating or executing the game program for sound processing generating an output signal, e.g. under timing constraints, for spatialization
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • H04M1/6033Substation equipment, e.g. for use by subscribers including speech amplifiers for providing handsfree use or a loudspeaker mode in telephone sets
    • H04M1/6041Portable telephones adapted for handsfree use
    • H04M1/6058Portable telephones adapted for handsfree use involving the use of a headset accessory device connected to the portable telephone
    • H04M1/6066Portable telephones adapted for handsfree use involving the use of a headset accessory device connected to the portable telephone including a wireless connection

Definitions

  • the present invention relates to a terminal device, and more particularly to a terminal device that receives a voice packet and outputs the voice, and a system including the voice output terminal device.
  • a near field wireless communication system using the Bluetooth (registered trademark) protocol has been developed and put into practical use.
  • electronic devices such as a personal computer, a printer, and a digital camera can be connected without using a cable.
  • headsets using the Bluetooth protocol have also been developed. Since the wireless headset does not require a cable for connecting to a sound source, for example, when a user listens to music, there is an advantage that it is free from troublesomeness such as tangling of the cable.
  • Portable game devices have become widespread, and users can enjoy games in various environments such as in trains and outdoors.
  • the game sound output via the headset inevitably lags behind the game image displayed on the display of the game device.
  • Games such as action-based games and rhythm-based games progress quickly and it is not preferable that the game sound is greatly delayed from the game image.
  • the progress of the game is relatively slow, and the request for the delay of the game sound with respect to the game image is not so severe.
  • a delay in sound with respect to the image is often allowed.
  • an object of the present invention is to provide a technique for adjusting the time from when a wirelessly transmitted voice packet is transmitted to when the voice is output as necessary.
  • a terminal device includes a receiving unit that receives a voice packet, a jitter buffer that temporarily stores the received voice packet, and a buffer that adjusts the buffer size of the jitter buffer.
  • a control unit a voice decoding unit that decodes a voice packet output from the jitter buffer, and an instruction receiving unit that receives a voice output mode setting instruction.
  • the buffer control unit adjusts the buffer size of the jitter buffer according to the audio output mode instructed to be set by the instruction receiving unit.
  • the audio output method includes a step of receiving an instruction to set an audio output mode, a step of adjusting a buffer size of a jitter buffer for temporarily storing audio packets according to the audio output mode instructed for setting, Receiving, supplying the received voice packet to a jitter buffer whose buffer size is adjusted, and decoding the voice packet output from the jitter buffer.
  • This information processing system includes an information processing device that outputs an image to a display, and a voice output terminal device that receives a voice packet wirelessly transmitted from the information processing device and outputs a voice.
  • the information processing apparatus includes an application processing unit that generates an image signal and an audio signal, an image signal processing unit that processes the generated image signal and outputs an image from a display, and processes the generated audio signal.
  • An audio signal processing unit that generates an audio packet and a transmission unit that transmits the audio packet are provided.
  • the voice output terminal device includes: a receiving unit that receives a voice packet; a jitter buffer that temporarily stores the received voice packet; a buffer control unit that adjusts a buffer size of the jitter buffer; and a voice packet output from the jitter buffer A voice decoding unit that decodes a voice output mode, and an instruction receiving unit that receives a voice output mode setting instruction.
  • the buffer control unit adjusts the buffer size of the jitter buffer according to the audio output mode instructed to be set by the instruction receiving unit.
  • FIG. 1 shows an information processing system 1 according to an embodiment of the present invention.
  • the information processing system 1 includes an information processing device 10 that executes an application and a voice output terminal device 100 that receives a voice packet wirelessly transmitted from the information processing device 10 and outputs a voice.
  • the information processing apparatus 10 executes an application and generates an image signal and an audio signal.
  • the information processing apparatus 10 may execute a game application and generate a game image signal and a game sound signal.
  • the information processing apparatus 10 has a display, processes an image signal, and outputs an image from the display.
  • the information processing apparatus 10 converts an audio signal into an audio packet and wirelessly transmits it to the audio output terminal apparatus 100.
  • the audio output terminal device 100 may be a wireless headset, for example, and decodes the received audio packet and outputs the audio.
  • the information processing apparatus 10 and the audio output terminal apparatus 100 are wirelessly connected using, for example, the Bluetooth protocol.
  • FIG. 2 shows a state transition diagram of Bluetooth. As shown in the figure, the state of the Bluetooth terminal can be divided into a standby phase, a synchronization establishment phase, and a communication connection phase.
  • the information processing apparatus 10 and the voice output terminal apparatus 100 When the information processing apparatus 10 and the voice output terminal apparatus 100 are turned on immediately or when the communication link is disconnected, the information processing apparatus 10 and the voice output terminal apparatus 100 enter a “standby” state. In the “standby” state, data transmission / reception is not performed.
  • the information processing apparatus 10 makes a connection inquiry, that is, an “inquiry” to the terminal device including the peripheral audio output terminal apparatus 100, and the information processing apparatus 10 and the audio output terminal apparatus 100 are mutually There is a state in which “calling” is performed by recognizing this.
  • the information processing apparatus 10 broadcasts an IQ (inquiry) packet to nearby terminal devices.
  • the voice output terminal device 100 that has received the IQ packet returns an FHS (Frequency Hop Synchronization) packet including the Bluetooth address and clock information to the information processing device 10.
  • FHS Frequency Hop Synchronization
  • the information processing apparatus 10 calls the voice output terminal apparatus 100
  • the information processing apparatus 10 receives an FHS packet from the voice output terminal apparatus 100, and after identifying the type of the voice output terminal apparatus 100, An ID packet is transmitted to the voice output terminal device 100.
  • the information processing apparatus 10 transmits an FHS packet to the voice output terminal device 100, and notifies the voice output terminal device 100 of its own address and clock.
  • the information processing apparatus 10 and the audio output terminal apparatus 100 can share the same hopping pattern. Note that when the voice output terminal device 100 calls the information processing device 10, the operating subject in the above processing is switched.
  • a piconet is formed between the voice output terminal device 100 and the information processing device 10 and enters the “connected” state.
  • a piconet means a network temporarily formed between Bluetooth terminals when the Bluetooth terminals are brought close to each other, and a maximum of eight Bluetooth terminals can participate in one piconet.
  • a device that has called up functions as a parent device (master) and can be connected to a maximum of seven child devices (slaves).
  • a control packet for setting a communication link is transmitted and received, thereby enabling “data transfer”.
  • the voice output terminal device 100 calls and becomes a master, the roles of the master and slave are switched between the voice output terminal device 100 and the information processing device 10. With this switch, the information processing apparatus 10 becomes a master and the audio output terminal apparatus 100 becomes a slave.
  • FIG. 3 shows an external configuration of the information processing apparatus 10 according to the present embodiment.
  • the information processing apparatus 10 includes an upper housing 20 and a lower housing 30 that are slidably connected.
  • the information processing apparatus 10 is in an open state in which the operation key provided on the front surface of the lower housing 30 is exposed to the outside by sliding the lower housing 30 with respect to the upper housing 20. Indicated.
  • a display 23 is provided on the front surface of the upper housing 20.
  • direction keys 31a, 31b, 31c, and 31d (hereinafter collectively referred to as “direction keys 31”), an analog pad 32, a microphone 33, a start button 34, and a select button 35 are displayed.
  • Operation buttons 36a, 36b, 36c, and 36d (hereinafter, collectively referred to as “operation buttons 36”) are provided.
  • the information processing apparatus 10 may be a portable game machine.
  • the user opens the information processing apparatus 10 and executes the game application.
  • the user can enjoy the game by operating the direction keys 31 and the operation buttons 36 while holding the information processing apparatus 10.
  • the game image is displayed on the display 23, and the game sound is transmitted to the sound output terminal device 100 connected by the Bluetooth protocol.
  • FIG. 4 shows functional blocks of the information processing apparatus 10.
  • the information processing apparatus 10 includes an operation input receiving unit 40, an application processing unit 42, an image signal processing unit 44, an audio signal processing unit 46, and a communication unit 48.
  • the operation input receiving unit 40 receives an operation input of the direction key 31 and the operation button 36 by the user.
  • the application processing unit 42 executes the game application, reflects the operation input from the user, advances the game, and generates an image signal and an audio signal of the game.
  • the image signal and the sound signal should be output as a game image and a game sound in synchronization with each other.
  • the image signal is supplied to the image signal processing unit 44, and the image signal processing unit 44 processes the image signal and causes the display 23 to output an image.
  • the audio signal is supplied to the audio signal processing unit 46, and the audio signal processing unit 46 processes the audio signal to generate an audio packet.
  • the voice signal processing unit 46 determines the size of the voice packet according to MTU (Maximum Transmission Unit).
  • MTU is a value indicating the maximum value of packet data that the communication unit 48 can transmit in one data transfer. If the MTU of the audio output terminal device 100 is smaller than the MTU of the information processing device 10 in the piconet formed between the information processing device 10 and the audio output terminal device 100, the audio signal processing unit 46 The size of the voice packet is determined according to the MTU of the device 100.
  • the communication unit 48 transmits the voice packet generated by the voice signal processing unit 46 to the voice output terminal device 100.
  • FIG. 5 shows an external configuration of the audio output terminal device 100 according to the present embodiment.
  • 5A is a front view of the voice output terminal device 100
  • FIG. 5B is a right side view of the voice output terminal device 100
  • FIG. It is a top view.
  • the audio output terminal device 100 includes an operation switch 102, a power button 104, a mode switch 106, a USB (Universal (Serial Bus) jack 108, and a headphone terminal 110.
  • the operation switch 102 is used by the user to adjust the volume of the game sound.
  • the mode switch 106 is operated by the user to instruct setting of the audio output mode.
  • the USB jack 108 is provided to charge the audio output terminal device 100, and the audio output terminal device 100 is charged by inserting a connector of a USB cable connected to the PC. A headphone connector is inserted into the headphone terminal 110.
  • the user operates the mode switch 106 to set either the normal mode or the low delay mode.
  • the normal mode is a normal audio output mode
  • the low delay mode is an audio output mode that requires a low delay in audio output as compared to the normal mode.
  • the low-delay mode has the advantage of low audio output delay and reduced output audio delay with respect to the output image, while the normal mode has the possibility of sound interruption compared to the low-delay mode. There is an advantage that the power consumption is reduced or the power saving effect is high.
  • the user sets the audio output mode according to the application to be executed.
  • FIG. 6 shows functional blocks of the audio output terminal device 100.
  • the audio output terminal device 100 includes an instruction receiving unit 120, a buffer control unit 122, a communication unit 124, a media buffer 126, a jitter buffer 128, an audio decoding unit 130, and a speaker 132.
  • the function of the audio output terminal device 100 is realized by a CPU, a memory, a program loaded in the memory, and the like, and here, functional blocks realized by their cooperation are depicted. Accordingly, those skilled in the art will understand that these functional blocks can be realized in various forms by hardware only, software only, or a combination thereof.
  • a voice packet receiving terminal is provided with a buffer (jitter buffer) for absorbing jitter.
  • jitter buffer for absorbing jitter.
  • the voice output terminal device 100 of this embodiment is also provided with a jitter buffer 128 for absorbing jitter since voice packets are transmitted from the information processing device 10 in real time.
  • the jitter buffer 128 is a FIFO memory.
  • the communication unit 124 receives a voice packet transmitted from the information processing apparatus 10.
  • the jitter buffer 128 temporarily stores voice packets.
  • a media buffer 126 is provided between the communication unit 124 and the jitter buffer 128 to temporarily accumulate voice packets received by the communication unit 124 and send them to the jitter buffer 128.
  • the buffer control unit 122 manages the media buffer 126 and the jitter buffer 128 and controls their operations.
  • the audio decoding unit 130 decodes audio packets for a predetermined time output from the jitter buffer 128, and the speaker 132 outputs audio.
  • the media buffer 126 sends out the voice packet received by the communication unit 124 to the jitter buffer 128 at a predetermined period. This facilitates buffering processing in the jitter buffer 128 and enables control with the buffer size as the output threshold of the voice packet. Since the media buffer 126 is provided for the purpose of periodically sending voice packets to the jitter buffer 128, it is not necessary to temporarily store many voice packets. Therefore, the size of the media buffer 126 is smaller than the size of the jitter buffer 128.
  • the buffer control unit 122 controls the timing at which the media buffer 126 sends audio packets to the jitter buffer 128, and specifically sets the cycle at which the media buffer 126 sends audio packets to the jitter buffer 128.
  • the audio output terminal device 100 when the accumulation amount of the audio packet transmitted from the media buffer 126 reaches the buffer size of the jitter buffer 128, the audio packet for a predetermined time is transmitted from the jitter buffer 128 to the audio decoding unit 130. Is output.
  • the buffer size of the jitter buffer 128 affects the timing of decoding the voice packet. Therefore, by reducing the buffer size, it is possible to reduce the delay for sound reproduction. Therefore, the buffer control unit 122 adjusts the buffer size of the jitter buffer 128 according to the audio output mode instructed by the user.
  • the instruction accepting unit 120 accepts the movement of the mode change switch 106 as an instruction to set the audio output mode.
  • the mode changeover switch 106 is moved between the first position and the second position.
  • the instruction receiving unit 120 receives a setting instruction for the low delay mode, and when it is moved from the second position to the first position, the instruction receiving unit 120 issues a setting instruction for the normal mode. Accept.
  • the buffer control unit 122 sets the buffer size of the jitter buffer 128 to M (words).
  • the buffer control unit 122 sets the buffer size of the jitter buffer 128 to N (word) (N ⁇ M).
  • the buffer control unit 122 reduces the buffer size of the jitter buffer 128 as compared to the normal mode.
  • FIG. 7 shows the buffer size of the jitter buffer 128 adjusted by the buffer control unit 122.
  • the buffer size is set to M words, and in the low delay mode, the buffer size is set to N words.
  • voice packets for a predetermined time voice packets for L words in the illustrated example
  • It is output to the decoding unit 130 (L ⁇ N). Therefore, by reducing the buffer size of the jitter buffer 128 in the low delay mode, the time required for the (MN) words of voice packets to be accumulated in the jitter buffer 128 can be omitted as compared with the normal mode. Sound can be output with low delay.
  • N / M By setting the value of N / M to 1/4 or less, for example, it is possible to effectively realize a low-delay audio output compared to the normal mode.
  • the buffer control unit 122 may adjust the timing at which the media buffer 126 sends an audio packet to the jitter buffer 128 according to the audio output mode instructed by the instruction receiving unit 120.
  • the buffer control unit 122 sets the period at which the media buffer 126 sends the audio packet to the jitter buffer 128 to T1.
  • the buffer control unit 122 sets the period at which the media buffer 126 sends the audio packet to the jitter buffer 128 to T2 (T2 ⁇ T1).
  • T2 ⁇ T1 the buffer control unit 122 sets the transmission period of the voice packet by the media buffer 126 to be shorter than that in the normal mode.
  • the transmission period of the voice packet by the media buffer 126 is shortened in the low delay mode, the speed at which the voice packet is accumulated in the jitter buffer 128 is increased. Therefore, compared to the normal mode, the timing at which the accumulated amount of audio packets reaches the buffer size in the jitter buffer 128 is advanced, and therefore the timing at which the audio packets are output from the jitter buffer 128 to the audio decoding unit 130 can be advanced. It is possible to output sound with low delay.
  • the buffer control unit 122 may adjust the MTU according to the audio output mode instructed to be set by the instruction receiving unit 120.
  • the buffer control unit 122 sets MTU to X (bytes).
  • the buffer control unit 122 sets MTU to Y (bytes) (Y ⁇ X). In the low delay mode, the buffer control unit 122 sets the MTU smaller than that in the normal mode.
  • the arrival timing of the voice packet transmitted from the information processing apparatus 10 to the voice output terminal apparatus 100 is advanced. Therefore, compared with the normal mode, the timing for accumulating voice packets in the jitter buffer 128 is advanced, and therefore the timing for outputting the voice packets from the jitter buffer 128 to the voice decoding unit 130 can also be advanced, and voice can be transmitted with low delay. It becomes possible to output.
  • MTU information is transmitted and received between the information processing apparatus 10 and the audio output terminal apparatus 100 at the time of calling.
  • the buffer control unit 122 executes the setting of the buffer size of the jitter buffer 128, the setting of the voice packet transmission period of the media buffer 126, and the setting of the MTU in the low delay mode. All three settings are preferably performed in order to achieve low-delay audio output, but any one or only two may be performed. Even when all three are not executed, the setting of the buffer size of the jitter buffer 128 is preferably executed. Also, when the buffer size of the jitter buffer 128 is reduced, the audio output with low delay can be realized more effectively by shortening the audio packet transmission period of the media buffer 126. Since the setting of the buffer size of the jitter buffer 128 and the setting of the voice packet transmission period of the media buffer 126 can be performed simultaneously without resetting the communication link, these may be performed together.
  • the information processing apparatus 10 executes a game application.
  • the information processing apparatus 10 according to the present embodiment is effective for an application in which an image and sound are linked, for example, an application that reproduces video content such as a movie, or the like that is highly requested to output an image and sound in synchronization. Applicable.
  • the buffer size of the jitter buffer 128 is set to N words in the low delay mode, but the buffer control unit 122 may change the buffer size based on N words according to the communication environment. . Especially when the communication environment is bad, by setting the buffer size within the range of N words to 2N words, it is possible to realize low delay of audio output compared to the normal mode while absorbing jitter. It becomes.
  • DESCRIPTION OF SYMBOLS 1 ... Information processing system, 10 ... Information processing apparatus, 40 ... Operation input reception part, 42 ... Application processing part, 44 ... Image signal processing part, 46 ... Audio
  • the present invention can be used for audio output technology.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Communication Control (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Telephone Function (AREA)

Abstract

 音声出力端末装置100において、バッファ制御部122は、指示受付部120において設定指示された音声出力モードに応じて、ジッタバッファ128のバッファサイズを調節する。指示受付部120が、音声出力の低遅延を要求する音声出力モードの設定指示を受け付けると、バッファ制御部122が、ジッタバッファ128のバッファサイズを縮小する。またバッファ制御部122は、設定指示された音声出力モードに応じて、メディアバッファがジッタバッファ128に音声パケットを送出するタイミングを制御する。

Description

端末装置、音声出力方法および情報処理システム
 本発明は、端末装置に関し、特に音声パケットを受信して音声出力する端末装置、および音声出力端末装置を備えたシステムに関する。
 Bluetooth(登録商標)プロトコルを利用した近距離ワイヤレス通信システムが開発され、実用化されている。このような近距離ワイヤレス通信システムでは、パーソナルコンピュータやプリンタ、デジタルカメラなどの電子機器間をケーブルを使用せずに接続できる。近年では、Bluetoothプロトコルを利用したヘッドセットも開発されている。ワイヤレスヘッドセットは、音源との間をつなぐケーブルを不要とするため、たとえばユーザが音楽を聴くような場合に、ケーブルが絡まるなどの煩わしさから解放される利点がある。
特開2003-309541号公報
 携帯型のゲーム装置が普及し、ユーザは、電車内や屋外など、様々な環境下でゲームを楽しむことができるようになっている。ゲーム音声を聴くためにワイヤレスヘッドセットを用いる場合、ヘッドセットを経由して出力されるゲーム音声は、ゲーム装置のディスプレイに表示されるゲーム画像に対して必然的に遅れを生じる。アクション系ゲームやリズム系ゲームなどのゲームは、進行が早く、ゲーム画像に対してゲーム音声が大きく遅れることは好ましくない。一方で、RPG系ゲームなどは、ゲームの進行が比較的緩やかであり、ゲーム画像に対するゲーム音声の遅れに対する要求は、それほどシビアではない。また、音楽再生のアプリケーションのように、音声と画像との同期が求められない場合には、画像に対する音声の遅れは許容されることが多い。
 そこで本発明は、無線送信された音声パケットが送信されてから音声出力されるまでの時間を、必要に応じて調整する技術を提供することを目的とする。
 上記課題を解決するために、本発明のある態様の端末装置は、音声パケットを受信する受信部と、受信した音声パケットを一時的に蓄積するジッタバッファと、ジッタバッファのバッファサイズを調節するバッファ制御部と、ジッタバッファから出力される音声パケットを復号する音声復号部と、音声出力モードの設定指示を受け付ける指示受付部と、を備える。バッファ制御部は、指示受付部において設定指示された音声出力モードに応じて、ジッタバッファのバッファサイズを調節する。
 本発明の別の態様は、音声出力方法である。この音声出力方法は、音声出力モードの設定指示を受け付けるステップと、設定指示された音声出力モードに応じて、音声パケットを一時的に蓄積するジッタバッファのバッファサイズを調節するステップと、音声パケットを受信するステップと、受信した音声パケットを、バッファサイズを調節されたジッタバッファに供給するステップと、ジッタバッファから出力される音声パケットを復号するステップとを備える。
 本発明の別の態様は、情報処理システムである。この情報処理システムは、ディスプレイに画像を出力する情報処理装置と、情報処理装置から無線送信される音声パケットを受信して音声を出力する音声出力端末装置とを備える。情報処理装置は、画像信号および音声信号を生成するアプリケーション処理部と、生成された画像信号を処理して、ディスプレイから画像を出力させる画像信号処理部と、生成された音声信号を処理して、音声パケットを生成する音声信号処理部と、音声パケットを送信する送信部とを備える。音声出力端末装置は、音声パケットを受信する受信部と、受信した音声パケットを一時的に蓄積するジッタバッファと、ジッタバッファのバッファサイズを調節するバッファ制御部と、ジッタバッファから出力される音声パケットを復号する音声復号部と、音声出力モードの設定指示を受け付ける指示受付部と、を備える。バッファ制御部は、指示受付部において設定指示された音声出力モードに応じて、ジッタバッファのバッファサイズを調節する。
 なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。
本発明の実施例にかかる情報処理システムを示す図である。 Bluetoothの状態遷移図である。 本実施例に係る情報処理装置の外観構成を示す図である。 情報処理装置の機能ブロックを示す図である。 本実施例に係る音声出力端末装置の外観構成を示す図である。 音声出力端末装置の機能ブロックを示す図である。 バッファ制御部により調節されるジッタバッファのバッファサイズを示す図である。
 図1は、本発明の実施例にかかる情報処理システム1を示す。情報処理システム1は、アプリケーションを実行する情報処理装置10と、情報処理装置10から無線送信される音声パケットを受信して音声を出力する音声出力端末装置100とを備える。
 情報処理装置10は、アプリケーションを実行して、画像信号および音声信号を生成する。たとえば情報処理装置10は、ゲームアプリケーションを実行し、ゲーム画像信号とゲーム音声信号を生成してもよい。情報処理装置10はディスプレイを有し、画像信号を処理してディスプレイから画像出力させる。一方、情報処理装置10は、音声信号を音声パケットに変換して、音声出力端末装置100に無線送信する。音声出力端末装置100は、たとえばワイヤレスヘッドセットであってよく、受信した音声パケットを復号して、音声出力する。情報処理装置10と音声出力端末装置100とは、たとえばBluetoothプロトコルを用いて無線接続される。
 図2は、Bluetoothの状態遷移図を示す。図示のように、Bluetooth端末の状態は、待ち受けフェーズ、同期確立フェーズ、通信接続フェーズに分けることができる。
 情報処理装置10および音声出力端末装置100の電源投入直後や通信リンクを切断した場合、情報処理装置10および音声出力端末装置100は「待ち受け」状態に入る。「待ち受け」状態では、データの送受信は行われない。同期確立フェーズにおいては、情報処理装置10が、周辺の音声出力端末装置100を含む端末機器に対して接続照会すなわち「問い合わせ」を行う状態と、情報処理装置10および音声出力端末装置100がそれぞれ互いを認識して「呼び出し」を行う状態とがある。「問い合わせ」状態では、情報処理装置10が、近くにいる端末機器に対してIQ(問い合わせ)パケットをブロードキャストする。IQパケットを受信した音声出力端末装置100は、Bluetoothアドレスとクロック情報を含むFHS(Frequency Hop Synchronization)パケットを情報処理装置10に返信する。
 たとえば情報処理装置10が音声出力端末装置100を呼び出す場合、情報処理装置10は音声出力端末装置100からFHSパケットを受け取り、どのような音声出力端末装置100が存在するかを把握した後、特定の音声出力端末装置100に対してIDパケットを送信する。特定の音声出力端末装置100からIDパケットに対する応答が返ると、情報処理装置10はFHSパケットを音声出力端末装置100に送信し、自分のアドレスとクロックを音声出力端末装置100に知らせる。これにより、情報処理装置10と音声出力端末装置100は、同一のホッピングパターンを共有できるようになる。なお、音声出力端末装置100が情報処理装置10を呼び出す場合は、以上の処理における動作主体が入れ替わる。
 「呼び出し」を行うと、音声出力端末装置100と情報処理装置10との間にピコネットが形成され、「接続」状態に入る。ピコネットとは、Bluetooth端末同士を近づけたときに、端末の間で一時的に形成されるネットワークを意味し、最大で8台のBluetooth端末が1つのピコネットに参加することができる。1つのピコネットにおいて、呼び出しを行った装置は親機(マスタ)として機能し、最大7台の子機(スレーブ)と接続することが可能である。「接続」状態になると、通信リンク設定のための制御パケットが送受信され、これにより「データ転送」が可能となる。なお情報処理システム1において、音声出力端末装置100が呼び出しを行ってマスタとなる場合、音声出力端末装置100と情報処理装置10との間でマスタとスレーブの役割をスイッチする。このスイッチにより、情報処理装置10がマスタとなり、音声出力端末装置100がスレーブとなる。
 図3は、本実施例に係る情報処理装置10の外観構成を示す。情報処理装置10は、スライド可能に連結された上側筐体20および下側筐体30を備える。図3には、下側筐体30を上側筐体20に対してスライドして、下側筐体30の前面に設けられた操作キーが外部に露出する開状態となった情報処理装置10が示される。
 上側筐体20の前面にはディスプレイ23が設けられる。下側筐体30の前面には、方向キー31a、31b、31c、31d(以下、総称する場合には「方向キー31」と呼ぶ)、アナログパッド32、マイク33、スタートボタン34、セレクトボタン35、操作ボタン36a、36b、36c、36d(以下、総称する場合には「操作ボタン36」と呼ぶ)が設けられる。
 情報処理装置10は携帯型ゲーム機であってよい。ユーザは、情報処理装置10を開状態にして、ゲームアプリケーションを実行する。ユーザは、情報処理装置10を把持しながら方向キー31や操作ボタン36などを操作して、ゲームを楽しむことができる。ディスプレイ23にはゲーム画像が表示され、ゲーム音声は、Bluetoothプロトコルで接続された音声出力端末装置100に送信される。
 図4は、情報処理装置10の機能ブロックを示す。情報処理装置10は、操作入力受付部40、アプリケーション処理部42、画像信号処理部44、音声信号処理部46および通信部48を備える。操作入力受付部40は、ユーザによる方向キー31や操作ボタン36の操作入力を受け付ける。アプリケーション処理部42は、ゲームアプリケーションを実行し、ユーザからの操作入力を反映して、ゲームを進行させて、ゲームの画像信号および音声信号を生成する。この画像信号および音声信号は、本来は同期して、それぞれゲーム画像、ゲーム音声として出力されるべきものである。
 画像信号は画像信号処理部44に供給され、画像信号処理部44は、画像信号を処理して、ディスプレイ23から画像を出力させる。音声信号は音声信号処理部46に供給され、音声信号処理部46は、音声信号を処理して、音声パケットを生成する。音声信号処理部46は、MTU(Maximum Transmission Unit)にしたがって、音声パケットのサイズを定める。ここでMTUは、通信部48が1回のデータ転送で送信できるパケットデータの最大値を示す値である。情報処理装置10と音声出力端末装置100との間に形成されるピコネットにおいて、音声出力端末装置100のMTUが、情報処理装置10のMTUよりも小さければ、音声信号処理部46は、音声出力端末装置100のMTUに合わせて音声パケットのサイズを決定する。通信部48は、音声信号処理部46により生成された音声パケットを、音声出力端末装置100に送信する。
 図5は、本実施例に係る音声出力端末装置100の外観構成を示す。図5(a)は、音声出力端末装置100の正面図であり、図5(b)は、音声出力端末装置100の右側面図であり、図5(c)は、音声出力端末装置100の上面図である。音声出力端末装置100は、操作スイッチ102、電源ボタン104、モード切替スイッチ106、USB(Universal Serial Bus)ジャック108およびヘッドホン端子110を備える。操作スイッチ102は、ユーザにより操作されて、ゲーム音声の音量を調整するために利用される。モード切替スイッチ106は、ユーザにより操作されて、音声出力モードの設定を指示するために利用される。USBジャック108は、音声出力端末装置100を充電するために設けられ、PCに接続するUSBケーブルのコネクタを差し込まれることで、音声出力端末装置100が充電される。ヘッドホン端子110には、ヘッドホンのコネクタが差し込まれる。
 本実施例においてユーザは、モード切替スイッチ106を操作して、ノーマルモードと低遅延モードのいずれかを設定する。ノーマルモードは、通常の音声出力モードであり、低遅延モードは、ノーマルモードに比して、音声出力の低遅延を要求する音声出力モードである。低遅延モードには、音声出力の低遅延が実現され、出力画像に対する出力音声の遅延が低減される利点があり、一方、ノーマルモードには、低遅延モードに比して、音切れの可能性が低減される、または省電力効果が高いなどの利点がある。ユーザは、実行するアプリケーションに応じて、音声出力モードを設定する。
 図6は、音声出力端末装置100の機能ブロックを示す。音声出力端末装置100は、指示受付部120、バッファ制御部122、通信部124、メディアバッファ126、ジッタバッファ128、音声復号部130およびスピーカ132を備える。音声出力端末装置100の機能は、CPU、メモリ、メモリにロードされたプログラムなどによって実現され、ここではそれらの連携によって実現される機能ブロックを描いている。したがってこれらの機能ブロックがハードウエアのみ、ソフトウエアのみ、またはそれらの組合せによっていろいろな形で実現できることは、当業者に理解されるところである。
 パケット通信システムにおいては、パケット転送にかかる遅延時間が変動するため、リアルタイム通信では、転送遅延の揺らぎ(ジッタ)が、通信品質に大きな影響をおよぼす。ジッタへの対策として、音声パケットの受信端末には、ジッタを吸収するためのバッファ(ジッタバッファ)が設けられる。受信端末では、ジッタバッファに予め定めたバッファサイズ分の音声パケットが蓄積されると、ジッタバッファから、所定時間分の音声パケットが音声復号部に読み出されて、音声再生が行われる。本実施例の音声出力端末装置100も、情報処理装置10から音声パケットをリアルタイム送信されるため、ジッタを吸収するためのジッタバッファ128を備えて構成されている。ジッタバッファ128は、FIFO形式のメモリである。
 通信部124は、情報処理装置10から送信される音声パケットを受信する。ジッタバッファ128は、音声パケットを一時的に蓄積する。通信部124とジッタバッファ128の間には、通信部124で受信した音声パケットを一時的に蓄積して、ジッタバッファ128に送出するメディアバッファ126が設けられる。バッファ制御部122は、メディアバッファ126およびジッタバッファ128を管理し、それぞれの動作を制御する。音声復号部130は、ジッタバッファ128から出力される所定時間分の音声パケットを復号し、スピーカ132が音声を出力する。
 メディアバッファ126は、通信部124で受信した音声パケットを、定められた周期でジッタバッファ128に送出する。これによりジッタバッファ128におけるバッファリング処理を容易にし、バッファサイズを音声パケットの出力閾値とする制御を可能としている。メディアバッファ126は、ジッタバッファ128に音声パケットを周期的に送出する目的で設けられるため、多くの音声パケットを一時蓄積する必要はない。そのため、メディアバッファ126のサイズは、ジッタバッファ128のサイズよりも小さい。バッファ制御部122は、メディアバッファ126がジッタバッファ128に音声パケットを送出するタイミングを制御し、具体的にはメディアバッファ126がジッタバッファ128に音声パケットを送出する周期を設定する。
 本実施例の音声出力端末装置100では、メディアバッファ126から送出された音声パケットの蓄積量が、ジッタバッファ128のバッファサイズに到達すると、ジッタバッファ128から音声復号部130に所定時間分の音声パケットが出力される。このようにジッタバッファ128のバッファサイズは、音声パケットを復号するタイミングに影響を与える。したがって、バッファサイズを小さくすることで、音声再生にかかる遅延を低減できることになる。そこでバッファ制御部122は、ユーザより指示された音声出力モードに応じて、ジッタバッファ128のバッファサイズを調節する。
 ユーザがモード切替スイッチ106を動かすと、指示受付部120が、モード切替スイッチ106の動きを、音声出力モードの設定指示として受け付ける。モード切替スイッチ106は、第1位置と第2位置との間で動かされる。モード切替スイッチ106が第1位置から第2位置に動かされると、指示受付部120が、低遅延モードの設定指示を受け付け、第2位置から第1位置に動かされると、ノーマルモードの設定指示を受け付ける。
 指示受付部120がノーマルモードの設定指示を受け付けると、バッファ制御部122は、ジッタバッファ128のバッファサイズをM(ワード)とする。一方、指示受付部120が低遅延モードの設定指示を受け付けると、バッファ制御部122は、ジッタバッファ128のバッファサイズをN(ワード)(N<M)とする。低遅延モードにおいて、バッファ制御部122は、ノーマルモードのときと比べて、ジッタバッファ128のバッファサイズを縮小する。
 図7は、バッファ制御部122により調節されるジッタバッファ128のバッファサイズを示す。ノーマルモードにおいては、バッファサイズがMワードに設定され、低遅延モードにおいては、バッファサイズがNワードに設定される。本実施例の音声出力端末装置100では、音声パケットの蓄積量がバッファサイズで特定されるデータ量に到達すると、所定時間分の音声パケット(図示の例ではLワード分の音声パケット)が、音声復号部130に出力される(L≦N)。したがって、低遅延モードにおいて、ジッタバッファ128のバッファサイズを縮小することで、ノーマルモードと比較すると、(M-N)ワード分の音声パケットがジッタバッファ128に蓄積するのに要する時間を省略でき、低遅延で音声を出力することが可能となる。N/Mの値を、たとえば1/4以下に設定することで、ノーマルモードに比して、効果的に低遅延の音声出力を実現できる。
 バッファ制御部122は、指示受付部120において設定指示された音声出力モードに応じて、メディアバッファ126がジッタバッファ128に音声パケットを送出するタイミングを調節してもよい。指示受付部120がノーマルモードの設定指示を受け付けると、バッファ制御部122は、メディアバッファ126がジッタバッファ128に音声パケットを送出する周期をT1に設定する。一方、指示受付部120が低遅延モードの設定指示を受け付けると、バッファ制御部122は、メディアバッファ126がジッタバッファ128に音声パケットを送出する周期をT2(T2<T1)に設定する。低遅延モードにおいて、バッファ制御部122は、ノーマルモードのときと比べて、メディアバッファ126による音声パケットの送出周期を短く設定する。
 低遅延モードにおいてメディアバッファ126による音声パケットの送出周期を短くすると、ジッタバッファ128に音声パケットが蓄積される速度があがる。したがって、ノーマルモードのときと比べて、ジッタバッファ128において、音声パケットの蓄積量がバッファサイズに到達するタイミングが早まり、したがってジッタバッファ128から音声パケットを音声復号部130に出力するタイミングも早めることができ、低遅延で音声を出力することが可能となる。
 またバッファ制御部122は、指示受付部120において設定指示された音声出力モードに応じて、MTUを調整してもよい。指示受付部120がノーマルモードの設定指示を受け付けると、バッファ制御部122は、MTUをX(バイト)に設定する。一方、指示受付部120が低遅延モードの設定指示を受け付けると、バッファ制御部122は、MTUをY(バイト)(Y<X)に設定する。低遅延モードにおいて、バッファ制御部122は、ノーマルモードのときと比べて、MTUを小さく設定する。
 低遅延モードにおいてMTUを小さく設定すると、情報処理装置10から音声出力端末装置100に送信した音声パケットの到達タイミングが早くなる。したがって、ノーマルモードのときと比べて、ジッタバッファ128に音声パケットを蓄積するタイミングが早まり、したがってジッタバッファ128から音声パケットを音声復号部130に出力するタイミングも早めることができ、低遅延で音声を出力することが可能となる。
 なお、MTUを変更すると、情報処理装置10と音声出力端末装置100との間の通信リンクを再設定する必要がある。そこで、MTUを変更した場合には、一旦通信リンクを切断し、新たなMTUを用いて、情報処理装置10と音声出力端末装置100との間の通信リンクを設定しなおす。MTUの情報は、情報処理装置10と音声出力端末装置100との間で、呼び出し時に送受信される。
 以上、低遅延モードにおいて、バッファ制御部122が、ジッタバッファ128のバッファサイズの設定、メディアバッファ126の音声パケット送出周期の設定、MTUの設定、を実行することを説明した。低遅延の音声出力を実現するために、これら3つの設定の全てが実行されることが好ましいが、いずれか1つ、またはいずれか2つのみが実行されてもよい。なお、3つの全てが実行されない場合であっても、ジッタバッファ128のバッファサイズの設定は実行されることが好ましい。また、ジッタバッファ128のバッファサイズを小さくしたときには、メディアバッファ126の音声パケット送出周期を短くすることで、低遅延の音声出力を、より効果的に実現できる。ジッタバッファ128のバッファサイズの設定、メディアバッファ126の音声パケット送出周期の設定については、通信リンクの再設定をすることなく、同時に実行できるため、これらは合わせて実行されるようにしてもよい。
 以上、本発明を実施例をもとに説明した。この実施例は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
 実施例では情報処理装置10が、ゲームアプリケーションを実行した。その他、画像と音声とが連動するアプリケーション、たとえば映画などの映像コンテンツを再生するアプリケーションなど、画像と音声とを同期して出力する要請が高いものについては、本実施例の情報処理装置10を効果的に適用できる。
 また実施例では、低遅延モードにおいて、ジッタバッファ128のバッファサイズをNワードに設定したが、バッファ制御部122は、通信環境に応じて、Nワードを基準として、バッファサイズを変動させてもよい。特に、通信環境が悪い場合には、バッファサイズをNワード~2Nワードの範囲内に設定することで、ジッタを吸収しつつ、ノーマルモードに比して音声出力の低遅延を実現することが可能となる。
1・・・情報処理システム、10・・・情報処理装置、40・・・操作入力受付部、42・・・アプリケーション処理部、44・・・画像信号処理部、46・・・音声信号処理部、48・・・通信部、100・・・音声出力端末装置、102・・・操作スイッチ、104・・・電源ボタン、106・・・モード切替スイッチ、108・・・USBジャック、110・・・ヘッドホン端子、120・・・指示受付部、122・・・バッファ制御部、124・・・通信部、126・・・メディアバッファ、128・・・ジッタバッファ、130・・・音声復号部、132・・・スピーカ。
 本発明は、音声出力技術に利用できる。

Claims (9)

  1.  音声パケットを受信する受信部と、
     受信した音声パケットを一時的に蓄積するジッタバッファと、
     前記ジッタバッファのバッファサイズを調節するバッファ制御部と、
     ジッタバッファから出力される音声パケットを復号する音声復号部と、
     音声出力モードの設定指示を受け付ける指示受付部と、を備え、
     前記バッファ制御部は、前記指示受付部において設定指示された音声出力モードに応じて、前記ジッタバッファのバッファサイズを調節することを特徴とする端末装置。
  2.  前記指示受付部が、音声出力の低遅延を要求する音声出力モードの設定指示を受け付けると、前記バッファ制御部が、前記ジッタバッファのバッファサイズを縮小することを特徴とする請求項1に記載の端末装置。
  3.  前記受信部と前記ジッタバッファの間において、前記受信部で受信した音声パケットを一時的に蓄積して、前記ジッタバッファに送出するメディアバッファをさらに備え、
     前記バッファ制御部は、前記指示受付部において設定指示された音声出力モードに応じて、前記メディアバッファが前記ジッタバッファに音声パケットを送出するタイミングを制御することを特徴とする請求項1または2に記載の端末装置。
  4.  前記指示受付部が、音声出力の低遅延を要求する音声出力モードの設定指示を受け付けると、前記バッファ制御部が、前記メディアバッファが前記ジッタバッファに音声パケットを送出する周期を短くすることを特徴とする請求項3に記載の端末装置。
  5.  前記指示受付部が、音声出力の低遅延を要求する音声出力モードの設定指示を受け付けると、1回のデータ転送で送信できるパケットデータの最大値(MTU)を小さくすることを特徴とする請求項1から4のいずれかに記載の端末装置。
  6.  音声出力モードの設定指示を受け付けるステップと、
     設定指示された音声出力モードに応じて、音声パケットを一時的に蓄積するジッタバッファのバッファサイズを調節するステップと、
     音声パケットを受信するステップと、
     受信した音声パケットを、バッファサイズを調節されたジッタバッファに供給するステップと、
     ジッタバッファから出力される音声パケットを復号するステップと、
     を備えることを特徴とする音声出力方法。
  7.  コンピュータに、
     音声出力モードの設定指示を受け付ける機能と、
     設定指示された音声出力モードに応じて、音声パケットを一時的に蓄積するジッタバッファのバッファサイズを調節する機能と、
     音声パケットを受信する機能と、
     受信した音声パケットを、バッファサイズを調節されたジッタバッファに供給する機能と、
     ジッタバッファから出力される音声パケットを復号する機能と、
     を実現させるためのプログラム。
  8.  請求項7に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
  9.  ディスプレイに画像を出力する情報処理装置と、情報処理装置から無線送信される音声パケットを受信して音声を出力する音声出力端末装置とを備えた情報処理システムであって、
     前記情報処理装置は、
     画像信号および音声信号を生成するアプリケーション処理部と、
     生成された画像信号を処理して、ディスプレイから画像を出力させる画像信号処理部と、
     生成された音声信号を処理して、音声パケットを生成する音声信号処理部と、
     音声パケットを送信する送信部と、を備え、
     前記音声出力端末装置は、
     音声パケットを受信する受信部と、
     受信した音声パケットを一時的に蓄積するジッタバッファと、
     前記ジッタバッファのバッファサイズを調節するバッファ制御部と、
     ジッタバッファから出力される音声パケットを復号する音声復号部と、
     音声出力モードの設定指示を受け付ける指示受付部と、を備え、
     前記バッファ制御部は、前記指示受付部において設定指示された音声出力モードに応じて、前記ジッタバッファのバッファサイズを調節する
     ことを特徴とする情報処理システム。
PCT/JP2010/005670 2009-09-18 2010-09-16 端末装置、音声出力方法および情報処理システム WO2011033780A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201080043672.0A CN102648606B (zh) 2009-09-18 2010-09-16 终端装置、声音输出方法以及信息处理系统
US13/496,504 US8949115B2 (en) 2009-09-18 2010-09-16 Terminal device, audio output method, and information processing system
EP10816894.9A EP2472804B1 (en) 2009-09-18 2010-09-16 Terminal device, sound output method, and information processing system

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009217883A JP5443918B2 (ja) 2009-09-18 2009-09-18 端末装置、音声出力方法および情報処理システム
JP2009-217883 2009-09-18

Publications (1)

Publication Number Publication Date
WO2011033780A1 true WO2011033780A1 (ja) 2011-03-24

Family

ID=43758394

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/005670 WO2011033780A1 (ja) 2009-09-18 2010-09-16 端末装置、音声出力方法および情報処理システム

Country Status (5)

Country Link
US (1) US8949115B2 (ja)
EP (1) EP2472804B1 (ja)
JP (1) JP5443918B2 (ja)
CN (1) CN102648606B (ja)
WO (1) WO2011033780A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013222407A (ja) * 2012-04-18 2013-10-28 Bank Of Tokyo-Mitsubishi Ufj Ltd 流量制御機能を有するシステム
CN109219944A (zh) * 2016-06-24 2019-01-15 华为技术有限公司 用于减小分组网络中mtu大小的系统和方法

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105099949A (zh) * 2014-04-16 2015-11-25 杜比实验室特许公司 基于对延迟抖动和对话动态的监视的抖动缓冲器控制
US10449440B2 (en) 2017-06-30 2019-10-22 Electronic Arts Inc. Interactive voice-controlled companion application for a video game
KR102506494B1 (ko) * 2017-07-21 2023-03-07 소니그룹주식회사 송신 장치, 송신 방법, 수신 장치, 수신 방법, 및 프로그램
US10621317B1 (en) * 2017-09-14 2020-04-14 Electronic Arts Inc. Audio-based device authentication system
CN109062537B (zh) * 2018-08-30 2021-07-30 倪兴炜 一种音频延迟的降低方法、装置、介质及设备
CN110113270B (zh) * 2019-04-11 2021-04-23 北京达佳互联信息技术有限公司 网络通信的抖动控制方法、装置、终端及存储介质
CN111432304B (zh) * 2020-03-20 2022-06-17 江苏紫米电子技术有限公司 耳机的控制方法、装置、电子设备、系统和存储介质
JP7548935B2 (ja) * 2020-10-12 2024-09-10 株式会社デンソーテン 音声信号処理装置及び音声信号処理方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002535885A (ja) * 1999-01-14 2002-10-22 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 適応ジッタバッファリング
JP2003124967A (ja) * 2001-10-15 2003-04-25 Hitachi Communication Technologies Ltd 中継装置、その制御プログラム、通信方法
JP2003309541A (ja) 2002-04-15 2003-10-31 Sony Corp データ転送システム、データ転送装置及びデータ転送方法、並びにコンピュータ・プログラム
JP2004048343A (ja) * 2002-07-11 2004-02-12 Hitachi Communication Technologies Ltd 音声パケット受信装置、その動作プログラム、及び音声パケットの揺らぎ吸収方法
JP2006135793A (ja) * 2004-11-08 2006-05-25 Canon Inc データ配信装置及びその制御方法、プログラム
JP2007194991A (ja) * 2006-01-20 2007-08-02 Matsushita Electric Ind Co Ltd パケット通信装置及びパケット通信方法
JP2009089157A (ja) * 2007-10-01 2009-04-23 Yamaha Corp 配信システムおよび配信方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020101885A1 (en) * 1999-03-15 2002-08-01 Vladimir Pogrebinsky Jitter buffer and methods for control of same
JP3556140B2 (ja) * 1999-11-29 2004-08-18 沖電気工業株式会社 遅延ゆらぎ吸収装置
US6862298B1 (en) * 2000-07-28 2005-03-01 Crystalvoice Communications, Inc. Adaptive jitter buffer for internet telephony
JP2002077233A (ja) 2000-08-25 2002-03-15 Matsushita Electric Ind Co Ltd リアルタイム情報受信装置
AU2003293983A1 (en) * 2003-12-23 2005-07-21 Telefonaktiebolaget Lm Ericsson (Publ) Method and device for controlling a queue buffer
AU2005234096A1 (en) * 2004-04-16 2005-10-27 Apparent Networks, Inc. Method and apparatus for automating and scaling active probing-based IP network performance monitoring and diagnosis
US8095228B2 (en) 2004-05-27 2012-01-10 Canon Kabushiki Kaisha Data distribution apparatus, its control method, program, and storage medium
WO2008051181A1 (en) * 2006-07-21 2008-05-02 Vidyo, Inc. System and method for jitter buffer reduction in scalable coding
US20070263672A1 (en) * 2006-05-09 2007-11-15 Nokia Corporation Adaptive jitter management control in decoder
US7680099B2 (en) * 2006-08-22 2010-03-16 Nokia Corporation Jitter buffer adjustment
CN101175104B (zh) 2006-10-31 2010-04-21 华为技术有限公司 一种抖动缓存装置和抖动缓存管理方法
CN101119323A (zh) 2007-09-21 2008-02-06 腾讯科技(深圳)有限公司 解决网络抖动的方法及装置
WO2009113926A1 (en) * 2008-03-13 2009-09-17 Telefonaktiebolaget Lm Ericsson (Publ) Method for manually optimizing jitter, delay and synch levels in audio-video transmission

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002535885A (ja) * 1999-01-14 2002-10-22 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 適応ジッタバッファリング
JP2003124967A (ja) * 2001-10-15 2003-04-25 Hitachi Communication Technologies Ltd 中継装置、その制御プログラム、通信方法
JP2003309541A (ja) 2002-04-15 2003-10-31 Sony Corp データ転送システム、データ転送装置及びデータ転送方法、並びにコンピュータ・プログラム
JP2004048343A (ja) * 2002-07-11 2004-02-12 Hitachi Communication Technologies Ltd 音声パケット受信装置、その動作プログラム、及び音声パケットの揺らぎ吸収方法
JP2006135793A (ja) * 2004-11-08 2006-05-25 Canon Inc データ配信装置及びその制御方法、プログラム
JP2007194991A (ja) * 2006-01-20 2007-08-02 Matsushita Electric Ind Co Ltd パケット通信装置及びパケット通信方法
JP2009089157A (ja) * 2007-10-01 2009-04-23 Yamaha Corp 配信システムおよび配信方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013222407A (ja) * 2012-04-18 2013-10-28 Bank Of Tokyo-Mitsubishi Ufj Ltd 流量制御機能を有するシステム
CN109219944A (zh) * 2016-06-24 2019-01-15 华为技术有限公司 用于减小分组网络中mtu大小的系统和方法
CN109219944B (zh) * 2016-06-24 2020-08-14 华为技术有限公司 用于减小分组网络中mtu大小的系统和方法

Also Published As

Publication number Publication date
US20120245929A1 (en) 2012-09-27
JP2011066842A (ja) 2011-03-31
CN102648606A (zh) 2012-08-22
EP2472804B1 (en) 2018-11-14
JP5443918B2 (ja) 2014-03-19
US8949115B2 (en) 2015-02-03
CN102648606B (zh) 2015-06-24
EP2472804A4 (en) 2015-12-30
EP2472804A1 (en) 2012-07-04

Similar Documents

Publication Publication Date Title
JP5443918B2 (ja) 端末装置、音声出力方法および情報処理システム
JP7174776B2 (ja) 2段階のロールスイッチ
EP1176783B1 (en) Method for transmitting stream data between a slave and a master within a short-range mobile system
CN109089330B (zh) 一种音频数据传输方法及终端
JP4459253B2 (ja) 通信端末
CN103905880A (zh) 音视频数据的播放方法、智能电视和移动设备
CN110650405A (zh) 无线耳机控制系统、方法、装置及存储介质
WO2024021736A1 (zh) 蓝牙多媒体包的传输方法、装置、设备和系统
TW202232925A (zh) 可避免聲音中斷的藍牙通信系統及相關的藍牙主控裝置與藍牙設備群
CN110149620B (zh) 一种智能耳机的控制方法、装置,智能耳机及存储介质
JP2020120366A (ja) オーディオ装置の制御方法及び制御回路
JP2010004485A (ja) リモコン制御方法、装置及びリモコン制御システム
WO2010069048A1 (en) Handheld electronic device and docking station wireless system
WO2024119947A1 (zh) 蓝牙通信方法、装置、电子设备及计算机可读介质
CN113840269A (zh) 一种多媒体数据传输方法、装置、电子设备和存储介质
WO2024021735A1 (zh) 蓝牙多媒体包的传输方法、装置、设备、系统和存储介质
CN112020043A (zh) 蓝牙装置与其操作方法及非瞬时计算机可读记录介质
CN114885261A (zh) 耳机组件、无线音频播放系统及其通信方法
KR20230117572A (ko) 멀티미디어 재생 동기화
TWI700953B (zh) 一種無線傳輸系統及其方法
WO2024001362A9 (zh) 显示设备、蓝牙设备和数据处理方法
CN213754842U (zh) 一种基于5g信号传输的音频系统
KR100692489B1 (ko) 홈 엔터테인먼트 도킹시스템 및 서비스 제공 방법
JP2008166979A (ja) ネットワークシステムおよびそれに向けられた無線通信端末
TWI569598B (zh) 藍牙發聲裝置的動態調整方法

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201080043672.0

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10816894

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2010816894

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 13496504

Country of ref document: US