WO2023218600A1 - 通話品質評価装置、通話品質評価方法、プログラム - Google Patents

通話品質評価装置、通話品質評価方法、プログラム Download PDF

Info

Publication number
WO2023218600A1
WO2023218600A1 PCT/JP2022/020056 JP2022020056W WO2023218600A1 WO 2023218600 A1 WO2023218600 A1 WO 2023218600A1 JP 2022020056 W JP2022020056 W JP 2022020056W WO 2023218600 A1 WO2023218600 A1 WO 2023218600A1
Authority
WO
WIPO (PCT)
Prior art keywords
value
evaluation
sound
call quality
test
Prior art date
Application number
PCT/JP2022/020056
Other languages
English (en)
French (fr)
Inventor
祥子 栗原
登 原田
勝宏 福井
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2022/020056 priority Critical patent/WO2023218600A1/ja
Publication of WO2023218600A1 publication Critical patent/WO2023218600A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/24Arrangements for testing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges

Definitions

  • the present invention relates to a speech quality evaluation device, a speech quality evaluation method, and a program for estimating the sound quality of a public address communication system using an E-model.
  • the subjective evaluation value is calculated from the subjective evaluation value (listening MOS) for the output signal of the audio signal processing device or the subjective evaluation value (listening MOS) estimated from the results of physical measurements.
  • There is an E-model evaluation method for estimation (Non-Patent Document 1).
  • Non-Patent Document 1 can now be applied to the quality evaluation of IP telephone services by evaluating the sound quality of the voice without considering delays and line echoes that have a low impact on quality.
  • voice that are affected by acoustic echoes such as during hands-free loudspeaker calls used in cars or during remote conferences
  • the subjective evaluation of the acoustic echoes that are returned sounds may not be perceived as coming from the person making the call. It was difficult to apply this method, as acoustic echoes, which should originally be unwanted sounds, would not be recognized as noise unless they were distorted and would not be evaluated properly.
  • an object of the present invention is to provide a speech quality evaluation device that can estimate the sound quality of a public address system using an E-model.
  • the speech quality evaluation device of the present invention includes an Ie value calculation section and an R value calculation section.
  • the Ie value calculation unit performs the test based on DCR or ITU-R BS.1116, based on a subjective evaluation scale that includes both a statement indicating the difference between the test sound and the reference sound and a statement indicating the audibility of the test sound.
  • the Ie value in the E-model's R value calculation formula is calculated based on the evaluation results of the sound evaluated by the evaluator.
  • the R value calculation unit calculates the R value of the E-model based on the calculated Ie value.
  • the sound quality of a public address system can be estimated using an E-model.
  • Diagram showing E-model and R value A diagram showing categories used for evaluation.
  • FIG. 3 is a diagram showing the relationship between the degree of AEC processing and received sound.
  • a diagram showing test conditions for AEC processed sound using an actual device The figure which is the result of an evaluation test and shows the result of a DCR test.
  • FIG. 1 is a block diagram showing the configuration of an E-model evaluation system of Example 1.
  • FIG. 1 is a flowchart showing the operation of the E-model evaluation system of Example 1.
  • FIG. 1 is a diagram showing an example of a functional configuration of a computer.
  • IP phones have a conversation test that evaluates the overall quality and a listening test that focuses only on sound quality.By using the E-model calculation formula (1) shown in Figure 1, the conversation MOS can be estimated from the listening MOS. (Reference Non-Patent Document 1, Reference Non-Patent Document 2).
  • Reference non-patent document 1 ITU-T Recommendation G.107, “The E-model: a computational model for use in transmission planning,” Jun. 2015.)
  • Reference non-patent document 2 Rei Takahashi, Hideaki Yoshino, Nobuhiko Kitawaki, “Call quality evaluation technology for IP telephone service”, IEICE Transactions B, Vol. J88-B, No. 5, pp. 863-874 , 2005.
  • the E-model is a model developed for the purpose of checking actual service quality based on circuit switching technology, and includes five psychological factor parameter groups (Noisiness, Loudness, Delay and echo: delay/echo feeling, distortion: sound quality, advantage factor: convenience).
  • the R value estimates the conversation MOS, and it is common to use actual measured values for distortion and delay and echo, and standard values for other parameters (Reference Non-Patent Document 1, Reference Non-Patent Document 2).
  • Non-Patent Document 1 Describes the E-model would be difficult to apply to IP phones, but in Japan, the TTC (Information and Communication Technology Commission) stated that ⁇ The quality factors that should be considered when providing IP phone services are sound quality and delay. ⁇ Since it is a line echo, it is desirable to evaluate the actual sound quality from the perspective of checking the quality of the actual service,'' and the use of the E-model using a listening test was recommended (Non-Patent Document 1).
  • Delay and echo are conditions caused by the network.
  • the TTC states that network conditions for listening tests must be conducted with a guarantee that there will be no fluctuations or packet losses other than intentionally introduced delays (Non-Patent Document 1), and in response to this, the conditions have been set. It is common to implement it as a simpler version with no influence from the network.
  • the conditions caused by the network for example, Delay has no effect on quality unless it is a conversation test, and Echo (line echo) has the same impression as the sidetone of a telephone if the delay is short enough, and has no effect on quality. (Non-patent Document 1).
  • DCR Degradation Category Rating, reference non-patent document 3
  • ITU-R BS.1116 Double-blind triple-stimulus with hidden reference, reference non-patent document 6) are often used (reference Non-patent document 7).
  • DCR and BS.1116 compare and evaluate the reference sound (ideal sound) and the target sound (received sound), so they can detect differences in sound quality that are difficult to detect with ACR.
  • the obtained result is DMOS (Degradation Mean Opinion Score, reference non-patent document 3), which indicates the quality difference from the reference sound.
  • Figure 2 shows the categories used in ACR and DCR BS.1116.
  • ACR, DCR, and BS.1116 disclosed here use five categories with the same meaning. If you change the evaluation method, the evaluation range will also change, but all categories are ordinal scales, and unless you compare the different evaluation methods with each other, the superiority or inferiority of the sound quality will not change regardless of which evaluation method is used. , distribution and quality differences are reflected as they are.
  • ACR, DCR, and BS.1116 were adopted according to the evaluation conditions in the official test when the encoding method, which is the main quality of IP telephones, was recommended as an ITU-T international standard (Reference Non-Patent Document 7, Reference non-patent document 8).
  • the audio used in the test assumes "no AEC processing” and "with AEC processing (insufficient/adequate/excessive)", which are the sound quality deterioration factors related to AEC processing shown in Figure 3, and are used as an objective evaluation scale for AEC processing.
  • SER Signal to Distortion Ratio
  • SDR Signal to Echo Ratio, reference non-patent document 9
  • Non-Patent Document 9 M. Fukui, S. Shimauchi, and A. Nakagawa, "Convolutive residual echo power estimation for acoustic echo reduction," Journal of Signal Processing, vol.24, no.6, pp.237-245 , Nov. 2020.
  • the target is 90 conditions that combine all 9 conditions of SER: -6 to 42 dB (in 6 dB increments) and 10 conditions of SDR 3 to 30 dB (in 3 dB increments).
  • the equations used for the processing are shown in (2) and (3).
  • S i ( ⁇ ) is the audio signal emitted by the far-end speaker
  • D i ( ⁇ ) is the amount of residual echo
  • L is the frame number
  • M is the frequency bin number.
  • test sounds to be evaluated were created by processing the SER and SDR values in 6 dB and 3 dB increments using computer simulation, and the quality difference between each sound is slight. Therefore, we decided to use BS.1116, which is intended for expert listeners and can detect even more subtle differences than DCR (Reference Non-Patent Document 8).
  • BS.1116 is developed by listening to and comparing three sounds, the reference sound (ideal sound), the hidden reference sound (the same sound as the reference sound), and the evaluation target sound (received sound) as many times as you like until you are satisfied with the hidden reference sound. This method identifies sounds and evaluates them in 0.1 increments using the same five-level deterioration category as DCR.
  • the evaluation value is the difference between the standard sound (5 points) and the score given by the evaluator, but in this specification, we will investigate the relationship between the evaluation and the PESQ evaluation. For this purpose, we decided to treat the score itself given by the evaluator as the evaluation value, similar to DCR.
  • the audio used in the test was 4 speakers (2 female, 2 male) x (SER: 9 conditions x SDR: 10 conditions + ideal sound (score 5) + audio with superimposed acoustic echoes without AEC processing. (Score 1)) 368 conditions.
  • the evaluators were 64 ordinary people, and the official test of G.711.1 (reference non-patent Referring to Reference 5 and Reference Non-Patent Document 8), the number of listeners was 2.5 times the usual number in order to obtain the same level of evaluation accuracy as expert listeners. Furthermore, when conducting an evaluation test, the order in which test sounds are presented is an important condition. Because the score could change depending on when the sounds appeared, the test sounds were presented randomly, and the presentation order was different for each evaluator group (4 people).
  • FIGS. 5 to 7 show the results of the proposed listening test and PESQ for AEC-processed audio.
  • the data plotted here is the AEC processed audio under 90 conditions (SER: 9 conditions x SDR: 10 conditions) created by computer simulation, and each point is the average value of 256 data (4 speakers x 64 evaluators). It is.
  • Figure 5 shows the results of the listening test according to BS.1116, and Figure 6 shows the results of the PESQ evaluation.
  • the vertical axis shows the evaluation value
  • the horizontal axis shows the SER
  • each broken line shows the SDR.
  • the horizontal axis SER and the broken line SDR are conditions related to sound quality, and the larger the value, the higher the sound quality. Theoretically, the combination of SER: 42 dB and SDR: 30 dB provides the highest sound quality, and the combination of SER: -6 dB and SDR: 3 dB provides the lowest sound quality.
  • Figure 7 shows the relationship between listening evaluation values and PESQ evaluation values according to BS.1116.
  • the vertical axis is the BS.1116 evaluation value (the actual score given by the evaluator), and the horizontal axis is the PESQ evaluation value (raw score).
  • Each plotted data shows the actual measured listening evaluation value and PESQ evaluation value according to BS.1116, and the solid line shows the estimated value (regression line) calculated by regression analysis.
  • the degree of freedom-adjusted coefficient of determination R 2 of the estimated model (hereinafter referred to as the BS.1116 estimated model) for the listening evaluation value (actual measured value of BS.1116) and the PESQ evaluation value was 0.97.
  • the BS.1116 estimation model matches the actual measured values by 97%, and PESQ confirms that it can explain the proposed listening test BS.1116 by 97%.
  • x is the PESQ value
  • y is the listening evaluation value
  • a is 1.3 or around 1.3
  • b is -0.3 or around -0.3.
  • the neighborhood of ⁇ means a value belonging to the range of ⁇ - ⁇ 1 or more and ⁇ - ⁇ 2 or less.
  • Examples of ⁇ 1 and ⁇ 2 are values of 10% or 20% of
  • the speakers were four far-end speakers who uttered the sound to be evaluated, and four near-end speakers who uttered the original sound of the acoustic echo.
  • the subjects were of the opposite sex. There were three utterance conditions: single talk and two types of double talk (mixed sounds of far-end and near-end speakers).
  • the sound quality differs depending on the communication device, but theoretically the highest sound quality is the condition of "single talk received sound without AEC processing", and “double talk received sound with superimposed acoustic echo without AEC processing”. ” is the condition with the lowest sound quality.
  • Figure 8 shows the relationship between the degree of AEC processing and the sound quality of received sound. Note that the relationship between AEC processing and sound quality shown in the same figure is an image of the sound quality that was aimed at when planning this test, and does not represent the sound quality itself of the test sound for this test.
  • Figure 9 shows the test conditions for AEC processing using an actual machine.
  • the test sounds used in this test were 168 conditions: 4 speakers (2 women, 2 men) x 7 communication devices x 3 types of speech conditions x 2 types of AEC processing conditions (AEC ON/OFF).
  • the test sounds were presented randomly, and a different presentation order was used for each evaluator group (4 people). To simplify the conditions, we assumed that the volume and network delay were constant, and that there was no packet loss.
  • the test sound used here includes all influences such as mobile terminals, transmission lines, encoding processing, etc., and does not indicate the performance of AEC itself.
  • Figure 10 shows the results of the listening test for the sound recorded on the actual device.
  • the vertical axis is the DCR listening evaluation value (DMOS)
  • the horizontal axis is the number of the communication device.
  • Each point in the graph is an evaluation value for each AEC processing condition and speech condition, and the higher the position on the graph, the higher the quality.
  • symbols with black triangles and white triangles indicate single talk
  • symbols with black circles and white circles indicate double talk 1 (far-end speaker first)
  • symbols with black squares and white squares indicate double talk 2 (near-end speaker first). show.
  • black lines indicate conditions with AEC processing (hereinafter referred to as AEC ON)
  • white lines indicate conditions without AEC processing (hereinafter referred to as AEC OFF)
  • each point represents 96 data points (4 speakers x 24 evaluators). ) is the average value of
  • the graph shown here shows the distribution of sound quality variations that were evaluated, and does not show the performance differences in AEC processing.
  • AEC OFF condition single talk received sound, double talk received sound with superimposed acoustic echo
  • Figure 11 shows the relationship between DMOS and PESQ evaluation values.
  • the vertical axis is DMOS
  • the horizontal axis is PESQ evaluation value (raw score).
  • indicates the actual measured values of DMOS and PESQ evaluation values
  • the solid line indicates the estimated value (regression line) calculated by regression analysis.
  • the plotted data is 79 data obtained by excluding 5 PESQ error conditions from the average value of 7 communication devices x 3 types of speech conditions x 2 types of AEC processing conditions x 2 types of speaker gender (male and female).
  • the score is the average value of 48 data (2 speakers for each gender x 24 evaluators).
  • the degree of freedom-adjusted coefficient of determination R 2 of the estimated model (hereinafter referred to as the DMOS estimation model) for the DMOS measured value and the PESQ evaluation value was 0.71.
  • the DMOS estimation model matches the actual measurements by 71%. It can explain 71% of the variation in DMOS, and it can be said that the proposed listening test DCR can be estimated with high accuracy from PESQ.
  • the E-model evaluation system 1 of this embodiment includes a data storage device 11, a subjective evaluation device 12, an objective evaluation device 13, and a call quality evaluation device 14.
  • the subjective evaluation device 12 includes a test sound presentation section 121, an evaluation result acquisition section 122, a tally section 123, and a tally result storage section 120A.
  • the objective evaluation device 13 includes a PESQ evaluation value calculation section 131, a linear conversion section 132, a PESQ evaluation value storage section 130A, and an estimated value storage section 130B.
  • the call quality evaluation device 14 includes an Ie value calculation section 141, an R value calculation section 142, and an R value storage section 140A. The operation of each device and each component will be described below with reference to FIG.
  • the data storage device 11 stores test sounds in advance.
  • the test sounds may include not only computer-processed sounds (audio distortion, acoustic echo), but also sounds processed by an actual device, such as "output audio of a communication device.”
  • test sound is superimposed in stages: SER: 9 steps in 6 dB increments in the range of -6 to 42 dB for SER, and 10 steps in 3 dB increments for residual echo in the SDR range of 3 to 30 dB.
  • FIGS. 5 to 7 it is preferable to use a test sound as it is expected to obtain a highly accurate evaluation.
  • the call quality evaluation device 14 which will be described later, is a device that calculates an R value based on a listening evaluation value or a PESQ value, so it calculates an R value based on a listening evaluation value or a PESQ value.
  • the processing flow differs depending on what you do. First, the flow of the subjective evaluation device 12 when calculating the R value based on the listening evaluation value will be described.
  • Test sound presentation unit 121 presents the test sound stored in the data storage device 11 to the evaluator (S121).
  • the evaluation result acquisition unit 122 performs evaluation based on DCR or ITU-R BS.1116, based on a subjective evaluation scale that includes both words indicating the difference between the test sound and the reference sound and words indicating the ease of hearing the test sound.
  • the evaluation results obtained by the evaluator's evaluation of the test sound are obtained (S122).
  • the subjective evaluation scale is ⁇ 5: I can't tell the difference from the standard sound,'' ⁇ 4: There is a difference, but there is no problem in hearing,'' ⁇ 3: There is a difference, and it is a little difficult to hear.'' It is preferable to include "2: There is a difference and it is difficult to hear” and "1: There is a difference and it is very difficult to hear” as it is expected to obtain highly accurate evaluations as shown in Figures 5 to 11. .
  • the aggregation unit 123 aggregates the evaluation results and stores them in the aggregation result storage unit 120A (S123).
  • the total result storage unit 120A stores the evaluation results acquired in step S122 and totaled in step S123.
  • the PESQ evaluation value calculation unit 131 calculates the PESQ evaluation value of the test sound, and transmits the calculated PESQ evaluation value to the PESQ evaluation value storage unit 130A (S131).
  • the algorithm is strictly specified in ITU-T Recommendation P.862, and reference software is attached to the same recommendation. This has already been shown in FIG. 6 and the corresponding explanation.
  • the PESQ evaluation value storage unit 130A stores the PESQ evaluation value calculated in step S131.
  • the linear transformation unit 132 linearly transforms the PESQ evaluation value calculated in step S131 based on the regression equation obtained by regression analysis of the evaluation result and the PESQ evaluation value to obtain an estimated value of the subjective evaluation value. , the acquired estimated value is stored in the estimated value storage unit 130B (S132). Calculation examples of the regression equation are already shown in FIGS. 7, 11, and the corresponding explanations.
  • the estimated value storage unit 130B stores the estimated value of the subjective evaluation value acquired in step S132.
  • ⁇ Call quality evaluation device 14 The operation of the speech quality evaluation device 14 in each flow of listening evaluation and PESQ evaluation will be described below.
  • the Ie value calculation unit 141 calculates the Ie value calculation unit 141 based on DCR or ITU-R BS.1116 based on a subjective evaluation scale that includes both a wording indicating the difference between the test sound and the reference sound and a wording showing the ease of hearing the test sound.
  • the Ie value in the R value calculation formula of the E-model is calculated based on the evaluation result of the test sound by the evaluator (details have already been shown in step S122, etc.) (S141).
  • the Ie value calculation unit 141 can calculate the Ie value by using the ITU-T P.833 conversion formula for the evaluation result.
  • the Ie value calculation unit 141 calculates the estimated value of the subjective evaluation obtained by linearly converting the PESQ evaluation value of the test sound using a regression formula obtained in advance for the evaluation result of the listening test and the PESQ evaluation value of the test sound.
  • the Ie value in the R value calculation formula of the E-model is calculated (S141).
  • the Ie value calculation unit 141 can calculate the Ie value by using the ITU-T P.833 conversion formula for the estimated value.
  • the Ie value is the listening evaluation value of the codec
  • eff is information on transmission errors.
  • the subjective evaluation scale is "5: I can't tell the difference from the standard sound," "4: There is a difference, but there is no problem in hearing it,” “3: There is a difference and it is a little difficult to hear,” "2 It is preferable to configure it so that it includes “1: There is a difference and it is difficult to hear” and "1: There is a difference and it is very difficult to hear.”
  • test sounds were N ⁇ M by P speakers with N, M, and P being integers of 1 or more, voice distortion in N stages, residual echo in M stages, and superimposed in stages. It is preferable to configure the system to include audio under the ⁇ P condition.
  • the R value calculation unit 142 calculates the R value of the E-model based on the calculated Ie value, and stores it in the R value storage unit 140A (S142).
  • the R value storage unit 140A stores the R value calculated in step S142.
  • the device of the present invention includes, as a single hardware entity, an input section to which a keyboard or the like can be connected, an output section to which a liquid crystal display or the like can be connected, and a communication device (for example, a communication cable) capable of communicating with the outside of the hardware entity.
  • a communication unit that can be connected to a CPU (Central Processing Unit, which may include cache memory, registers, etc.), RAM and ROM that are memories, external storage devices that are hard disks, and their input units, output units, and communication units. , CPU, RAM, ROM, and an external storage device.
  • the hardware entity may be provided with a device (drive) that can read and write a recording medium such as a CD-ROM.
  • a physical entity with such hardware resources includes a general-purpose computer.
  • the external storage device of the hardware entity stores the program required to realize the above-mentioned functions and the data required for processing this program (not limited to the external storage device, for example, when reading the program (It may be stored in a ROM, which is a dedicated storage device.) Further, data obtained through processing of these programs is appropriately stored in a RAM, an external storage device, or the like.
  • each program stored in an external storage device or ROM, etc.
  • the data necessary for processing each program are read into memory as necessary, and are interpreted and executed and processed by the CPU as appropriate.
  • the CPU realizes predetermined functions (each of the constituent elements expressed as . . . units, . . . means, etc.).
  • the processing functions of the hardware entity (device of the present invention) described in the above embodiments are realized by a computer, the processing contents of the functions that the hardware entity should have are described by a program. By executing this program on a computer, the processing functions of the hardware entity are realized on the computer.
  • a program that describes this processing content can be recorded on a computer-readable recording medium.
  • the computer-readable recording medium may be of any type, such as a magnetic recording device, an optical disk, a magneto-optical recording medium, or a semiconductor memory.
  • magnetic recording devices include hard disk drives, flexible disks, magnetic tapes, etc.
  • optical disks include DVDs (Digital Versatile Discs), DVD-RAMs (Random Access Memory), and CD-ROMs (Compact Discs Read Only). Memory), CD-R (Recordable)/RW (ReWritable), etc. as magneto-optical recording media, MO (Magneto-Optical disc), etc. as semiconductor memory, EEP-ROM (Electrically Erasable and Programmable-Read Only Memory), etc. can be used.
  • this program is performed, for example, by selling, transferring, lending, etc. portable recording media such as DVDs and CD-ROMs on which the program is recorded. Furthermore, this program may be distributed by storing the program in the storage device of the server computer and transferring the program from the server computer to another computer via a network.
  • a computer that executes such a program for example, first stores a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing a process, this computer reads a program stored in its own recording medium and executes a process according to the read program. In addition, as another form of execution of this program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and furthermore, the program may be transferred to this computer from the server computer. The process may be executed in accordance with the received program each time.
  • ASP Application Service Provider
  • the above-mentioned processing is executed by a so-called ASP (Application Service Provider) service, which does not transfer programs from the server computer to this computer, but only realizes processing functions by issuing execution instructions and obtaining results.
  • ASP Application Service Provider
  • the hardware entity is configured by executing a predetermined program on a computer, but at least a part of these processing contents may be implemented in hardware.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Telephone Function (AREA)

Abstract

通話品質評価装置は、試験音の基準音との差分を示す文言と試験音の聞き取りやすさを示す文言の双方を含む主観評価尺度に基づき、DCRまたはITU-R BS.1116に基づいて、試験音を評価者が評価した評価結果に基づいて、E-modelのR値算出式におけるIe値を計算するIe値計算部と、計算されたIe値に基づいて、E-modelのR値を計算するR値計算部を含む。

Description

通話品質評価装置、通話品質評価方法、プログラム
 本発明は、拡声通信システムの音質をE-modelで推定する通話品質評価装置、通話品質評価方法、プログラムに関する。
 IP電話サービスの品質評価指標として、音声信号処理装置の出力信号に対する主観評価値(受聴MOS)、または物理測定した結果から推定した主観評価値(受聴MOS)から、主観評価値(会話MOS)を推定するE-model評価法がある(非特許文献1)。
「JJ-201.01 IP電話の通話品質評価方法」、第9版、一般社団法人情報通信技術委員会、2018年8月29日
 非特許文献1の手法により、品質への影響が低い遅延や回線エコーは考慮せずに、音声の音質を評価対象とすることでIP電話サービスの品質評価にも適用できるようになった。しかし、車内や遠隔会議で利用されるハンズフリー拡声通話など、音響エコーの影響を受ける音声を評価対象とする場合、戻り音声である音響エコーの主観的評価は、通話している本人でないと知覚が難しく、本来は不要音であるはずの音響エコーが歪んでいなければ雑音と認識されずに評価が適切に行われないなど、本手法の適用は困難であった。
 そこで本発明では、拡声通話システムの音質をE-modelで推定することができる通話品質評価装置を提供することを目的とする。
 本発明の通話品質評価装置は、Ie値計算部と、R値計算部を含む。Ie値計算部は、試験音の基準音との差分を示す文言と試験音の聞き取りやすさを示す文言の双方を含む主観評価尺度に基づき、DCRまたはITU-R BS.1116に基づいて、試験音を評価者が評価した評価結果に基づいて、E-modelのR値算出式におけるIe値を計算する。R値計算部は、計算されたIe値に基づいて、E-modelのR値を計算する。
 本発明の通話品質評価装置によれば、拡声通話システムの音質をE-modelで推定することができる。
E-modelとR値を示す図。 評価に用いるカテゴリーを示す図。 AEC処理に関わる音質劣化要因を示す図。 計算機シミュレーションによるAEC処理の試験条件を示す図。 評価試験の結果であって受聴試験の結果を示す図。 評価試験の結果であってPESQによる評価結果を示す図。 評価試験の結果であって受聴試験とPESQによる評価の関係を示す図。 AEC処理程度と受信音の関係を示す図。 実機によるAEC処理音の試験条件を示す図。 評価試験の結果であってDCR試験の結果を示す図。 評価試験の結果であってPESQとDCRの関係を示す図。 実施例1のE-model評価システムの構成を示すブロック図。 実施例1のE-model評価システムの動作を示すフローチャート。 E-modelのR値におけるIe、eff、および他のパラメータを説明する図。 コンピュータの機能構成例を示す図。
 以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
<拡声通話のための品質評価手法>
 以下、通話品質評価の手法として一般的なIP電話の評価法に鑑み、E-modelに基づくパラメータの違いから、ハンドセット通話と拡声通話の通話環境の差異、ならびに類似点を明らかにする。IP電話の品質評価において受聴MOSから会話MOSを推定するE-modelに基づき、拡声通話に対して有効な受聴試験方法を検討した結果を述べる。
≪IP電話に対する品質評価手法≫
 IP電話には、総合品質を評価する会話試験と、音質のみに着目した受聴試験があり、図1に示すE-modelの算出式(1)を用いることで、受聴MOSから会話MOSを推定できる(参考非特許文献1、参考非特許文献2)。
(参考非特許文献1:ITU-T Recommendation G.107, “The E-model: a computational model for use in transmission planning,” Jun. 2015.)
(参考非特許文献2:高橋玲、吉野秀明、北脇信彦、“IP電話サービスの通話品質評価技術”、電子情報通信学会論文誌B、Vol.J88-B, No.5, pp.863-874, 2005.)
 E-modelとは、回線交換技術に基づき、実サービス品質をチェックする目的で開発されたモデルであり、図1に示す5つの心理要因パラメータ群(Noisiness:雑音感、Loudness:音量感、Delay and echo:遅延・エコー感、Distortion:音質感、Advantage factor:利便性)で構成される。
 R値は会話MOSを推定するものであり、DistortionとDelay and echoは実測値、それ以外のパラメータは規定値を用いるのが一般的である(参考非特許文献1、参考非特許文献2)。
 当初、E-modelはIP電話への適用は困難と考えられていたが、日本国内ではTTC(情報通信技術委員会)によって「IP電話のサービス提供にあたって、考慮すべき品質要因は、音質・遅延・回線エコーであり、実サービスの品質をチェックする観点から、実系の音質を評価することが望ましい」として、受聴試験を用いたE-modelの利用が推奨された(非特許文献1)。
 ここでDistortionは符号化処理、Delay and echoはネットワークに起因する条件である。さらにTTCは、受聴試験におけるネットワーク条件として「意図的に入れた遅延以外のゆらぎ、パケット損失がないことを保証して実施すること」としており(非特許文献1)、これを受けて、条件をより単純にした「ネットワークの影響はないもの」として実施するのが一般的である。ネットワークに起因する条件のうち、例えばDelayは会話試験でなければ品質への影響はなく、Echo(回線エコー)は遅延が十分に短ければ電話機の側音と同程度の印象で品質への影響は少ない(非特許文献1)。さらに、パケット損失については、音質劣化への影響が大きいが、符号化処理の評価基準条件に含まれるため、ここで考慮する必要はない。よって、IP電話に対しては、ネットワークの影響はないものとして、Distortion(特に、符号化処理した音声)のみを評価対象とする。
≪拡声通話に対する品質評価手法の提案≫
 拡声通話の総合品質をE-modelで推定するには、受聴試験に関わるパラメータのうち、IP電話と同様にDistortion(符号化処理を含むAEC処理音声)のみとなることが望ましい。拡声通話とIP電話の通話条件のうち、一番大きな相違点は「音響エコー」の存在である。ネットワークに起因する条件や回線エコーは、IP電話と同様に品質への影響はないものとすることができるが、音響エコーは拡声通話を評価する上で品質に大きな影響を与える条件であり、無視することはできない。
 本明細書において、受聴試験における音響エコーを「第三者による妨害音声」と仮定した。そこで音響エコーをDistortionと合わせて音質評価の対象とすることを提案し、理論上の評価の妥当性を確認した。IP電話の評価と同様にネットワークの影響はないものとした上で、符号化処理を含めたAEC処理音声の音質を評価する。受聴試験において、音響エコーをDistortionとして扱うには、評価法の選定と工夫がカギとなる。IP電話では、MOS試験とも呼ばれるACR(Absolute Category Rating、参考非特許文献3)を用いるのが一般的であり、PESQが推定する受聴MOSもACRの結果である。
(参考非特許文献3:ITU-T Recommendation P.800, “Methods for subjective de-termination of transmission quality,” Aug. 1996.)
 ACRは評価者が受けた印象をそのまま評価することから、通話品質の評価には適した手法といえる。しかしながら、「音響エコーが重畳した受信音」をACRで評価する場合、本来は不要音であるはずの音響エコーが、歪んでいなければ雑音と認識されずに高い評価を受けてしまう恐れがある。これは、会話試験でなければ音響エコーの検出は難しいといわれてきた所以である。受聴試験で拡声通話の評価を実現するには、評価者に「音響エコー」を検知させるための工夫が必要となる。
 本明細書では、IP電話の主品質である符号化方式がITU-T国際標準G.729(参考非特許文献4)、G.711.1(参考非特許文献5)として勧告された際のテストラボにおける公式試験を参考に、音響エコーの検出方法を検討した。
(参考非特許文献4:ITU-T Recommendation G.729, “Coding of speech at 8 kbit/s using conjugate-structure algebraic-code-excited linear prediction (CS-ACELP),” Jun. 2016.)
(参考非特許文献5:ITU-T Recommendation G.711.1, “Wideband embedded exten-sion for ITU-T G.711 pulse code modulation,” Sep. 2012.)
 公式試験では、基本性能やクリーンな音声の評価に対してはACRを用いるが、周囲雑音が重畳した条件や高品質な性能を要求される符号化方式など、評点が下方/上方に偏る傾向がある対象に対してはDCR(Degradation Category Rating、参考非特許文献3)やITU-R BS.1116(Double-blind triple-stimulus with hidden reference、参考非特許文献6)などを用いることが多い(参考非特許文献7)。
(参考非特許文献6:ITU-R Recommendation BS.1116-3, “Methods for the subjective assessment of small impairments in audio systems,” Feb. 2015.)
(参考非特許文献7:栗原祥子、片岡章俊、林伸二、金子孝夫、ITU-T G.729 音声符号化方式拡張のための品質評価”、電子情報通信学会論文誌文誌D-II 87(2), pp.416-426, 2004.)
 DCRは、ACRでは差が表れにくい条件の評価精度を上げる目的でITU-T P.800に追加された方式であり、BS.1116はDCRをさらに高精細に評価する方式である。DCRとBS.1116は、PESQと同様に基準音(理想音)と評価対象音(受信音)を比較して評価するため、ACRでは検知しにくい音質差を検出することができる。得られる結果はDMOS(Degradation Mean Opinion Score、参考非特許文献3)であり、基準音との品質差を示す。図2にACRとDCR BS.1116に用いるカテゴリーを示す。
 ここで開示したACRとDCR,BS.1116は、同じ意味合いを持つ5段階のカテゴリーを用いる。評価法を変えると評価レンジも変化するが、全てのカテゴリーは順序尺度であり、異なる評価法間で相互に比較をしなければ、どの評価法を用いても、音質の優劣が入れ替わることはなく、配分や品質差はそのまま反映される。IP電話の主品質である符号化方式がITU-T国際標準に勧告された際の公式試験においても、評価条件に合わせてACR,DCR,BS.1116が採用された(参考非特許文献7、参考非特許文献8)。
(参考非特許文献8:ITU-T SG 12 Q.7/12 Rapporteurs, “Superwideband extension to G.711.1 and G.722 Qualification Quality Assessment Test Plan,” Oct. 2008.)
 通常の音質を評価する場合には、一般評価者向けのDCRを用いるが、音質差が僅少な評価対象に対しては、微細な差異も高精度に検出可能なエキスパートリスナー向けのBS.1116を用いることが多い(参考非特許文献7、参考非特許文献8)。
 我々はこれに倣い、拡声通話に対する受聴試験にDCRまたはBS.1116の採用を提案する。遠端話者が発声した音声を基準音とし、比較することで、たとえ音響エコーが歪んでいないきれいな音声であったとしても、音響エコーが重畳していれば不要音として判定することができる。
 ここでPESQとの整合性を考慮すると、ACRから得られるような「通話に対する満足度(聞き取りやすさ)」に対する評価結果が必要となる。そこで、基準音を呈示可能なDCRまたはBS.1116で評価しつつ「聞き取りやすさ」に着目した結果を得るため、図2に示す独自のカテゴリーを提案する。本明細書では、ACRからDCR,BS.1116に変わることを含め、拡声通話を受聴試験で評価する手法として、PESQとの関係性を確認する。
<計算機シミュレーションで作成したAEC処理音声に対する品質評価>
≪計算機シミュレーションによるAEC処理音声≫
 ここでは、<拡声通話のための品質評価手法>で提案した拡声通話に対する受聴試験とPESQ評価の有効性、ならびに提案受聴試験とPESQ評価の関係性を確認するため、計算機で作成したAEC処理音声に対し、音質評価試験を実施する。
 試験に用いる音声は、図3に示すAEC処理に関わる音質劣化要因の「AEC処理なし」と「AEC処理あり(不十分/適切/過剰)」を想定したものでありAEC処理の客観評価尺度として一般的な2つの劣化尺度SER(Signal to Distortion Ratio)とSDR(Signal to Echo Ratio、参考非特許文献9)を用いて、「音声ひずみ」と「残留エコー」を計算機で段階的に重畳させたダブルトークの条件である。
(参考非特許文献9:M. Fukui, S. Shimauchi, and A. Nakagawa, "Convolutive residual echo power estimation for acoustic echo reduction," Journal of Signal Processing, vol.24, no.6, pp.237-245, Nov. 2020.)
 図4に示すようにSER:-6~42dB(6dB刻み)の9条件、SDR3~30dB(3dB刻み)の10条件の全てを組み合わせた90条件を対象とする。処理に用いた式を(2),(3)に示す。
Figure JPOXMLDOC01-appb-M000001

 ここで、Si(ω)は遠端話者が発した音声信号、Di(ω)は残留エコー量、Lはフレーム番号、Mは周波数ビンの番号である。本シミュレーションは、AEC処理(不十分/適切/過剰)した受信音を想定したもの(計算機シミュレーションによるAEC処理音声)である。ゲインGi(ω)によってエコー抑圧量と送話歪量を制御したものであり、特定のAEC処理を実装したものではない。
 評価試験では、誰が聞いても良いと思う音質(評点5)と、誰が聞いても悪いと思う音質(評点1)を織り交ぜた試験音を用意する必要がある。そこで、計算機シミュレーションによるAEC処理音声に加え、誰が聞いても良いと思う音質の条件として「遠端話者が発した音声(理想音)」、誰が聞いても悪いと思う音質の条件として「AEC処理をしていない音響エコーが重畳した音声」を評価対象とすることにした。
≪計算機シミュレーションで作成したAEC処理音声の品質評価≫
 我々は<拡声通話のための品質評価手法>において拡声通話に対する受聴試験として、評価者に音響エコーを検知させるため、基準音と比較評価するDCR/BS.1116の採用を提案した。
 ここでは、評価対象とする試験音は、計算機シミュレーションでSERとSDRの値を6dBおよび3dB刻みとなるよう処理して作成したものであり、各音の品質差は僅少である。そこで、DCRより微細な差異も検出可能な(参考非特許文献8)エキスパートリスナー向けのBS.1116を用いることにした。BS.1116は、基準音(理想音)、隠された基準音(基準音と同一音)、評価対象音(受信音)の3音を納得がいくまで何度でも聞き比べ、隠された基準音を同定するとともに、DCRと同一の5段階の劣化カテゴリーを用いて、0.1刻みで評価する手法である。通常、BS.1116では、基準音(5点)と評価者が付与した評点との差分値を評価値とするが、本明細書では、PESQ評価との関係性の調査も含めて、実施の目的とすることから、DCRと同様に、評価者が付与した評点そのものを評価値として扱うことにした。
 試験に用いた音声は、話者4名(女性2名、男性2名)×(SER:9条件×SDR:10条件+理想音(評点5)+AEC処理をしていない音響エコーが重畳した音声(評点1))の368条件である。評価者は一般人64名であり、IP電話の主品質である符号化方式がITU-T国際標準G.729、G.711.1として勧告された際のテストラボにおけるG.711.1の公式試験(参考非特許文献5、参考非特許文献8)を参考に、エキスパートリスナーと同程度の評価精度を得るために通常の2.5倍の人数とした。また、評価試験の実施にあたっては、試験音の呈示順は重要な条件となる。どのタイミングで出てくるかによって、評点が変わる可能性があるため試験音はランダムに呈示し、評価者組(4人1組)毎に異なる呈示順で実施した。
 図5~図7にAEC処理音声に対する提案受聴試験とPESQによる結果を示す。ここでプロットしたデータは、計算機シミュレーションで作成したAEC処理音声90条件(SER:9条件×SDR:10条件)であり、各点は256データ(話者4名×評価者64名)の平均値である。
 図5はBS.1116による受聴試験の結果、図6はPESQ評価の結果である。ここで、縦軸は評価値、横軸はSER、各折線はSDRを示す。グラフの見方は、縦軸が品質の良し悪しを示し、値が高くなるほど、高品質であることを示す。図5はBS.1116の評価値(評価者が付与した評点そのもの)であり、図6はPESQ評価値(raw score)である。横軸SERと折線SDRは音質に関わる条件であり、値が大きいほど音質が高い。理論上は、SER:42dB,SDR:30dBの組み合わせが一番高音質で、SER:-6dB,SDR:3dBの組み合わせが一番低音質な条件である。
 BS.1116による受聴試験とPESQ評価の結果は、どちらも似た傾向があり、理論通り、SER,SDRどちらも値が大きいほど高い評価を得たことがわかる。受聴評価値は、PESQ評価値と比べて滑らかな線ではないが、ここで用いた試験音は、品質差が僅少であり、評価が難しかったためと推測される。
 図5のBS.1116の結果において、SDRとSERに対応する主観品質評価値の序列は入れ替わっていないことから、提案法で拡声通話における「音響エコー」を、IP電話における「遠端端末で重畳する第三者による妨害音」と同一条件とみなせるという仮定が成り立つとの前提と矛盾しない結果が得られた。
 同様に、図6のPESQ評価結果において、拡声通話における「音響エコー」を、IP電話における「送話側周囲雑音」と同一条件とみなせるという仮定が成り立つとの前提とも矛盾しない結果を得た。
 図7にBS.1116による受聴評価値とPESQ評価値の関係を示す。ここで、縦軸はBS.1116の評価値(評価者が付与した評点そのもの)であり、横軸はPESQ評価値(raw score)である。プロットした各データはBS.1116による受聴評価値とPESQ評価値の実測値、実線は回帰分析によって算出された推定値(回帰直線)を示す。
 評価試験の結果から、受聴評価値(BS.1116の実測値)とPESQ評価値に対する推定モデル(以下、BS.1116推定モデル)の自由度調整済み決定係数R2は0.97であった。これは、BS.1116推定モデルが、実測値と97%一致していることを示しており、PESQによって、提案受聴試験BS.1116を97%説明可能であることが確認された。
 なお、同図に示すように、受聴評価値とPESQ評価値の関係は、線形関数Fy=a・x+bで近似できる。xはPESQ値、yは受聴評価値であり、aは 1.3、または 1.3 の近傍であり、bは -0.3、または -0.3 の近傍である。αの近傍とは、α‐δ以上 α‐δ以下 の範囲に属する値を意味する。ただし、δおよびδは正値であり、δ=δであってもよいし、δ≠δであってもよい。δおよびδの例は|α|の10%または20%の値である。例えば、a=1.33 であり、b=-0.27である。
 本試験の結果から、「音声ひずみ」と「音響エコー」「残留エコー(音響エコーの消し残り)」を計算機で段階的に重畳させたAEC処理音声を対象に提案受聴試験(BS.1116)とPESQ評価を実施した結果、提案受聴試験の前提となる仮定と矛盾のない結果が得られた。また、BS.1116推定モデルは、非常に高い精度でBS.1116の実測値を推定することを確認した。
<実機によるAEC処理音声の品質評価>
≪実機によるAEC処理音声≫
 ここでは、<拡声通話のための品質評価手法>で検討し、<計算機シミュレーションで作成したAEC処理音声に対する品質評価>で実施した提案受聴試験、PESQ評価の有効性と関係性を確認するため、評価対象を「実機による拡声通話音(AEC処理音声)」に拡大して、提案受聴試験とPESQによる評価試験を実施する。ここで用いる試験音は、7機種の通信機を用いて事前に収録した「双方向通話の受信音」である。
 話者は、評価対象音を発話する遠端話者4名、音響エコーの元音を発話する近端話者4名とし、音響エコーを判別しやすくするため、遠端話者と近端話者は異性とした。発話条件は、シングルトークと2種類のダブルトーク(遠端話者と近端話者の混合音)の3条件である。
 受聴試験では、誰が聞いても良いと思う音質(評点5)と、誰が聞いても悪いと思う音質(評点1)を織り交ぜた試験音を用意する必要がある。しかしながら、ここでは、実機収録音を対象とするため、<計算機シミュレーションで作成したAEC処理音声に対する品質評価>のようなバリエーション豊かな試験音を用意することができない。そこで、実機によるAEC処理音声に加え、誰が聞いても良いと思う音質の条件として「AEC処理をしていないシングルトークの受信音」、誰が聞いても悪いと思う音質の条件として「AEC処理をしていない音響エコーが重畳したダブルトークの受信音」を評価対象とすることにした。
 各通信機によって音質が異なるが、理論上「AEC処理をしていないシングルトークの受信音」の条件が一番高音質で、「AEC処理をしていない音響エコーが重畳したダブルトークの受信音」の条件が一番低音質な条件である。
 図8にAEC処理の程度と受信音の音質の関係を示す。なお、同図に記載したAEC処理と音質の関係性については、本試験を計画する上で目指した音質イメージであり、本試験の試験音の音質そのものを示すものではない。
 図9に実機によるAEC処理の試験条件を示す。本試験で使用した試験音は、話者4名(女性2名、男性2名)×通信機7台×発話条件3種×AEC処理条件2種(AEC ON/OFF)の168条件である。試験音はランダムで呈示し、評価者組(4人1組)毎に異なる呈示順を用いた。条件を単純にするため、音量とネットワーク遅延は一定、パケット損失はないものとした。ここで対象とした試験音は、携帯端末、伝送路、符号化処理等、全ての影響を含めたものであり、AECそのものの性能を示すものではない。
≪実機によるAEC処理音声の品質評価≫
 ここで評価対象とする音は、<計算機シミュレーションで作成したAEC処理音声に対する品質評価>に比べて品質差が粗く、高い評価精度を必要としない。このため、本試験ではDCRを用い、一般人24名を評価者とした。
 図10に実機収録音に対する受聴試験の結果を示す。ここで、縦軸はDCRによる受聴評価値(DMOS)であり、横軸は通信機の番号である。グラフ中の各点はAEC処理条件と発話条件毎の評価値であり、グラフの上方にあるほど、品質が高いことを示す。ここで、黒三角、白三角の記号はシングルトーク、黒丸、白丸の記号はダブルトーク1(遠端話者先行)、黒四角、白四角の記号はダブルトーク2(近端話者先行)を示す。ここで、黒塗りはAEC処理した条件(以下、AEC ON)、白抜きはAEC処理していない条件(以下、AEC OFF)であり、各点は96データ(話者4名×評価者24名)の平均値である。
 DCRによる提案受聴試験の結果は、概ね理論通りとなり、「AEC OFFのシングルトークの受信音」の条件が一番高い評価、「AEC OFFの音響エコーが重畳したダブルトークの受信音」の条件が一番低い評価を得ていることがわかる。
 ここで示したグラフは、評価対象とした音質のバリエーションの分布を示すものであり、AEC処理の性能差を示すものではない。AEC OFFの条件(シングルトークの受信音、音響エコーが重畳したダブルトークの受信音)を評価対象に含めることで、バリエーションを増やすことができた。
 図11にDMOSとPESQ評価値の関係を示す。ここで、縦軸はDMOSであり、横軸はPESQ評価値(raw score)である。×はDMOSとPESQ評価値の実測値、実線は回帰分析によって算出された推定値(回帰直線)を示す。ここで、プロットしたデータは、通信機7台×発話条件3種×AEC処理条件2種×話者性別2種(男女)の平均値からPESQエラーの5条件を除いた79データであり、各点は48データ(性別毎の話者2名×評価者24名)の平均値である。
 評価試験の結果、DMOS実測値とPESQ評価値に対する推定モデル(以下、DMOS推定モデル)の自由度調整済み決定係数R2は0.71であった。これは、DMOS推定モデルが、実測値と71%一致していることを示している。DMOSの変動の71%を説明可能でありPESQから提案受聴試験DCRを高い精度で推定できるといえる。
 さらに、集計から除外したPESQエラーの5条件を詳しく分析したところ、音響エコーの消し残りがあることで、PESQの内部機能である「参照信号と劣化信号の時間ずれ」を調整する機能が誤動作し、PESQ評価値の算出に誤りが発生した可能性があることを確認した。また、同時に実施した他の条件も分析したが、時間ずれがなければ、誤動作は発生しておらず、正常に動作していることを確認した。ここで明らかとなったPESQ内部で発生する「時間ずれを調整する機能の誤動作」が、拡声通話音に対するPESQ評価(主観値推定)の問題点といえる。予め参照信号と劣化信号を同期させておくことで、この問題に対処できる。例えば、事前に同期しておいたにもかかわらず、調整誤りが発生した場合、当該PESQ評価値を破棄することで主観値の推定精度向上の可能性を見出した。
 本試験の結果から、実機によるAEC処理音声を対象に提案受聴試験(DCR)を実施した結果、理論通りの結果を得ることができ、仮説が正しいことを確認した。また、提案受聴試験で得られる評価値とPESQによる推定値、両者の関係性を確認した。
 以下、上述の研究結果に基づき、拡声通話システムの音質をE-modelで推定することができる実施例1のE-model評価システムについて説明する。図12を参照して、本実施例のE-model評価システムの装置構成を説明する。同図に示すように本実施例のE-model評価システム1は、データ記憶装置11と、主観評価装置12と、客観評価装置13と、通話品質評価装置14を含む。主観評価装置12は、試験音呈示部121と、評価結果取得部122と、集計部123と、集計結果記憶部120Aを含む。客観評価装置13は、PESQ評価値計算部131と、線形変換部132と、PESQ評価値記憶部130Aと、推定値記憶部130Bを含む。通話品質評価装置14は、Ie値計算部141と、R値計算部142と、R値記憶部140Aを含む。以下、図13を参照して各装置、各構成要件の動作を説明する。
<データ記憶装置11>
 データ記憶装置11は、試験音を予め記憶している。試験音の例として、N,M,Pを1以上の整数とし、音声ひずみをN段階、残留エコーをM段階、段階的に重畳させたP人の話者によるN×M×P条件の音声を含むようにすれば好適である。N,M,Pは任意に設定できる。N=9,M=10,P=4とした例を図4およびこれに対応する説明の箇所で既に示してある。なお、試験音として、計算機処理した音(音声ひずみ・音響エコー)だけでなく、実機で処理した音として、「通信機の出力音声」などを含んでもよい。
 試験音を図4に例示した通り、音声ひずみをSER:-6~42dBの範囲で6dB刻みで9段階、残留エコーをSDR:3~30dBの範囲で3dB刻みで10段階、段階的に重畳させた試験音とすれば、図5~図7に示す通り、高精度の評価を取得することが期待できるため好適である。
<主観評価装置12>
 後述する通話品質評価装置14は、受聴評価値またはPESQ値に基づいてR値を計算する装置であるため、受聴評価値に基づいてR値を計算するか、PESQ値に基づいてR値を計算するかによって処理フローが異なる。まず、受聴評価値に基づいてR値を計算する場合の主観評価装置12のフローについて説明する。
<試験音呈示部121>
 試験音呈示部121は、データ記憶装置11に記憶された試験音を評価者に呈示する(S121)。
<評価結果取得部122>
 評価結果取得部122は、試験音の基準音との差分を示す文言と試験音の聞き取りやすさを示す文言の双方を含む主観評価尺度に基づき、DCRまたはITU-R BS.1116に基づいて、試験音を評価者が評価した評価結果を取得する(S122)。
 「試験音の基準音との差分を示す文言」とは、例えば「基準音との差がない(わからない)」、「基準音との差がある(違いがある)」などの文言であり、「試験音の聞き取りやすさを示す文言」とは、例えば「聞き取りやすい」、「聞き取りに問題がない」、「少し聞き取りにくい」、「聞き取りにくい」、「非常に聞き取りにくい」などの文言である。
 「試験音の基準音との差分を示す文言」と「試験音の聞き取りやすさを示す文言」の双方を含む主観評価尺度の例を図2に既に示した。
 図2に示したように、主観評価尺度を、「5:基準音との差がわからない」、「4:違いはあるが聞き取りに問題ない」、「3:違いがあり少し聞き取りにくい」、「2:違いがあり聞き取りにくい」、「1:違いがあり非常に聞き取りにくい」を含むようにすれば図5~図11に示す通り、高精度の評価を取得することが期待できるため好適である。
<集計部123>
 集計部123は、評価結果を集計し、集計結果記憶部120Aに記憶する(S123)。
<集計結果記憶部120A>
 集計結果記憶部120Aは、ステップS122により取得され、ステップS123により集計された評価結果を記憶する。
<客観評価装置13>
 次に、PESQ評価値に基づいてR値を計算する場合の客観評価装置13のフローについて説明する。
<PESQ評価値計算部131>
 PESQ評価値計算部131は、試験音のPESQ評価値を計算し、計算したPESQ評価値をPESQ評価値記憶部130Aに送信する(S131)。PESQ評価値の計算例については、ITU-T 勧告P.862でアルゴリズムが厳密に規定されており、同勧告にはリファレンスソフトウェアが添付されている。図6およびこれに対応する説明などで既に示してある。
<PESQ評価値記憶部130A>
 PESQ評価値記憶部130Aは、ステップS131により計算されたPESQ評価値を記憶する。
<線形変換部132>
 線形変換部132は、評価結果とPESQ評価値を回帰分析して得られた回帰式に基づいて、ステップS131で計算されたPESQ評価値を線形変換して、主観評価値の推定値を取得し、取得した推定値を推定値記憶部130Bに記憶する(S132)。回帰式の計算例については、図7、図11およびこれに対応する説明などに既に示してある。
<推定値記憶部130B>
 推定値記憶部130Bは、ステップS132で取得された主観評価値の推定値を記憶する。
<通話品質評価装置14>
 以下、受聴評価、PESQ評価のそれぞれのフローにおける通話品質評価装置14の動作を説明する。
<Ie値計算部141(受聴評価の場合)>
 Ie値計算部141は、試験音の基準音との差分を示す文言と試験音の聞き取りやすさを示す文言の双方を含む主観評価尺度に基づき、DCRまたはITU-R BS.1116に基づいて、試験音を評価者が評価した評価結果(詳細は、ステップS122等に既に示した)に基づいて、E-modelのR値算出式におけるIe値を計算する(S141)。Ie値計算部141は、評価結果にITU-T P.833の変換式を用いることで、Ie値を求めることができる。
<Ie値計算部141(PESQ評価の場合)>
 Ie値計算部141は、受聴試験の評価結果と試験音のPESQ評価値について予め求めた回帰式を用いて試験音のPESQ評価値を線形変換して取得した主観評価の推定値に基づいて、E-modelのR値算出式におけるIe値を計算する(S141)。Ie値計算部141は、推定値にITU-T P.833の変換式を用いることで、Ie値を求めることができる。
 図14に示すように、Ie値はコーデックの受聴評価値であり、effは伝送エラーの情報である。
 また、前述したように、主観評価尺度は、「5:基準音との差がわからない」、「4:違いはあるが聞き取りに問題ない」、「3:違いがあり少し聞き取りにくい」、「2:違いがあり聞き取りにくい」、「1:違いがあり非常に聞き取りにくい」を含むように構成すれば好適である。
 また、前述したように、試験音は、N,M,Pを1以上の整数とし、音声ひずみをN段階、残留エコーをM段階、段階的に重畳させたP人の話者によるN×M×P条件の音声を含むように構成すれば好適である。
<R値計算部142>
 R値計算部142は、計算されたIe値に基づいて、E-modelのR値を計算し、R値記憶部140Aに記憶する(S142)。
<R値記憶部140A>
 R値記憶部140Aは、ステップS142で計算されたR値を記憶する。<補記>
 本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
 ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
 ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
 本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
 既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
 上述の各種の処理は、図15に示すコンピュータ10000の記録部10020に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部10010、入力部10030、出力部10040などに動作させることで実施できる。
 この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP-ROM(Electrically Erasable and Programmable-Read Only Memory)等を用いることができる。
 また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
 このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
 また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (7)

  1.  試験音の基準音との差分を示す文言と前記試験音の聞き取りやすさを示す文言の双方を含む主観評価尺度に基づき、DCRまたはITU-R BS.1116に基づいて、前記試験音を前記評価者が評価した評価結果に基づいて、E-modelのR値算出式におけるIe値を計算するIe値計算部と、
     計算されたIe値に基づいて、E-modelのR値を計算するR値計算部を含む
     通話品質評価装置。
  2.  請求項1に記載の通話品質評価装置であって、
     前記Ie値計算部は、
     前記評価結果と前記試験音のPESQ評価値について予め求めた回帰式を用いて前記試験音のPESQ評価値を線形変換して取得した主観評価の推定値に基づいて、E-modelのR値算出式におけるIe値を計算する
     通話品質評価装置。
  3.  請求項1または2に記載の通話品質評価装置であって、
     前記主観評価尺度は、「5:基準音との差がわからない」、「4:違いはあるが聞き取りに問題ない」、「3:違いがあり少し聞き取りにくい」、「2:違いがあり聞き取りにくい」、「1:違いがあり非常に聞き取りにくい」を含む
     通話品質評価装置。
  4.  請求項1または2に記載の通話品質評価装置であって、
     前記試験音は、
     N,M,Pを1以上の整数とし、音声ひずみをN段階、残留エコーをM段階、段階的に重畳させたP人の話者によるN×M×P条件の音声、または通信機の出力音声を含む
     通話品質評価装置。
  5.  通話品質評価装置が各ステップを実行する通話品質評価方法であって、
     試験音の基準音との差分を示す文言と前記試験音の聞き取りやすさを示す文言の双方を含む主観評価尺度に基づき、DCRまたはITU-R BS.1116に基づいて、前記試験音を前記評価者が評価した評価結果に基づいて、E-modelのR値算出式におけるIe値を計算するIe値計算ステップと、
     計算されたIe値に基づいて、E-modelのR値を計算するR値計算ステップを含む
     通話品質評価方法。
  6.  請求項5に記載の通話品質評価方法であって、
     前記Ie値計算ステップは、
     前記評価結果と前記試験音のPESQ評価値について予め求めた回帰式を用いて前記試験音のPESQ評価値を線形変換して取得した主観評価の推定値に基づいて、E-modelのR値算出式におけるIe値を計算する
     通話品質評価方法。
  7.  コンピュータを請求項1または2に記載の通話品質評価装置として機能させるプログラム。
PCT/JP2022/020056 2022-05-12 2022-05-12 通話品質評価装置、通話品質評価方法、プログラム WO2023218600A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/020056 WO2023218600A1 (ja) 2022-05-12 2022-05-12 通話品質評価装置、通話品質評価方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/020056 WO2023218600A1 (ja) 2022-05-12 2022-05-12 通話品質評価装置、通話品質評価方法、プログラム

Publications (1)

Publication Number Publication Date
WO2023218600A1 true WO2023218600A1 (ja) 2023-11-16

Family

ID=88730060

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/020056 WO2023218600A1 (ja) 2022-05-12 2022-05-12 通話品質評価装置、通話品質評価方法、プログラム

Country Status (1)

Country Link
WO (1) WO2023218600A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150156314A1 (en) * 2013-12-04 2015-06-04 International Business Machines Corporation Quality of experience determination for multi-party voip conference calls that account for focus degradation effects

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150156314A1 (en) * 2013-12-04 2015-06-04 International Business Machines Corporation Quality of experience determination for multi-party voip conference calls that account for focus degradation effects

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SHOKO KURIHARA ET AL.: "Examination of user experience quality evaluation method for hands-free loudspeaker calls with acoustic echo canceller processing", PROCEEDINGS OF THE 2015 SPRING MEETING OF THE ACOUSTICAL SOCIETY OF JAPAN; TOKYO, JAPAN; MARCH 16-18, 2015, vol. 2015, 18 March 2015 (2015-03-18) - 18 March 2015 (2015-03-18), pages 599 - 600, XP009550215 *
SHOKO KURIHARA ET AL.: "QoE estimation of in car communication systems", PROCEEDINGS OF THE 2019 AUTUMN MEETING OF THE ACOUSTICAL SOCIETY OF JAPAN; SHIGA-KEN, JAPAN; SEPTEMBER 4-6, 2019, vol. 2019, 4 September 2019 (2019-09-04) - 6 September 2019 (2019-09-06), pages 1319 - 1322, XP009550216 *
SHOKO KURIHARA, KATSUHIRO FUKUI, NOBORU HARADA: "B-11-27 Examination of QоE evaluation of hands-free loudspeaker call sound using PESQ", IEICE 2019 COMMUNICATION SOCIETY CONFERENCE PROCEEDINGS 2; SEPTEMBER 10-13, 2019, IEICE, JP, 27 August 2019 (2019-08-27) - 13 September 2019 (2019-09-13), JP, pages 183, XP009550548 *

Similar Documents

Publication Publication Date Title
Gamper et al. Intrusive and non-intrusive perceptual speech quality assessment using a convolutional neural network
Möller Assessment and prediction of speech quality in telecommunications
KR101430321B1 (ko) 오디오 시스템의 지각 품질을 결정하기 위한 방법 및 시스템
Harte et al. TCD-VoIP, a research database of degraded speech for assessing quality in VoIP applications
US20120116759A1 (en) Method, Computer, Computer Program and Computer Program Product for Speech Quality Estimation
DePaolis et al. Frequency importance functions for words, sentences, and continuous discourse
JP6571623B2 (ja) 音響品質評価装置、音響品質評価方法、およびプログラム
US8320552B2 (en) Delay estimator
Möller et al. Telephone speech quality prediction: towards network planning and monitoring models for modern network scenarios
WO2023218600A1 (ja) 通話品質評価装置、通話品質評価方法、プログラム
Moeller et al. Objective estimation of speech quality for communication systems
US11924368B2 (en) Data correction apparatus, data correction method, and program
Grundlehner et al. Performance assessment method for speech enhancement systems
JP5952252B2 (ja) 通話品質推定方法、通話品質推定装置、及びプログラム
Dimolitsas Subjective assessment methods for the measurement of digital speech coder quality
US10630836B2 (en) Systems and methods for adaption of a telephonic audio signal
Waltermann et al. Towards a new E-model impairment factor for linear distortion of narrowband and wideband speech transmission
Möller et al. Describing telephone speech codec quality degradations by means of impairment factors
Ghimire Speech intelligibility measurement on the basis of ITU-T Recommendation P. 863
Côté et al. Analysis of a quality prediction model for wideband speech quality, the WB-PESQ
Chan et al. Machine assessment of speech communication quality
Kettler et al. Evaluation of aurally-adequate analyses for echo assessment
CN117711435A (zh) 音频处理方法及装置、电子设备及计算机可读存储介质
Neves et al. Methods for quality assessment in enterprise VoIP communications
Biscainho et al. An objective method for quality assessment of ultra-wideband speech corrupted by echo

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22941680

Country of ref document: EP

Kind code of ref document: A1