RU2677878C1 - Способ и устройство для преобразования голоса в текст в конференц-вызове - Google Patents

Способ и устройство для преобразования голоса в текст в конференц-вызове Download PDF

Info

Publication number
RU2677878C1
RU2677878C1 RU2017129888A RU2017129888A RU2677878C1 RU 2677878 C1 RU2677878 C1 RU 2677878C1 RU 2017129888 A RU2017129888 A RU 2017129888A RU 2017129888 A RU2017129888 A RU 2017129888A RU 2677878 C1 RU2677878 C1 RU 2677878C1
Authority
RU
Russia
Prior art keywords
terminal
identifier
text
session
speech
Prior art date
Application number
RU2017129888A
Other languages
English (en)
Inventor
Сиюн ВАН
Хунжуй ЦЗЯН
Вэйцзюнь ЧЖЭН
Original Assignee
Хуавэй Текнолоджиз Ко., Лтд.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Хуавэй Текнолоджиз Ко., Лтд. filed Critical Хуавэй Текнолоджиз Ко., Лтд.
Application granted granted Critical
Publication of RU2677878C1 publication Critical patent/RU2677878C1/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/14Session management
    • H04L67/146Markers for unambiguous identification of a particular session, e.g. session cookie or URL-encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/64Automatic arrangements for answering calls; Automatic arrangements for recording messages for absent subscribers; Arrangements for recording conversations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/60Medium conversion

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Telephonic Communication Services (AREA)

Abstract

Изобретения относится к области преобразования речи в текст и области технологий связи, а именно к преобразованию речи в текст в конференц-вызове. Техническим результатом является сокращение времени и повышение точности получения текста, преобразованного из голоса в конференц-вызове. Для этого осуществляют прием запросов преобразования речи в текст, отправленных по меньшей мере двумя терминалами, где запросы преобразования речи в текст включают в себя первый идентификатор и второй идентификатор, и выделение сеанса по меньшей мере двум терминалам, так что в запросах преобразования речи в текст, отправленных по меньшей мере двумя терминалами, терминалам, которые имеют один и тот же первый идентификатор или один и тот же второй идентификатор, выделяется один и тот же сеанс. При этом производят прием, посредством использования домена с коммутацией пакетов, голосового потока, чья частота выборки больше, чем 8 кГц, и который отправлен по меньшей мере одним терминалом в одном конференц-вызове, где конференц-вызов соответствует одному сеансу; преобразование голосового потока в текст; и отправку текста терминалу в конференц-вызове. 4 н. и 12 з.п. ф-лы, 8 ил., 3 табл.

Description

ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ
[0001] Настоящее изобретение относится к области технологий связи, и в частности, к способу и устройству для преобразования речи в текст в конференц-вызове.
УРОВЕНЬ ТЕХНИКИ
[0002] С непрерывным развитием технологий связи, телефон является неотъемлемой частью повседневной жизни, и телефон имеет много функций. Так как совершение вызова является быстрым и удобным, многие важные бизнес-согласования, трудовые договоренности, переговоры и подобное выполняются посредством совершения вызова. Чтобы гарантировать надежность выполнения вышеуказанной работы посредством совершения вызова, после завершения голосового диалога должна быть получена запись вызова (т.е., текст вызова).
[0003] В настоящее время, основной способ получения текста вызова является таким, как следует ниже: сначала выполнение ручной записи, и затем прослушивание записи вручную и компилирование записи в текст, и точность текста вызова, полученного таким образом, является относительно высокой, но такой способ является затратным по времени и усилиям. В качестве альтернативы, в процессе вызова, выборка голосового потока вызова, и отправка голосового потока, полученного посредством выборки, в механизм распознавания речи. Механизм распознавания речи преобразовывает голосовую информацию в текстовую информацию и отправляет преобразованный текст в терминал, используемый пользователем. Процесс не требует ручного режима и сберегает усилия и время человека. Однако, так как частота выборки голосовой информации, полученная посредством использования домена с коммутацией каналов, составляет 8 кГц, эффект распознавания речи посредством механизма распознавания речи является слабым, и точность текста, преобразованного механизмом распознавания речи, является низкой.
[0004] В заключение, в настоящее время нет способа точного определения текста, преобразованного из голоса в конференц-вызове, сберегающим время и нетрудозатратным образом.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
[0005] Варианты осуществления настоящего изобретения предусматривают способ и устройство для преобразования речи в текст в конференц-вызове. Так можно получить текст, преобразованный из голоса в конференц-вызове, сберегающим время и нетрудозатратным образом.
[0006] Чтобы достигнуть вышеприведенной цели, в вариантах осуществления настоящего изобретения применяются нижеследующие технические решения:
[0007] Согласно первому аспекту, предусматривается способ преобразования речи в текст в конференц-вызове, при этом способ применяется к серверу и включает в себя:
прием запросов преобразования речи в текст, которые отправляются по меньшей мере двумя терминалами, где запросы преобразования речи в текст включают в себя первый идентификатор и второй идентификатор;
выделение сеанса по меньшей мере двум терминалам, так что в запросах преобразования речи в текст, отправленных по меньшей мере двумя терминалами, терминалы, которые имеют один и тот же первый идентификатор или один и тот же второй идентификатор, имеют один и тот же сеанс;
прием, посредством использования домена с коммутацией пакетов, голосового потока, чья частота выборки больше, чем 8 кГц, и который отправлен по меньшей мере одним терминалом в одном конференц-вызове, где конференц-вызов соответствует одному сеансу;
преобразование голосового потока в текст; и
отправку текста в терминал в конференц-вызове.
[0008] Со ссылкой на первый аспект, в первом возможном способе реализации первого аспекта, выделение сеанса по меньшей мере двум терминалам включает в себя:
если база данных включает первый идентификатор или второй идентификатор в запрос преобразования речи в текст, отправленный первым терминалом, выделение первому терминалу сеанса, который находится в базе данных и соответствует первому идентификатору или второму идентификатору в запросе преобразования речи в текст, отправленном первым терминалом, где первым терминалом является любой терминал по меньшей мере из двух терминалов, и база данных включает в себя по меньшей мере один сеанс и идентификатор терминала, соответствующий по меньшей мере одному сеансу; и
если база данных не включает первый идентификатор и второй идентификатор в запрос преобразования речи в текст, отправленный вторым терминалом, первый идентификатор в запросе преобразования речи в текст, отправленном вторым терминалом, является таким же как первый идентификатор в запросе преобразования речи в текст, отправленном третьим терминалом, и второй идентификатор в запросе преобразования речи в текст, отправленном вторым терминалом, является таким же как второй идентификатор в запросе преобразования речи в текст, отправленном третьим терминалом, выделение одного и того же нового сеанса второму терминалу и третьему терминалу.
[0009] Со ссылкой на первый аспект или первый возможный способ реализации первого аспекта, во втором возможном способе реализации первого аспекта, текст включает в себя идентификатор по меньшей мере одного терминала, или текст включает в себя идентификатор и имя пользователя, которые принадлежат по меньшей мере к одному терминалу.
[0010] Со ссылкой на первый аспект или первый возможный способ реализации первого аспекта или второй возможный способ реализации первого аспекта, в третьем возможном способе реализации первого аспекта, после выделения сеанса по меньшей мере двум терминалам, способ дополнительно включает в себя:
если выделенный сеанс является новым сеансом, установление соответствия между выделенным сеансом и идентификаторами по меньшей мере двух терминалов, и добавление соответствия в базу данных; или
если выделенный сеанс является сеансом в базе данных, добавление в базу данных идентификатора, который есть среди идентификаторов по меньшей мере двух терминалов и который принадлежит к терминалу, не включенному в базу данных, так чтобы добавленный идентификатор соответствовал выделенному сеансу.
[0011] Со ссылкой на любой один из первого аспекта, или с первого по третий возможные способы реализации первого аспекта, в четвертом возможном способе реализации первого аспекта, после приема, посредством использования домена с коммутацией пакетов, голосового потока, чья частота выборки больше, чем 8 кГц, и который отправлен по меньшей мере одним терминалом в одном конференц-вызове, способ дополнительно включает в себя:
прием сообщения об окончании, отправленного пятым терминалом;
удаление идентификатора пятого терминала из базы данных; и
если идентификатор терминала, соответствующий сеансу, является пустым в базе данных, удаление сеанса из базы данных.
[0012] Согласно второму аспекту, предусматривается устройство для преобразования речи в текст в конференц-вызове, где устройство включает в себя:
первый блок приема, выполненный с возможностью приема запросов преобразования речи в текст, которые отправлены по меньшей мере двумя терминалами, где запросы преобразования речи в текст включают в себя первый идентификатор и второй идентификатор;
блок выделения, выполненный с возможностью выделения сеанса по меньшей мере двум терминалам, так что в запросах преобразования речи в текст, отправленных по меньшей мере двумя терминалами, терминалы, которые имеют один и тот же первый идентификатор или один и тот же второй идентификатор, имеют один и тот же сеанс;
второй блок приема, выполненный с возможностью приема, посредством использования домена с коммутацией пакетов, голосового потока, чья частота выборки больше, чем 8 кГц, и который отправлен по меньшей мере одним терминалом в одном конференц-вызове, где конференц-вызов соответствует одному сеансу;
блок преобразования, выполненный с возможностью преобразования голосового потока в текст; и
блок отправки, выполненный с возможностью отправки текста в терминал в конференц-вызове.
[0013] Со ссылкой на второй аспект, в первом возможном способе реализации второго аспекта, блок выделения выполнен с возможностью:
если база данных включает первый идентификатор или второй идентификатор в запрос преобразования речи в текст, отправленный первым терминалом, выделения первому терминалу сеанса, который находится в базе данных и соответствует первому идентификатору или второму идентификатору в запросе преобразования речи в текст, отправленном первым терминалом, где первым терминалом является любой терминал по меньшей мере из двух терминалов, и база данных включает в себя по меньшей мере один сеанс и идентификатор терминала, соответствующий по меньшей мере одному сеансу; и
если база данных не включает первый идентификатор и второй идентификатор в запрос преобразования речи в текст, отправленный вторым терминалом, первый идентификатор в запросе преобразования речи в текст, отправленном вторым терминалом, является таким же как первый идентификатор в запросе преобразования речи в текст, отправленном третьим терминалом, и второй идентификатор в запросе преобразования речи в текст, отправленном вторым терминалом, является таким же как второй идентификатор в запросе преобразования речи в текст, отправленном третьим терминалом, выделения одного и того же нового сеанса второму терминалу и третьему терминалу.
[0014] Со ссылкой на второй аспект или первый возможный способ реализации второго аспекта, во втором возможном способе реализации второго аспекта, текст включает в себя идентификатор по меньшей мере одного терминала, или текст включает в себя идентификатор и имя пользователя, которые принадлежат по меньшей мере к одному терминалу.
[0015] Со ссылкой на второй аспект или первый возможный способ реализации второго аспекта, или второй возможный способ реализации второго аспекта, в третьем возможном способе реализации второго аспекта, устройство дополнительно включает в себя:
блок добавления, выполненный с возможностью: если выделенный сеанс является новым сеансом, установления соответствия между выделенным сеансом и идентификаторами по меньшей мере двух терминалов, и добавления соответствия в базу данных; где
блок добавления дополнительно выполнен с возможностью: если выделенный сеанс является сеансом в базе данных, добавления в базу данных идентификатора, который есть среди идентификаторов по меньшей мере двух терминалов и который принадлежит к терминалу, не включенному в базу данных, так чтобы добавленный идентификатор соответствовал выделенному сеансу.
[0016] Со ссылкой на любой один из второго аспекта, или с первого по третий возможные способы реализации второго аспекта, в четвертом возможном способе реализации второго аспекта, устройство дополнительно включает в себя:
третий блок приема, выполненный с возможностью приема сообщения об окончании, отправленного пятым терминалом; и
блок удаления, выполненный с возможностью удаления идентификатора пятого терминала из базы данных; где
блок удаления дополнительно выполнен с возможностью: если идентификатор терминала, соответствующий сеансу, является пустым в базе данных, удаления сеанса из базы данных.
[0017] Согласно третьему аспекту, предусматривается устройство для преобразования речи в текст в конференц-вызове, где устройство включает в себя:
первый приемник, выполненный с возможностью приема запросов преобразования речи в текст, которые отправлены по меньшей мере двумя терминалами, где запросы преобразования речи в текст включают в себя первый идентификатор и второй идентификатор;
процессор, выполненный с возможностью выделения сеанса по меньшей мере двум терминалам, так что в запросах преобразования речи в текст, отправленных по меньшей мере двумя терминалами, терминалы, которые имеют один и тот же первый идентификатор или один и тот же второй идентификатор, имеют один и тот же сеанс;
второй приемник, выполненный с возможностью приема, посредством использования домена с коммутацией пакетов, голосового потока, чья частота выборки больше, чем 8 кГц, и который отправлен по меньшей мере одним терминалом в одном конференц-вызове, где конференц-вызов соответствует одному сеансу; где
процессор дополнительно выполнен с возможностью преобразования голосового потока в текст; и
передатчик, выполненный с возможностью отправки текста в терминал в конференц-вызове.
[0018] Со ссылкой на третий аспект, в первом возможном способе реализации третьего аспекта, процессор дополнительно выполнен с возможностью:
если база данных включает первый идентификатор или второй идентификатор в запрос преобразования речи в текст, отправленный первым терминалом, выделения первому терминалу сеанса, который находится в базе данных и соответствует первому идентификатору или второму идентификатору в запросе преобразования речи в текст, отправленном первым терминалом, где первым терминалом является любой терминал по меньшей мере из двух терминалов, и база данных включает в себя по меньшей мере один сеанс и идентификатор терминала, соответствующий по меньшей мере одному сеансу; и
если база данных не включает первый идентификатор и второй идентификатор в запрос преобразования речи в текст, отправленный вторым терминалом, первый идентификатор в запросе преобразования речи в текст, отправленном вторым терминалом, является таким же как первый идентификатор в запросе преобразования речи в текст, отправленном третьим терминалом, и второй идентификатор в запросе преобразования речи в текст, отправленном вторым терминалом, является таким же как второй идентификатор в запросе преобразования речи в текст, отправленном третьим терминалом, выделения одного и того же нового сеанса второму терминалу и третьему терминалу.
[0019] Со ссылкой на третий аспект или первый возможный способ реализации третьего аспекта, во втором возможном способе реализации третьего аспекта, текст включает в себя идентификатор по меньшей мере одного терминала, или текст включает в себя идентификатор и имя пользователя, которые принадлежат по меньшей мере к одному терминалу.
[0020] Со ссылкой на третий аспект или первый возможный способ реализации третьего аспекта или второй возможный способ реализации третьего аспекта, в третьем возможном способе реализации третьего аспекта,
процессор дополнительно выполнен с возможностью: если выделенный сеанс является новым сеансом, установления соответствия между выделенным сеансом и идентификаторами по меньшей мере двух терминалов, и добавления соответствия в базу данных; и
процессор дополнительно выполнен с возможностью: если выделенный сеанс является сеансом в базе данных, добавления в базу данных идентификатора, который есть среди идентификаторов по меньшей мере двух терминалов и который принадлежит к терминалу, не включенному в базу данных, так чтобы добавленный идентификатор соответствовал выделенному сеансу.
[0021] Со ссылкой на любой один из третьего аспекта, или с первого по третий возможные способы реализации третьего аспекта, в четвертом возможном способе реализации третьего аспекта, устройство дополнительно включает в себя:
третий приемник, выполненный с возможностью приема сообщения об окончании, отправленного пятым терминалом; где
процессор дополнительно выполнен с возможностью удаления идентификатора пятого терминала из базы данных; и
процессор дополнительно выполнен с возможностью: если идентификатор терминала, соответствующий сеансу, является пустым в базе данных, удаления сеанса из базы данных.
[0022] Согласно способу и устройству для преобразования речи в текст в конференц-вызове, которые предусмотрены в вариантах осуществления настоящего изобретения, принимаются запросы преобразования речи в текст, отправленные по меньшей мере двумя терминалами, где запросы преобразования речи в текст включают в себя первый идентификатор и второй идентификатор; сеанс выделяется по меньшей мере двум терминалам, так что в запросах преобразования речи в текст, отправленных по меньшей мере двумя терминалами, терминалам, которые имеют один и тот же первый идентификатор или один и тот же второй идентификатор, выделяется один и тот же сеанс; голосовой поток, чья частота выборки больше, чем 8 кГц, и который отправлен по меньшей мере одним терминалом в одном конференц-вызове, принимается посредством использования домена с коммутацией пакетов, где конференц-вызов соответствует одному сеансу; голосовой поток преобразовывается в текст; и текст отправляется терминалу в конференц-вызове. Так как принятый голосовой поток является голосовым потоком, чья частота выборки больше, чем 8 кГц, и который принят посредством использования домена с коммутацией пакетов, домен с коммутацией пакетов может поддерживать передачу голосового потока с высокой частотой выборки, и после преобразования принятого голосового потока в текст, точность полученного текста является высокой. К тому же, процесс не требует ручного режима, и является относительно быстрым и сберегает усилия и время человека. В заключение, можно узнать, что посредством использования способа, предусмотренного в настоящем изобретении, точное получение текста, преобразованного из голоса в конференц-вызове, может быть реализовано сберегающим время и нетрудозатратным образом, который разрешает проблему в предшествующем уровне техники, что получение текста, преобразованного из голоса в конференц-вызове, является либо затратным по времени и усилиям, либо неточным.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
[0023] Чтобы более ясно описать технические решения в вариантах осуществления настоящего изобретения или в предшествующем уровне техники, далее кратко описаны прилагаемые чертежи, требуемые для описания вариантов осуществления или известного уровня техники. Очевидно, прилагаемые чертежи в нижеследующем описании показывают лишь некоторые варианты осуществления настоящего изобретения, и специалисты в данной области техники могут получить другие чертежи из этих прилагаемых чертежей без творческих усилий.
[0024] Фиг. 1 является схемой архитектуры сети для преобразования речи в текст в конференц-вызове согласно варианту осуществления настоящего изобретения;
[0025] Фиг. 2 является принципиальной схемой последовательности операций способа преобразования речи в текст в конференц-вызове согласно варианту осуществления настоящего изобретения;
[0026] Фиг. 3 является принципиальной схемой последовательности операций другого способа преобразования речи в текст в конференц-вызове согласно варианту осуществления настоящего изобретения;
[0027] Фиг. 4A и Фиг. 4B являются принципиальными схемами последовательности операций еще одного способа преобразования речи в текст в конференц-вызове согласно варианту осуществления настоящего изобретения;
[0028] Фиг. 5 является принципиальной структурной схемой устройства для преобразования речи в текст в конференц-вызове согласно варианту осуществления настоящего изобретения;
[0029] Фиг. 6 является принципиальной структурной схемой другого устройства для преобразования речи в текст в конференц-вызове согласно варианту осуществления настоящего изобретения;
[0030] Фиг. 7 является принципиальной структурной схемой еще одного устройства для преобразования речи в текст в конференц-вызове согласно варианту осуществления настоящего изобретения; и
[0031] Фиг. 8 является принципиальной структурной схемой еще одного устройства для преобразования речи в текст в конференц-вызове согласно варианту осуществления настоящего изобретения.
ОПИСАНИЕ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ
[0032] В дальнейшем ясно и полностью описываются технические решения в вариантах осуществления настоящего изобретения со ссылкой на прилагаемые чертежи в вариантах осуществления настоящего изобретения. Очевидно, описанные варианты осуществления являются некоторыми, но не всеми, из вариантов осуществления настоящего изобретения. Все другие варианты осуществления, полученные средними специалистами в данной области техники на основе вариантов осуществления настоящего изобретения без творческих усилий, попадут в объем правовой охраны настоящего изобретения.
[0033] Фиг. 1 показывает схему архитектуры сети для преобразования речи в текст в конференц-вызове. Терминал 1 - терминал N устанавливают конференц-вызов, и каждый из терминала 1 - терминала N обеспечивает возможность функции преобразования речи в текст. В процесс вызова, терминал 1 - терминал N отправляют голосовой поток на сервер посредством использования домена с коммутацией пакетов, и сервер преобразовывает голосовой поток в текст, и сервер отправляет текст терминалу 1 - терминалу N.
Вариант осуществления 1
[0034] Вариант осуществления 1 настоящего изобретения предусматривает способ для преобразования речи в текст в конференц-вызове. Как показано на Фиг. 2, способ может включать в себя нижеследующие этапы.
[0035] S201. Сервер принимает запросы преобразования речи в текст, отправленные по меньшей мере двумя терминалами.
[0036] Запросы преобразования речи в текст включают в себя первый идентификатор и второй идентификатор.
[0037] Опционально, сервером может быть сервер, предоставленный оператором, или сервер, предоставленный третьей стороной.
[0038] Запросы преобразования речи в текст могут быть автоматически отправлены терминалом на сервер во время конференц-вызова, когда активирован микрофон (Microphone, MIC для краткости), расположенный на терминале.
[0039] Опционально, MIC, расположенный на терминале, может быть активирован нижеследующими двумя способами:
[0040] Способ 1. При совершении вызова или ответе на вызов, пользователь вручную активирует MIC.
[0041] Способ 2. Пользователь задает в терминале, что когда пользователь совершает вызов или отвечает на вызов, MIC активируется по умолчанию.
[0042] Следует отметить, что в процессе практического применения, способ активирования MIC на терминале может быть задан согласно фактическому требованию, что не ограничивается в настоящем изобретении.
[0043] Следует отметить, что запрос преобразования речи в текст может быть в форме сигнализации, или может быть в форме сообщения. Форма запроса преобразования речи в текст не ограничивается в настоящем изобретении. Когда запрос преобразования речи в текст находится в форме сигнализации, он может быть существующей сигнализацией или может быть вновь заданной сигнализацией. Тип сигнализации запроса преобразования речи в текст также не ограничивается в настоящем изобретении.
[0044] Следует дополнительно отметить, что запрос преобразования речи в текст может дополнительно включать в себя другой контент, такой как имя пользователя и адрес электронной почты, которые принадлежат к терминалу. Контент может быть предварительно задан пользователем в терминале. В процессе практического применения, разный контент может быть добавлен в запрос преобразования речи в текст согласно фактическому требованию. Конкретный контент, включенный в запрос преобразования речи в текст, не ограничивается в настоящем изобретении.
[0045] Опционально, первый идентификатор и второй идентификатор могут быть идентификатором терминала.
[0046] Идентификатор терминала может уникально определять терминал.
[0047] Предпочтительно, идентификатором терминала является телефонный номер терминала.
[0048] В процессе конференц-вызова, терминалы, участвующие в конференц-вызове, включают в себя вызывающий терминал и вызываемый терминал. Вызывающий терминал является терминалом, используемым пользователем для активного совершения исходящего вызова, и вызываемый терминал является терминалом, используемым пользователем для пассивного ответа на вызов.
[0049] Конкретно, первый идентификатор может быть идентификатором вызывающего терминала, и соответственно, второй идентификатор может быть идентификатором вызываемого терминала; или первый идентификатор может быть идентификатором вызываемого терминала, и соответственно, второй идентификатор может быть идентификатором вызывающего терминала.
[0050] Например, предполагается, что терминал 1, чьим телефонным номером является 123, и терминал 2, чьим телефонным номером является 456, находятся в процессе вызова (предполагая, что терминал 1 является вызывающим терминалом, и терминал 2 является вызываемым терминалом), когда терминал 1 активирует функцию преобразования речи в текст, сервер принимает запрос преобразования речи в текст <123, 456> терминала 1; и когда терминал 2 активирует функцию преобразования речи в текст, сервер принимает запрос преобразования речи в текст <123, 456> терминала 2.
[0051] S202. Сервер выделяет сеанс по меньшей мере двум терминалам, так что в запросах преобразования речи в текст, отправленных по меньшей мере двумя терминалами, терминалам, которые имеют один и тот же первый идентификатор или один и тот же второй идентификатор, выделяется один и тот же сеанс.
[0052] Сеанс является процессом, в котором многочисленные стороны (в том числе две стороны) осуществляют телефонную связь. Когда конференц-вызов полностью установлен, и каждая сторона, участвующая в конференц-вызове, активирует функцию преобразования вызова в текст, сеанс выделяется терминалам, используемым всеми сторонами, участвующими в вызове.
[0053] Например, если конференц-вызов предусматривает десять участников, и все десять участников активируют функцию преобразования вызова в текст, сеанс выделяется терминалам, используемым десятью участниками.
[0054] То, что сервер выделяет сеанс по меньшей мере двум терминалам, так что в запросах преобразования речи в текст, отправленных по меньшей мере двумя терминалами, терминалам, которые имеют один и тот же первый идентификатор или один и тот же второй идентификатор, выделяется один и тот же сеанс, может включать в себя нижеследующие три случая:
[0055] Случай 1. Сервер выделяет сеанс по меньшей мере двум терминалам, так что в запросах преобразования речи в текст, отправленных по меньшей мере двумя терминалами, терминалам, которые имеют один и тот же первый идентификатор и один и тот же второй идентификатор, выделяется один и тот же сеанс.
[0056] Например, сервер принимает запрос 1 преобразования речи в текст <123, 456> терминала A и принимает запрос 2 преобразования речи в текст <123, 456> терминала B. Так как первый идентификатор 123, включенный в запрос преобразования речи в текст терминала A, является таким же как первый идентификатор 123, включенный в запрос преобразования речи в текст терминала B, и второй идентификатор 456, включенный в запрос преобразования речи в текст терминала A, является таким же как второй идентификатор 456, включенный в запрос преобразования речи в текст терминала B, сервер выделяет один и тот же сеанс терминалу A и терминалу B, так что в запросах преобразования речи в текст, отправленных по меньшей мере двумя терминалами, терминалам, которые имеют один и тот же первый идентификатор и один и тот же второй идентификатор, выделяется один и тот же сеанс.
[0057] Случай 2. Сервер выделяет сеанс по меньшей мере двум терминалам, так что в запросах преобразования речи в текст, отправленных по меньшей мере двумя терминалами, терминалы, которые имеют один и тот же первый идентификатор, имеют один и тот же сеанс.
[0058] Например, сервер принимает запрос 1 преобразования речи в текст <100, 001>, который отправляется терминалом 1 на сервер, и принимает запрос 2 преобразования речи в текст <100, 002> терминала 2. Запрос 1 преобразования речи в текст и запрос 2 преобразования речи в текст имеют один и тот же первый идентификатор (100). Вследствие этого, один и тот же сеанс выделяется терминалу 1 и терминалу 2, так что в запросах преобразования речи в текст, отправленных по меньшей мере двумя терминалами, терминалы, которые имеют один и тот же первый идентификатор, имеют один и тот же сеанс.
[0059] Случай 3. Сервер выделяет сеанс по меньшей мере двум терминалам, так что в запросах преобразования речи в текст, отправленных по меньшей мере двумя терминалами, терминалы, которые имеют один и тот же второй идентификатор, имеют один и тот же сеанс.
[0060] Например, сервер принимает запрос 1 преобразования речи в текст <001, 100>, который отправляется терминалом 1 на сервер, и принимает запрос 2 преобразования речи в текст <002, 100> терминала 2. Запрос 1 преобразования речи в текст и запрос 2 преобразования речи в текст имеют один и тот же второй идентификатор (100). Вследствие этого, один и тот же сеанс выделяется терминалу 1 и терминалу 2, так что в запросах преобразования речи в текст, отправленных по меньшей мере двумя терминалами, терминалы, которые имеют один и тот же второй идентификатор, имеют один и тот же сеанс.
[0061] S203. Сервер принимает, посредством использования домен с коммутацией пакетов, голосовой поток, чья частота выборки больше, чем 8 кГц, и который отправлен по меньшей мере одним терминалом в одном конференц-вызове.
[0062] Один конференц-вызов соответствует одному сеансу.
[0063] Домен с коммутацией пакетов относится к линии связи для передачи сервиса данных. Частота выборки для голоса, передаваемого посредством использования домена с коммутацией пакетов, может быть больше, чем 8 кГц.
[0064] Частота выборки может также называться интервалом выборки, измеряемом в Герцах (Герц, Гц для краткости), т.е. количество выборок, извлекаемое из непрерывных сигналов в секунду.
[0065] Предпочтительно, частота выборки, которая отправляется терминалом, участвующим в сеансе, и которая принимается сервером посредством использования домена с коммутацией пакетов, составляет 16 килогерц (килогерц, кГц для краткости).
[0066] Следует отметить, что до приема сервером, посредством использования домена с коммутацией пакетов, голосового потока, чья частота выборки больше, чем 8 кГц, и который отправляется терминалом, участвующим в сеансе, информационное соединение должно быть установлено между терминалом и сервером. Опционально, способ установления информационного соединения включает в себя, но не ограничено этим, соединение между сокетами посредством протокола управления передачей (Transmission Control Protocol, TCP для краткости), соединение посредством протокола передачи гипертекста (Hypertext Transfer Protocol, HTTP для краткости) и подобное. Посредством использования вышеуказанных способов информационного соединения, голосовой поток, отправленный терминалом на сервер, передается в домене с коммутацией пакетов.
[0067] S204. Сервер преобразовывает голосовой поток в текст.
[0068] Опционально, может быть, что механизм распознавания речи, развернутый на сервере, преобразовывает голосовой поток в текст вызова.
[0069] Предпочтительно, преобразование голосового потока в текст вызова может быть выполнено в реальном времени.
[0070] Следует отметить, что текст, преобразованный из голосового потока сервером, является текстом, преобразованным из голосового потока каждого участника в конференц-вызове, и контент, включенный в текст, сортируется согласно речевой последовательности каждого участника в конференц-вызове.
[0071] Например, конференц-вызов включает в себя трех участников, которые являются соответственно участником 1, участником 2 и участником 3. Предполагается, что в конференц-вызове, участник 1 говорит: "Как ты думаешь, какое место относительно удобно для дискуссии?", затем участник 2 говорит: "Я думаю, относительно удобным местом является первая переговорная комната", и тогда участник 3 говорит: "Я думаю, штаб-квартира компании является относительно подходящим местом". Тогда текст, который преобразовывается сервером из голосового потока конференц-вызова является таким, как следует ниже:
"Как ты думаешь, какое место относительно удобно для дискуссии;
Я думаю, первая переговорная комната является относительно подходящим местом; и
Я думаю, штаб-квартира компании является относительно подходящим местом".
[0072] S205. Сервер отправляет текст терминалу в конференц-вызове.
[0073] Например, предполагается, что участники в конференц-вызове включают в себя терминал 1, терминал 2 и терминал 3. Сервер принимает голосовые потоки терминала 1, терминала 2 и терминала 3, преобразовывает принятые голосовые потоки трех терминалов в текст, и отправляет текст терминалу 1, терминалу 2 и терминалу 3.
[0074] Опционально, сервер может различить разные сеансы посредством выделения уникального идентификатора сеанса каждому сеансу, и когда сервер выделяет сеанс по меньшей мере двум терминалам, может отправить идентификатор сеанса, выделенный сеансу, в терминал сеанса.
[0075] Соответственно, в голосовом потоке, чья частота выборки больше, чем 8 кГц, и который отправлен по меньшей мере одним терминалом в одном конференц-вызове и принят сервером посредством использования домена с коммутацией пакетов, может также включать в себя идентификатор сеанса, так чтобы сервер различал сеансы.
[0076] Согласно способу преобразования голоса в текст в конференц-вызове, предусмотренном в этом варианте осуществления настоящего изобретения, сервер принимает запросы преобразования речи в текст, отправленные по меньшей мере двумя терминалами, где запросы преобразования речи в текст включают в себя первый идентификатор и второй идентификатор; выделяет сеанс по меньшей мере двум терминалам, так что в запросах преобразования речи в текст, отправленных по меньшей мере двумя терминалами, терминалам, которые имеют один и тот же первый идентификатор или один и тот же второй идентификатор, выделяется один и тот же сеанс; принимает, посредством использования домена с коммутацией пакетов, голосовой поток, чья частота выборки больше, чем 8 кГц, и который отправлен по меньшей мере одним терминалом в одном конференц-вызове, где конференц-вызов соответствует одному сеансу; преобразовывает голосовой поток в текст; и отправляет текст терминалу в конференц-вызове. Так как голосовой поток, принятый сервером, является голосовым потоком, чья частота выборки больше, чем 8 кГц, и который принят посредством использования домена с коммутацией пакетов, домен с коммутацией пакетов может поддерживать передачу голосового потока с высокой частотой выборки, и после преобразования принятого голосового потока в текст, точность полученного текста является высокой. К тому же, процесс не требует ручного режима, и является относительно быстрым и сберегает усилия и время человека. В заключение, можно узнать, что посредством использования способа, предусмотренного в настоящем изобретении, точное получение текста, преобразованного из голоса в конференц-вызове, может быть реализовано сберегающим время и нетрудозатратным образом, который разрешает проблему в предшествующем уровне техники, что получение текста, преобразованного из голоса в конференц-вызове, является либо затратным по времени и усилиям, либо неточным.
Вариант осуществления 2
[0077] Вариант осуществления 2 настоящего изобретения предусматривает способ для преобразования речи в текст в конференц-вызове. Как показано на Фиг. 3, способ может включать в себя нижеследующие этапы:
[0078] S301. Сервер принимает запросы преобразования речи в текст, отправленные по меньшей мере двумя терминалами.
[0079] Запросы преобразования речи в текст включают в себя первый идентификатор и второй идентификатор.
[0080] Следует отметить, что S301 является таким же как S201, и подробности здесь не описываются.
[0081] S302. Сервер выделяет сеанс по меньшей мере двум терминалам, так что в запросах преобразования речи в текст, отправленных по меньшей мере двумя терминалами, терминалы, которые имеют один и тот же первый идентификатор или один и тот же второй идентификатор, имеют один и тот же сеанс.
[0082] Конкретно, то, что сервер выделяет сеанс по меньшей мере двум терминалам, включает в себя нижеследующие два случая:
[0083] Случай 1. Когда база данных не включает первый идентификатор и второй идентификатор в запрос преобразования речи в текст, отправленный вторым терминалом, первый идентификатор в запросе преобразования речи в текст, отправленном вторым терминалом, является таким же как первый идентификатор в запросе преобразования речи в текст, отправленном третьим терминалом, и второй идентификатор в запросе преобразования речи в текст, отправленном вторым терминалом, является таким же как второй идентификатор в запросе преобразования речи в текст, отправленном третьим терминалом, один и тот же новый сеанс выделяется второму терминалу и третьему терминалу.
[0084] База данных включает в себя по меньшей мере один сеанс и идентификатор терминала, соответствующий по меньшей мере одному сеансу.
[0085] Опционально, база данных может храниться в форме таблицы. Таблица 1 показывает тип базы данных.
Таблица 1
Сеанс Идентификатор терминала
Сеанс 1 Терминал 1 и терминал 2
Сеанс 2 Терминал 3, терминал 4 и терминал 5
Сеанс 3 Терминал 8, терминал 9, терминал 10 и терминал 11
[0086] Следует отметить, что таблица 1 показывает форму и контент базы данных лишь в форме таблицы, и не задает конкретного ограничения на форму и контент базы данных. Конечно, база данных может также храниться в другой форме, и может включать в себя другой контент, что не ограничивается в настоящем изобретении.
[0087] Пример 1: Терминал 1, чьим телефонным номером является 111, и терминал 2, чьим телефонным номером является 222, устанавливают вызов, и оба, терминал 1 и терминал 2, активируют функцию преобразования вызова в текст. Сервер принимает запрос 1 преобразования речи в текст <111, 222> терминала 1 и запрос 2 преобразования речи в текст <111, 222> терминала 2.
[0088] Предполагается, что база данных не включает первый идентификатор (111) и второй идентификатор (222) в запросы преобразования речи в текст, которые отправляются терминалом 1 и терминалом 2. Так как первый идентификатор (111) в запросе 1 преобразования речи в текст является таким же как первый идентификатор (111) в запросе 2 преобразования речи в текст, и второй идентификатор (222) в запросе 1 преобразования речи в текст является таким же как второй идентификатор (222) в запросе 2 преобразования речи в текст, один и тот же новый сеанс 4 выделяется терминалу 1 и терминалу 2.
[0089] Случай 2. База данных включает первый идентификатор или второй идентификатор в запрос преобразования речи в текст, отправленный первым терминалом; и
сеанс, который находится в базе данных и соответствует первому идентификатору или второму идентификатору в запросе преобразования речи в текст, отправленном первым терминалом, выделяется первому терминалу.
[0090] Первым терминалом является любой терминал по меньшей мере из двух терминалов.
[0091] Пример 2: на основе примера 1 в случае 1, во время вызова между терминалом 1 и терминалом 2, терминал 1 совершает вызов на терминал 3, чьим телефонным номером является 333, так чтобы терминал 3 участвовал в конференц-вызове между терминалом 1 и терминалом 2. Предполагается, что и терминал 1, и терминал 3 активируют функцию преобразования вызова в текст. Сервер принимает запрос 3 преобразования речи в текст <111, 333> терминала 1 и запрос 4 преобразования речи в текст <111, 333> терминала 3.
[0092] Так как база данных включает первый идентификатор (111) в запрос 3 преобразования речи в текст и запрос 4 преобразования речи в текст, и сеанс, соответствующий первому идентификатору (111), является сеансом 4, сеанс 4, который находится в базе данных и соответствует первому идентификатору (111), выделяется терминалу 1 и терминалу 3.
[0093] Следует отметить, что в конференц-вызове, предполагается, что конференц-вызов устанавливается таким образом, при котором общий терминал совершает вызов нескольких участников, или конференц-вызов устанавливается таким образом, при котором несколько участников совершают вызов на общий терминал. После установления вызова с несколькими участниками, общий терминал по умолчанию отправляет запрос преобразования речи в текст на сервер. В дополнение, в процессе конференц-вызова, общий терминал может отправить раз запрос преобразования речи в текст на сервер, только при установлении вызова с участниками в первый раз, и сервер также должен только раз выделить сеанс общему терминалу.
[0094] Например, после установления терминалом 1 (чьим идентификатором является 111) конференц-вызова с общим терминалом (чьим идентификатором является 100), терминал 1 отправляет запрос 1 преобразования речи в текст <111, 000> на сервер, общий терминал отправляет запрос 2 преобразования речи в текст <111, 000> на сервер, и сервер выделяет сеанс 1 терминалу 1 и общему терминалу. В конференц-вызове, терминал 2 (чьим идентификатором является 111) присоединяется к конференц-вызову посредством совершения вызова на общий терминал (чьим идентификатором является 100). Затем терминал 2 отправляет запрос 1 преобразования речи в текст <222, 100> на сервер, и общий терминал больше не отправляет на сервер запрос преобразования речи в текст. В этом случае, сервер выделяет сеанс 1 только терминалу 2, и больше не выделяет сеанс общему терминалу.
[0095] Дополнительно следует отметить, что запрос преобразования речи в текст может дополнительно включать в себя бит флага переговоров. Бит флага переговоров используется для указания, что участниками этого вызова являются две стороны или несколько сторон (более, чем две стороны). Если первый идентификатор в запросе преобразования речи в текст, отправленном вторым терминалом, является таким же как первый идентификатор в запросе преобразования речи в текст, отправленном третьим терминалом, второй идентификатор в запросе преобразования речи в текст, отправленном вторым терминалом, является таким же как второй идентификатор в запросе преобразования речи в текст, отправленном третьим терминалом, и бит флага переговоров указывает, что участниками этого вызова являются две стороны, серверу не требуется определять, при выделении сеанса второму терминалу и третьему терминалу, включает ли база данных первый идентификатор или второй идентификатор в запросы преобразования речи в текст, отправленные вторым терминалом и третьим терминалом, и может непосредственно выделить новый сеанс второму терминалу и третьему терминалу.
[0096] Опционально, может быть, что при совершении вызова, пользователь вручную выбирает контент, указанный битом флага переговоров; или может быть, что пользователь задает тип телефонного номера, при котором участниками являются несколько сторон (более, чем две стороны), и когда пользователь набирает телефонный номер, контент бита флага переговоров выбирается по умолчанию, для указания, что участниками являются несколько сторон (более, чем две стороны).
[0097] Например, предполагается, что телефонный номер 100 является общим номером телефона для переговоров, и пользователь задает тип телефонного номера, при котором участниками являются несколько сторон (более, чем две стороны). При наборе телефонного номера, пользователю не нужно вручную выбирать контент, указанный битом флага переговоров, и бит флага переговоров, включенный в запрос преобразования речи в текст, автоматически указывает, что участниками являются несколько сторон (более, чем две стороны).
[0098] S303. Сервер обновляет базу данных согласно выделенному сеансу.
[0099] Конкретно, процесс, в котором сервер обновляет базу данных согласно выделенному сеансу, может включать в себя нижеследующие два случая:
[0100] Случай 1. Выделенный сеанс является новым сеансом, и сервер устанавливает соответствие между выделенным сеансом и идентификаторами по меньшей мере двух терминалов, и добавляет соответствие в базу данных.
[0101] Случай 2. Выделенный сеанс является сеансом в базе данных, и идентификатор терминала, который не включен в базу данных, и который есть среди идентификаторов по меньшей мере двух терминалов, добавляется в базу данных, так чтобы добавленный идентификатор соответствовал выделенному сеансу.
[0102] Например, предполагается, что сеанс, выделенный сервером терминалу 12 и терминалу 13, является новым сеансом 4. Затем сервер устанавливает соответствие между сеансом 4 и идентификаторами терминала 12 и терминала 13, и добавляет соответствие в базу данных. Если форма первоначальной базы данных показана в таблице 1, после добавления соответствия в базу данных, база данных показана в таблице 2.
Таблица 2
Сеанс Идентификатор терминала
Сеанс 1 Терминал 1 и терминал 2
Сеанс 2 Терминал 3, терминал 4 и терминал 5
Сеанс 3 Терминал 8, терминал 9, терминал 10 и терминал 11
Сеанс 4 Терминал 12 и терминал 13
[0103] Дополнительно, предполагается, что сеанс, выделенный сервером терминалу 12 и терминалу 14, является сеансом 4 в базе данных. Так как база данных включает в себя идентификатор терминала 12, но не включает в себя идентификатор терминала 14, сервер добавляет в базу данных идентификатор терминала (терминала 14), не включенный в базу данных, так чтобы добавленный идентификатор соответствовал выделенному сеансу. База данных, в которую добавляется идентификатор терминала 14, показана в таблице 3.
Таблица 3
Сеанс Идентификатор терминала
Сеанс 1 Терминал 1 и терминал 2
Сеанс 2 Терминал 3, терминал 4 и терминал 5
Сеанс 3 Терминал 8, терминал 9, терминал 10 и терминал 11
Сеанс 4 Терминал 12, терминал 13 и терминал 14
[0104] S304. Сервер принимает, посредством использования домен с коммутацией пакетов, голосовой поток, чья частота выборки больше, чем 8 кГц, и который отправлен по меньшей мере одним терминалом в одном конференц-вызове.
[0105] Конференц-вызов соответствует одному сеансу.
[0106] Следует отметить, что S304 является таким же как S203, и подробности здесь не описываются.
[0107] Дополнительно следует отметить, что прежде чем по меньшей мере один терминал в конференц-вызове отправляет на сервер голосовой поток, чья частота выборки больше, чем 8 кГц, посредством использования домена с коммутацией пакетов, дополнительно должно быть установлено информационное соединение между терминалом и сервером.
[0108] Опционально, установление информационного соединения между терминалом и сервером, обычно реализуется таким образом, при котором терминал инициирует запрос информационного соединения. Запрос информационного соединения, инициированный терминалом, может быть объединен с запросом преобразования речи в текст на этапе S301, чтобы быть единым запросом. К тому же, информационное соединение устанавливается между терминалом и сервером. Способ установления информационного соединения включает в себя, но не ограничен этим, соединение между сокетами посредством протокола управления передачей TCP, HTTP-соединение и подобное. Посредством использования вышеуказанного информационного соединения, голосовой поток, принятый сервером, может быть передан в домене с коммутацией пакетов.
[0109] Конечно, запрос информационного соединения и запрос преобразования речи в текст могут также быть двумя независимыми запросами, что не ограничивается в настоящем изобретении.
[0110] Дополнительно следует отметить, что этапы S303 и S304 могут выполняться последовательно, или могут выполняться параллельно, что не ограничивается в настоящем изобретении.
[0111] S305. Сервер преобразовывает голосовой поток в текст.
[0112] Опционально, текст может включать в себя идентификатор по меньшей мере одного терминала; или текст может включать в себя идентификатор и имя пользователя, которые принадлежат по меньшей мере к одному терминалу.
[0113] Например, пользователь A задает имя пользователя терминала как "Xiao Ming" в терминале, чьим телефонным номером является 111 (идентификатором терминала является 111), и пользователь B задает имя пользователя терминала как "Xiao Hong" в терминале, чьим телефонным номером является 222 (идентификатором терминала является 222). На этапе S301, запрос преобразования речи в текст, отправленный терминалом на сервер, включает в себя имя пользователя терминала. Во время вызова между пользователем A и пользователем B, пользователь A говорит: "Где мы подпишем контракт", и пользователь B говорит: "Мы подпишем контракт в вашей компании". Тогда во время этого вызова, текст, преобразованный из голосового потока сервером, является таким как следует ниже:
"Xiao Ming (111): Где мы подпишем контракт; и
Xiao Hong (222): Мы подпишем контракт в вашей компании".
[0114] S306. Сервер отправляет текст терминалу в конференц-вызове.
[0115] Опционально, сервер может отправить текст терминалу в конференц-вызове в реальном времени, или может отправить текст согласно предварительно заданному периоду, или может отправить текст после приема сообщения об окончании, отправленного терминалом в конференц-вызове.
[0116] Конкретно, момент, в который сервер отправляет текст терминалу в конференц-вызове, может включать в себя, но не ограничен этим, нижеследующие четыре случая:
[0117] Случай 1. Сервер отправляет, согласно предварительно заданному периоду, текст в данном периоде терминалу в конференц-вызове.
[0118] Следует отметить, что в процессе практического применения, предварительно заданный период может быть задан согласно фактическому требованию, что не ограничивается в настоящем изобретении.
[0119] Например, предполагается, что терминалами в конференц-вызове являются терминал 1 и терминал 2, и предварительно заданный период составляет одну минуту. Затем, так как терминал 1 и терминал 2 начинают вызов, каждую одну минуту сервер отправляет терминалу 1 и терминалу 2 текст вызова между двумя сторонами за одну минуту.
[0120] Случай 2. После приема сообщений об окончании, отправленных всеми терминалами в конференц-вызове, сервер отправляет текст всем терминалам в конференц-вызове.
[0121] Сообщение об окончании является сообщением, указывающим, что вызов завершается.
[0122] Опционально, сообщение об окончании может быть запросом отключения от линии.
[0123] Например, предполагается, что терминалами в конференц-вызове являются терминал 3, терминал 4 и терминал 5. Предполагается, что три терминала начинают вызов в одно и то же время, терминал 3 сначала отправляет сообщение об окончании на сервер, и терминал 4 и терминал 5 затем отправляют сообщения об окончании на сервер. После отправки на сервер сообщений об окончании всеми тремя терминалами (после отправки терминалом 4 и терминалом 5 на сервер сообщений об окончании), сервер отправляет текст этого конференц-вызова каждому терминалу из трех терминалов.
[0124] Случай 3. После приема сообщений об окончании, отправленных всеми терминалами в конференц-вызове, сервер отправляет текст процесса, в котором каждый терминал участвует с каждым терминалом в конференц-вызове.
[0125] Например, предполагается, что терминалами в конференц-вызове являются терминал 6, терминал 7 и терминал 8. Предполагается, что три терминала начинают вызов в одно и то же время. Затем после трехминутного вызова, терминал 6 отправляет сообщение об окончании на сервер, и после трехминутного вызова, терминал 7 и терминал 8 отправляют сообщения об окончании на сервер.
[0126] После приема сообщений об окончании, отправленных терминалом 6, терминалом 7 и терминалом 8, сервер отправляет терминалу 6 текст трехминутного вызова, который осуществляется между терминалом 6, терминалом 7 и терминалом 8, и в котором участвует терминал 6; отправляет терминалу 7 текст трехминутного вызова, который осуществляется между терминалом 6, терминалом 7 и терминалом 8, и в котором участвует терминал 7; и отправляет терминалу 8 текст трехминутного вызова, который осуществляется между терминалом 6, терминалом 7 и терминалом 8, в котором участвует терминал 8.
[0127] Случай 4. После приема сообщения об окончании, отправленного первым терминалом в конференц-вызове, сервер отправляет, только первому терминалу, текст процесса, в котором участвует терминал.
[0128] Например, предполагается, что терминалами в конференц-вызове являются терминал 9, терминал 10 и терминал 11. Предполагается, что три терминала начинают вызов в одно и то же время. Затем после трехминутного вызова, терминал 9 отправляет сообщение об окончании на сервер, и после трехминутного вызова, терминал 10 и терминал 11 отправляют сообщения об окончании на сервер.
[0129] После приема сообщения об окончании, отправленного терминалом 9, сервер отправляет терминалу 9 текст трехминутного вызова, который осуществляется между терминалом 9, терминалом 10 и терминалом 11, и в котором участвует терминал 9.
[0130] После приема сообщения об окончании, отправленного терминалом 10, сервер отправляет терминалу 10 текст пятиминутного вызова, который осуществляется между терминалом 9, терминалом 10 и терминалом 11, и в котором участвует терминал 10.
[0131] После приема сообщения об окончании, отправленного терминалом 11, сервер отправляет терминалу 11 текст пятиминутного вызова, который осуществляется между терминалом 9, терминалом 10 и терминалом 11, и в котором участвует терминал 11.
[0132] Кроме того, в случае 4, после отправки первому терминалу текста вызова в процессе, в котором участвует терминал, способ может дополнительно включать в себя:
отправку, всем терминалам, которые есть в базе данных и соответствуют сеансу, который соответствует первому терминалу, текста, который принадлежит к вызову каждого терминала в процессе, в котором участвует первый терминал.
[0133] Например, предполагается, что терминалами в конференц-вызове являются терминал 12 и терминал 13. Когда сервер принимает сообщение об окончании, отправленное терминалом 12, сервер отправляет, терминалу 12 и терминалу 13, текст вызова между терминалом 12 и терминалом 13 в процессе, в котором участвует терминал 12.
[0134] Следует отметить, что вышеуказанные четыре случая описывают момент, в который сервер отправляет текст терминалу в конференц-вызове, только в виде примера, но не накладывают ограничения на момент, в который сервер отправляет текст терминалу в конференц-вызове. В процессе практического применения, момент, в который сервер отправляет текст терминалу в конференц-вызове, может быть задан согласно фактическому требованию, что не ограничивается в настоящем изобретении.
[0135] S307. Сервер принимает сообщение об окончании, отправленное пятым терминалом.
[0136] S308. Сервер удаляет идентификатор пятого терминала из базы данных.
[0137] Например, предполагается, что в базе данных, терминалами, соответствующими сеансу 1, являются терминал 1, терминал 2 и терминал 3. Сервер принимает сообщение об окончании (прекращение вызова), отправленное терминалом 1, и затем сервер удаляет идентификатор терминала 1 из базы данных.
[0138] S309. Если идентификатор терминала, соответствующий сеансу, является пустым в базе данных, сервер удаляет сеанс из базы данных.
[0139] Например, предполагается, что идентификатор терминала, соответствующий сеансу 1, является пустым в базе данных. Тогда сервер удаляет сеанс 1 из базы данных.
[0140] Согласно способу преобразования голоса в текст в конференц-вызове, предусмотренном в этом варианте осуществления настоящего изобретения, сервер принимает запросы преобразования речи в текст, отправленные по меньшей мере двумя терминалами, где запросы преобразования речи в текст включают в себя первый идентификатор и второй идентификатор; выделяет сеанс по меньшей мере двум терминалам, так что в запросах преобразования речи в текст, отправленных по меньшей мере двумя терминалами, терминалам, которые имеют один и тот же первый идентификатор или один и тот же второй идентификатор, выделяется один и тот же сеанс; принимает, посредством использования домена с коммутацией пакетов, голосовой поток, чья частота выборки больше, чем 8 кГц, и который отправлен по меньшей мере одним терминалом в одном конференц-вызове, где конференц-вызов соответствует одному сеансу; преобразовывает голосовой поток в текст; и отправляет текст терминалу в конференц-вызове. Так как голосовой поток, принятый сервером, является голосовым потоком, чья частота выборки больше, чем 8 кГц, и который принят посредством использования домена с коммутацией пакетов, домен с коммутацией пакетов может поддерживать передачу голосового потока с высокой частотой выборки, и после преобразования принятого голосового потока в текст, точность полученного текста является высокой. К тому же, процесс не требует ручного режима, и является относительно быстрым и сберегает усилия и время человека. В заключение, можно узнать, что посредством использования способа, предусмотренного в настоящем изобретении, точное получение текста, преобразованного из голоса в конференц-вызове, может быть реализовано сберегающим время и нетрудозатратным образом, который разрешает проблему в предшествующем уровне техники, что получение текста, преобразованного из голоса в конференц-вызове, является либо затратным по времени и усилиям, либо неточным.
Вариант осуществления 3
[0141] Вариант осуществления 3 настоящего изобретения предусматривает способ для преобразования речи в текст в конференц-вызове.
[0142] Предполагается, что Zhang San использует терминал A для совершения вызова Li Si, который использует терминал B; телефонным номером терминала A является 123, и телефонным номером терминала B является 456; и именем пользователя терминала A, которое задано посредством Zhang San в терминале A, является Zhang San, и именем пользователя терминала B, которое задано посредством Li Si в терминале B, является Li Si.
[0143] Процесс взаимодействия между сервером, терминалом A и терминалом B используется в качестве примера для описания способа на Фиг. 3. Как показано на Фиг. 4A и Фиг. 4B, способ может включать в себя нижеследующие этапы.
[0144] S401. Терминал A отправляет запрос 1 преобразования речи в текст на сервер.
[0145] Например, после того, как терминал A совершает вызов на терминал B, Zhang San активирует MIC и выбирает бит флага переговоров для указания, что этот вызов является вызовом, в котором участниками являются более, чем две стороны. Затем терминал A отправляет запрос 1 преобразования речи в текст <123, Zhang San, 456, TRUE> на сервер, указывающий, что Zhang San (терминал, чьим телефонным номером является 123) совершает вызов на терминал, чьим телефонным номером является 456, где участниками вызова являются более, чем две стороны.
[0146] S402. Терминал B отправляет запрос 2 преобразования речи в текст на сервер.
[0147] Например, Li Si отвечает на вызов, совершенный Zhang San, и активирует MIC. Затем терминал B отправляет запрос 2 преобразования речи в текст <123, 456, Li Si> на сервер, указывающий, что терминал, чьим телефонным номером является 123, совершает вызов на терминал, чьим телефонным номером является 456.
[0148] S403. Сервер определяет, что первые идентификаторы, включенные в запрос 1 преобразования речи в текст и запрос 2 преобразования речи в текст, являются одинаковыми, и вторые идентификаторы, включенные в запрос 1 преобразования речи в текст и запрос 2 преобразования речи в текст, являются одинаковыми, и дополнительно определяет, являются ли участниками, указанными битом флага переговоров, включенным в запрос 1 преобразования речи в текст, более, чем две стороны.
[0149] Если участниками, указанными битом флага переговоров, включенным в запрос 1 преобразования речи в текст, являются не более, чем две стороны, выполняется этап S404.
[0150] Если участниками, указанными битом флага переговоров, включенным в запрос 1 преобразования речи в текст, являются более, чем две стороны, выполняется этап S405.
[0151] S404. Сервер выделяет новый сеанс терминалу A и терминалу B.
[0152] Например, сервер выделяет новый сеанс 1 терминалу A и терминалу B.
[0153] S405. Сервер определяет, включает ли база данных первый идентификатор или второй идентификатор в запрос 1 преобразования речи в текст и запрос 2 преобразования речи в текст.
[0154] Если база данных не включают первый идентификатор или второй идентификатор в запрос 1 преобразования речи в текст и запрос 2 преобразования речи в текст, выполняется этап S406.
[0155] Если база данных включает первый идентификатор или второй идентификатор в запрос 1 преобразования речи в текст и запрос 2 преобразования речи в текст, выполняется этап S408.
[0156] S406. Сервер выделяет новый сеанс терминалу A и терминалу B.
[0157] Следует отметить, что после этапов S404 и S406, должен быть выполнен этап S407.
[0158] S407. Сервер устанавливает соответствие между выделенным сеансом и идентификатором терминала A и идентификатором терминала B и добавляет соответствие в базу данных.
[0159] Например, предполагается, что на этапе S404 или S406, сеанс, выделенный терминалу A и терминалу B, является сеансом 1. Затем устанавливается соответствие между сеансом 1 и идентификатором (123) терминала A и идентификатором (456) терминала B, и соответствие добавляется в базу данных.
[0160] S408. Сервер выделяет терминалу A и терминалу B сеанс, который находится в базе данных и соответствует первому идентификатору или второму идентификатору в запросах преобразования речи в текст, отправленных терминалом A и терминалом В.
[0161] Например, сервер определяет, что база данных включает второй идентификатор 456 (идентификатор терминала B) в запрос 1 преобразования речи в текст и запрос 2 преобразования речи в текст, и в базе данных, сеанс соответствующий второму идентификатору 456, является сеансом 2. Затем сеанс 2 выделяется терминалу A и терминалу B.
[0162] S409. Сервер добавляет в базу данных идентификатор терминала, который принадлежит к идентификатору терминала A и идентификатору терминала B, но не включен в базу данных, так чтобы добавленный идентификатор соответствовал выделенному сеансу.
[0163] Например, сервер определяет, что база данных включает второй идентификатор 456 (идентификатор терминала B) в запрос 1 преобразования речи в текст и запрос 2 преобразования речи в текст, но не включает первый идентификатор 123 (идентификатор терминала A), и в базе данных, сеанс, соответствующий второму идентификатору 456, является сеансом 2. Затем сервер добавляет идентификатор терминала A в базу данных, так чтобы добавленный идентификатор соответствовал сеансу 2.
[0164] S410. Терминал A отправляет голосовой поток, чья частота выборки больше, чем 8 кГц, на сервер посредством использования домена с коммутацией пакетов.
[0165] Например, терминал A отправляет голосовой поток, чья частота выборки больше, чем 8 кГц, на сервер посредством использования домена с коммутацией пакетов: "Где мы проведем наши переговоры".
[0166] S411. Терминал B отправляет голосовой поток, чья частота выборки больше, чем 8 кГц, на сервер посредством использования домена с коммутацией пакетов.
[0167] Например, терминал B отправляет голосовой поток, чья частота выборки больше, чем 8 кГц, на сервер посредством использования домена с коммутацией пакетов: "В первой переговорной комнате в штаб-квартире компании".
[0168] S412. Сервер преобразовывает голосовые потоки, отправленные терминалом A и терминалом B, в текст.
[0169] Например, на основе примеров на этапах S410 и S411, сервер преобразовывает голосовой поток, отправленный терминалом A, в текст, который является таким, как следует ниже:
Zhang San (123): Где мы проведем наши переговоры; и
Li Si (456): В первой переговорной комнате в штаб-квартире компании.
[0170] S413. Терминал A отправляет сообщение об окончании на сервер.
[0171] Например, после прекращения вызова, терминал A отправляет сообщение об окончании "Закончено" на сервер.
[0172] S414. Сервер отправляет текст терминалу A.
[0173] Например, на основе примера на этапе S412, сервер отправляет текст терминалу A, который является таким, как следует ниже:
Zhang San (123): Где мы проведем наши переговоры; и
Li Si (456): В первой переговорной комнате в штаб-квартире компании.
[0174] S415. Сервер удаляет идентификатор терминала A из базы данных.
[0175] S416. Терминал B отправляет сообщение об окончании на сервер.
[0176] Например, после прекращения вызова, терминал B отправляет сообщение об окончании "Закончено" на сервер.
[0177] S417. Сервер отправляет текст терминалу B.
[0178] Например, на основе примера на этапе S412, сервер отправляет текст терминалу B, который является таким, как следует ниже:
Zhang San (123): Где мы проведем наши переговоры; и
Li Si (456): В первой переговорной комнате в штаб-квартире компании.
[0179] S418. Сервер удаляет идентификатор терминала B из базы данных.
[0180] S419. Сервер определяет, что идентификатор терминала, соответствующий сеансу, является пустым в базе данных, и затем удаляет сеанс из базы данных.
[0181] Например, сервер определяет, что идентификатор терминала, соответствующий сеансу 3, является пустым, и затем сервер удаляет сеанс 3 из базы данных.
[0182] Согласно способу преобразования голоса в текст в конференц-вызове, предусмотренном в этом варианте осуществления настоящего изобретения, сервер принимает запросы преобразования речи в текст, отправленные по меньшей мере двумя терминалами, где запросы преобразования речи в текст включают в себя первый идентификатор и второй идентификатор; выделяет сеанс по меньшей мере двум терминалам, так что в запросах преобразования речи в текст, отправленных по меньшей мере двумя терминалами, терминалам, которые имеют один и тот же первый идентификатор или один и тот же второй идентификатор, выделяется один и тот же сеанс; принимает, посредством использования домена с коммутацией пакетов, голосовой поток, чья частота выборки больше, чем 8 кГц, и который отправлен по меньшей мере одним терминалом в одном конференц-вызове, где конференц-вызов соответствует одному сеансу; преобразовывает голосовой поток в текст; и отправляет текст терминалу в конференц-вызове. Так как голосовой поток, принятый сервером, является голосовым потоком, чья частота выборки больше, чем 8 кГц, и который принят посредством использования домена с коммутацией пакетов, домен с коммутацией пакетов может поддерживать передачу голосового потока с высокой частотой выборки, и после преобразования принятого голосового потока в текст, точность полученного текста является высокой. К тому же, процесс не требует ручного режима, и является относительно быстрым и сберегает усилия и время человека. В заключение, можно узнать, что посредством использования способа, предусмотренного в настоящем изобретении, точное получение текста, преобразованного из голоса в конференц-вызове, может быть реализовано сберегающим время и нетрудозатратным образом, который разрешает проблему в предшествующем уровне техники, что получение текста, преобразованного из голоса в конференц-вызове, является либо затратным по времени и усилиям, либо неточным.
Вариант осуществления 4
[0183] Вариант осуществления 4 настоящего изобретения предусматривает устройство 50 для преобразования речи в текст в конференц-вызове. Устройство 50 является частью или всем сервером в вышеприведенных вариантах осуществления. Как показано на Фиг. 5, устройство 50 для преобразования речи в текст в конференц-вызове может включать в себя:
первый блок 501 приема, выполненный с возможностью приема запросов преобразования речи в текст, отправленных по меньшей мере двумя терминалами, где запросы преобразования речи в текст включают в себя первый идентификатор и второй идентификатор;
блок выделения 502, выполненный с возможностью выделения сеанса по меньшей мере двум терминалам, так что в запросах преобразования речи в текст, отправленных по меньшей мере двумя терминалами, терминалы, которые имеют один и тот же первый идентификатор или один и тот же второй идентификатор, имеют один и тот же сеанс;
второй блок 503 приема, выполненный с возможностью приема, посредством использования домена с коммутацией пакетов, голосового потока, чья частота выборки больше, чем 8 кГц, и который отправлен по меньшей мере одним терминалом в одном конференц-вызове, где конференц-вызов соответствует одному сеансу;
блок 504 преобразования, выполненный с возможностью преобразования голосового потока в текст; и
блок 505 отправки, выполненный с возможностью отправки текста терминалу в конференц-вызове.
[0184] К тому же, блок 502 выделения может быть конкретно выполнен с возможностью:
если база данных включает первый идентификатор или второй идентификатор в запрос преобразования речи в текст, отправленный первым терминалом, выделения первому терминалу сеанса, который находится в базе данных и соответствует первому идентификатору или второму идентификатору в запросе преобразования речи в текст, отправленном первым терминалом, где первым терминалом является любой терминал по меньшей мере из двух терминалов, и база данных включает в себя по меньшей мере один сеанс и идентификатор терминала, соответствующий по меньшей мере одному сеансу; и
если база данных не включает первый идентификатор и второй идентификатор в запрос преобразования речи в текст, отправленный вторым терминалом, первый идентификатор в запросе преобразования речи в текст, отправленном вторым терминалом, является таким же как первый идентификатор в запросе преобразования речи в текст, отправленном третьим терминалом, и второй идентификатор в запросе преобразования речи в текст, отправленном вторым терминалом, является таким же как второй идентификатор в запросе преобразования речи в текст, отправленном третьим терминалом, выделения одного и того же нового сеанса второму терминалу и третьему терминалу.
[0185] Опционально, текст может включать в себя идентификатор по меньшей мере одного терминала, или текст может включать в себя идентификатор и имя пользователя, которые принадлежат по меньшей мере к одному терминалу.
[0186] К тому же, как показано на Фиг. 6, устройство 50 для преобразования речи в текст в конференц-вызове может дополнительно включать в себя:
блок 506 добавления, выполненный с возможностью: если выделенный сеанс является новым сеансом, установления соответствия между выделенным сеансом и идентификаторами по меньшей мере двух терминалов, и добавления соответствия в базу данных; где
блок 506 добавления может дополнительно быть выполнен с возможностью: если выделенный сеанс является сеансом в базе данных, добавления в базу данных идентификатора терминала, который принадлежит к идентификаторам по меньшей мере двух терминалов и не включен в базу данных, так чтобы добавленный идентификатор соответствовал выделенному сеансу.
[0187] К тому же, как показано на Фиг. 6, устройство 50 для преобразования речи в текст в конференц-вызове может дополнительно включать в себя:
третий блок 507 приема, выполненный с возможностью приема сообщения об окончании, отправленного пятым терминалом; и
блок 508 удаления, выполненный с возможностью удаления идентификатора пятого терминала из базы данных, где
блок 508 удаления может дополнительно быть выполнен с возможностью: если идентификатор терминала, соответствующий сеансу, является пустым в базе данных, удаления сеанса из базы данных.
[0188] Согласно устройству 50 для преобразования речи в текст в конференц-вызове, предусмотренному в этом варианте осуществления настоящего изобретения, принимаются запросы преобразования речи в текст, отправленные по меньшей мере двумя терминалами, где запросы преобразования речи в текст включают в себя первый идентификатор и второй идентификатор; сеанс выделяется по меньшей мере двум терминалам, так что в запросах преобразования речи в текст, отправленных по меньшей мере двумя терминалами, терминалам, которые имеют один и тот же первый идентификатор или один и тот же второй идентификатор, выделяется один и тот же сеанс; голосовой поток, чья частота выборки больше, чем 8 кГц, и который отправлен по меньшей мере одним терминалом в одном конференц-вызове, принимается посредством использования домена с коммутацией пакетов, где конференц-вызов соответствует одному сеансу; голосовой поток преобразовывается в текст; и текст отправляется терминалу в конференц-вызове. Так как принятый голосовой поток является голосовым потоком, чья частота выборки больше, чем 8 кГц, и который принят посредством использования домена с коммутацией пакетов, домен с коммутацией пакетов может поддерживать передачу голосового потока с высокой частотой выборки, и после преобразования принятого голосового потока в текст, точность полученного текста является высокой. К тому же, процесс не требует ручного режима, и является относительно быстрым и сберегает усилия и время человека. В заключение, можно узнать, что посредством использования способа, предусмотренного в настоящем изобретении, точное получение текста, преобразованного из голоса в конференц-вызове, может быть реализовано сберегающим время и нетрудозатратным образом, который разрешает проблему в предшествующем уровне техники, что получение текста, преобразованного из голоса в конференц-вызове, является либо затратным по времени и усилиям, либо неточным.
Вариант осуществления 5
[0189] Вариант осуществления 5 настоящего изобретения предусматривает устройство 50 для преобразования речи в текст в конференц-вызове. Устройство 50 является частью или всем сервером в вышеприведенных вариантах осуществления. Как показано на Фиг. 7, устройство 50 для преобразования речи в текст в конференц-вызове может включать в себя:
по меньшей мере один процессор 701; по меньшей мере одну шину 702 связи, выполненную с возможностью реализации соединения и взаимной связи между устройством; первый приемник 703, второй приемник 704 и передатчик 705.
[0190] Шиной 702 связи может быть шина со стандартной промышленной архитектурой (Industry Standard Architecture, ISA для краткости), шина межсоединения периферийных компонентов (Peripheral Component Interconnect, PCI для краткости), шина с расширенной стандартной промышленной архитектурой (Extended Industry Standard Architecture, EISA для краткости) или подобное. Шина может подразделяться на адресную шину, шину данных, шину управления и подобное. Для удобства указания, шина представляется посредством использования лишь одной толстой линии на Фиг. 7; однако, это не указывает, что есть только одна шина или только один тип шин.
[0191] Процессором 701 может быть центральный процессор (Central Processing Unit, CPU для краткости), или специализированная интегральная схема application-specific Integrated Circuit, ASIC для краткости), или одна или более интегральных схем, выполненных с возможностью реализации этого варианта осуществления настоящего изобретения.
[0192] Первый приемник 703 выполнен с возможностью приема запросов преобразования речи в текст, отправленных по меньшей мере двумя терминалами, где запросы преобразования речи в текст включают в себя первый идентификатор и второй идентификатор.
[0193] Процессор 701 выполнен с возможностью выделения сеанса по меньшей мере двум терминалам, так что в запросах преобразования речи в текст, отправленных по меньшей мере двумя терминалами, терминалы, которые имеют один и тот же первый идентификатор или один и тот же второй идентификатор, имеют один и тот же сеанс.
[0194] Второй приемник 704 выполнен с возможностью приема, посредством использования домена с коммутацией пакетов, голосового потока, чья частота выборки больше, чем 8 кГц, и который отправлен по меньшей мере одним терминалом в одном конференц-вызове, где конференц-вызов соответствует одному сеансу.
[0195] Процессор 701 может дополнительно быть выполнен с возможностью преобразования голосового потока в текст.
[0196] Передатчик 705 выполнен с возможностью отправки текста терминалу в конференц-вызове.
[0197] К тому же, процессор 701 может быть дополнительно конкретно выполнен с возможностью:
если база данных включает первый идентификатор или второй идентификатор в запрос преобразования речи в текст, отправленный первым терминалом, выделения первому терминалу сеанса, который находится в базе данных и соответствует первому идентификатору или второму идентификатору в запросе преобразования речи в текст, отправленном первым терминалом, где первым терминалом является любой терминал по меньшей мере из двух терминалов, и база данных включает в себя по меньшей мере один сеанс и идентификатор терминала, соответствующий по меньшей мере одному сеансу; и
если база данных не включает первый идентификатор и второй идентификатор в запрос преобразования речи в текст, отправленный вторым терминалом, первый идентификатор в запросе преобразования речи в текст, отправленном вторым терминалом, является таким же как первый идентификатор в запросе преобразования речи в текст, отправленном третьим терминалом, и второй идентификатор в запросе преобразования речи в текст, отправленном вторым терминалом, является таким же как второй идентификатор в запросе преобразования речи в текст, отправленном третьим терминалом, выделения одного и того же нового сеанса второму терминалу и третьему терминалу.
[0198] Опционально, текст может включать в себя идентификатор по меньшей мере одного терминала, или текст может включать в себя идентификатор и имя пользователя, которые принадлежат по меньшей мере к одному терминалу.
[0199] К тому же, процессор 701 может быть дополнительно выполнен с возможностью:
если выделенный сеанс является новым сеансом, установления соответствия между выделенным сеансом и идентификаторами по меньшей мере двух терминалов, и добавления соответствия в базу данных; или
если выделенный сеанс является сеансом в базе данных, добавления в базу данных идентификатора терминала, который принадлежит к идентификаторам по меньшей мере двух терминалов, и который не включен в базу данных, так чтобы добавленный идентификатор соответствовал выделенному сеансу.
[0200] К тому же, как показано на Фиг. 8, устройство 50 для преобразования речи в текст в конференц-вызове может дополнительно включать в себя:
третий приемник 706, выполненный с возможностью приема сообщения об окончании, отправленного пятым терминалом.
[0201] К тому же, процессор 701 может быть дополнительно выполнен с возможностью удаления идентификатора пятого терминала из базы данных.
[0202] Процессор 701 может быть дополнительно выполнен с возможностью: если идентификатор терминала, соответствующий сеансу, является пустым в базе данных, удаления сеанса из базы данных.
[0203] Согласно устройству 50 для преобразования речи в текст в конференц-вызове, предусмотренному в этом варианте осуществления настоящего изобретения, принимаются запросы преобразования речи в текст, отправленные по меньшей мере двумя терминалами, где запросы преобразования речи в текст включают в себя первый идентификатор и второй идентификатор; сеанс выделяется по меньшей мере двум терминалам, так что в запросах преобразования речи в текст, отправленных по меньшей мере двумя терминалами, терминалам, которые имеют один и тот же первый идентификатор или один и тот же второй идентификатор, выделяется один и тот же сеанс; голосовой поток, чья частота выборки больше, чем 8 кГц, и который отправлен по меньшей мере одним терминалом в одном конференц-вызове, принимается посредством использования домена с коммутацией пакетов, где конференц-вызов соответствует одному сеансу; голосовой поток преобразовывается в текст; и текст отправляется терминалу в конференц-вызове. Так как принятый голосовой поток является голосовым потоком, чья частота выборки больше, чем 8 кГц, и который принят посредством использования домена с коммутацией пакетов, домен с коммутацией пакетов может поддерживать передачу голосового потока с высокой частотой выборки, и после преобразования принятого голосового потока в текст, точность полученного текста является высокой. К тому же, процесс не требует ручного режима, и является относительно быстрым и сберегает усилия и время человека. В заключение, можно узнать, что посредством использования способа, предусмотренного в настоящем изобретении, точное получение текста, преобразованного из голоса в конференц-вызове, может быть реализовано сберегающим время и нетрудозатратным образом, который разрешает проблему в предшествующем уровне техники, что получение текста, преобразованного из голоса в конференц-вызове, является либо затратным по времени и усилиям, либо неточным.
[0204] Специалистам в данной области техники может быть легко понятно, что, в целях удобства и краткого описания, для подробного рабочего процесса вышеуказанной системы, устройства и блока, может быть сделана ссылка на соответствующий процесс в вышеуказанных вариантах осуществления способа, и в настоящем документе подробности снова не описываются.
[0205] В нескольких вариантах осуществления, представленных в этой заявке, следует понимать, что раскрытая система, устройство и способ могут быть реализованы другими способами. Например, вариант осуществления описанного устройства является лишь примерным. Например, деление блоков является лишь делением логической функции и может быть другим делением в действительной реализации. Например, множество блоков или компонентов могут быть объединены или интегрированы в другую систему, или некоторые признаки могут быть проигнорированы или не выполнены. В дополнение, отображенные или рассмотренные взаимные связи или прямые связи или коммуникационные соединения могут быть реализованы посредством некоторых интерфейсов. Непрямые связи или коммуникационные соединения между устройствами или блоками могут быть реализованы в электронной или других формах.
[0206] Блоки, описанные как отдельные части, могут или не могут быть физически разделены, и части, отображенные как блоки, могут или не могут быть физическими блоками, могут быть размещены в одном положении, или могут быть распределены по множеству сетевых блоков. Некоторые или все блоки могут быть выбраны согласно действительным потребностям для достижения целей решений вариантов осуществления.
[0207] В дополнение, функциональные блоки в вариантах осуществления настоящего изобретения могут быть интегрированы в один блок обработки, или каждый из блоков может физически существовать самостоятельно, или два или более блоков интегрированы в один блок. Интегральный блок может быть реализован в виде аппаратных средств или может быть реализован в виде аппаратных средств в дополнение к программному функциональному блоку.
[0208] Когда вышеуказанный интегральный блок реализован в виде программного функционального блока, интегральный блок может храниться на компьютерно-читаемом носителе информации. Программный функциональный блок хранится на носителе информации, и включает в себя несколько команд для подачи команды компьютерному устройству (которым может быть персональный компьютер, сервер или сетевое устройство) выполнить некоторые из этапов способов, описанных в вариантах осуществления настоящего изобретения. Вышеуказанный носитель информации включает в себя: любой носитель, который может хранить программный код, такой как USB flash-накопитель, съемный жесткий диск, постоянная память (Read-Only Memory, ROM), оперативная память (Random Access Memory, RAM), магнитный диск или оптический диск.
[0209] Наконец, следует отметить, что вышеуказанные варианты осуществления предназначены лишь для описания технических решений настоящего изобретения, но не для ограничения настоящего изобретения. Хотя настоящее изобретение описано подробно со ссылкой на вышеприведенные варианты осуществления, средние специалисты в данной области техники должны понимать, что все равно можно сносить изменения в технические решения, описанные в вышеприведенных вариантах осуществления, осуществлять эквивалентные замены для некоторых их технических признаков, без отступления от объема технических решений вариантов осуществления настоящего изобретения.

Claims (52)

1. Способ преобразования речи в текст в конференц-вызове, применяемый на сервере, при этом способ содержит этапы, на которых:
принимают запросы преобразования речи в текст, которые отправляются по меньшей мере двумя терминалами, при этом запросы преобразования речи в текст содержат первый идентификатор и второй идентификатор;
выделяют сеанс по меньшей мере двум терминалам, так что в запросах преобразования речи в текст, отправленных по меньшей мере двумя терминалами, терминалы, которые имеют один и тот же первый идентификатор или один и тот же второй идентификатор, имеют один и тот же сеанс;
принимают, посредством использования домена с коммутацией пакетов, голосовой поток, чья частота выборки больше, чем 8 кГц, и который отправлен по меньшей мере одним терминалом в одном конференц-вызове, при этом конференц-вызов соответствует одному сеансу;
преобразовывают голосовой поток в текст; и
отправляют текст в терминал в конференц-вызове.
2. Способ по п. 1, при этом выделение сеанса по меньшей мере двум терминалам содержит этап, на котором:
если база данных содержит первый идентификатор или второй идентификатор в запросе преобразования речи в текст, отправленном первым терминалом, выделяют первому терминалу сеанс, который находится в базе данных и соответствует первому идентификатору или второму идентификатору в запросе преобразования речи в текст, отправленном первым терминалом, при этом первым терминалом является любой терминал по меньшей мере из двух терминалов, и база данных содержит по меньшей мере один сеанс и идентификатор терминала, соответствующий по меньшей мере одному сеансу; и
если база данных не содержит первый идентификатор и второй идентификатор в запросе преобразования речи в текст, отправленном вторым терминалом, первый идентификатор в запросе преобразования речи в текст, отправленном вторым терминалом, является таким же, как первый идентификатор в запросе преобразования речи в текст, отправленном третьим терминалом, и второй идентификатор в запросе преобразования речи в текст, отправленном вторым терминалом, является таким же, как второй идентификатор в запросе преобразования речи в текст, отправленном третьим терминалом, выделяют один и тот же новый сеанс второму терминалу и третьему терминалу.
3. Способ по п. 1 или 2, при этом после выделения сеанса по меньшей мере двум терминалам, способ дополнительно содержит этапы, на которых:
если выделенный сеанс является новым сеансом, устанавливают соответствие между выделенным сеансом и идентификаторами по меньшей мере двух терминалов, и добавляют соответствие в базу данных; или
если выделенный сеанс является сеансом в базе данных, добавляют в базу данных идентификатор, который есть среди идентификаторов по меньшей мере двух терминалов и который принадлежит к терминалу, не содержащемуся в базе данных, так чтобы добавленный идентификатор соответствовал выделенному сеансу.
4. Способ по п. 1 или 2, при этом после приема, посредством использования домена с коммутацией пакетов, голосовой поток, чья частота выборки больше, чем 8 кГц, и который отправлен по меньшей мере одним терминалом в одном конференц-вызове, способ дополнительно содержит этапы, на которых:
принимают сообщение об окончании, отправленное пятым терминалом;
удаляют идентификатор пятого терминала из базы данных; и
если идентификатор терминала, соответствующий сеансу, является пустым в базе данных, удаляют сеанс из базы данных.
5. Способ по п. 1 или 2, при этом текст содержит идентификатор по меньшей мере одного терминала, или текст содержит идентификатор и имя пользователя, которые принадлежат по меньшей мере к одному терминалу.
6. Устройство для преобразования речи в текст в конференц-вызове, при этом устройство содержит:
первый блок приема, выполненный с возможностью приема запросов преобразования речи в текст, которые отправлены по меньшей мере двумя терминалами, при этом запросы преобразования речи в текст содержат первый идентификатор и второй идентификатор;
блок выделения, выполненный с возможностью выделения сеанса по меньшей мере двум терминалам, так что в запросах преобразования речи в текст, отправленных по меньшей мере двумя терминалами, терминалы, которые имеют один и тот же первый идентификатор или один и тот же второй идентификатор, имеют один и тот же сеанс;
второй блок приема, выполненный с возможностью приема, посредством использования домена с коммутацией пакетов, голосового потока, чья частота выборки больше, чем 8 кГц, и который отправлен по меньшей мере одним терминалом в одном конференц-вызове, при этом конференц-вызов соответствует одному сеансу;
блок преобразования, выполненный с возможностью преобразования голосового потока в текст; и
блок отправки, выполненный с возможностью отправки текста в терминал в конференц-вызове.
7. Устройство по п. 6, при этом блок выделения выполнен с возможностью:
если база данных содержит первый идентификатор или второй идентификатор в запросе преобразования речи в текст, отправленном первым терминалом, выделения первому терминалу сеанса, который находится в базе данных и соответствует первому идентификатору или второму идентификатору в запросе преобразования речи в текст, отправленном первым терминалом, при этом первым терминалом является любой терминал по меньшей мере из двух терминалов, и база данных содержит по меньшей мере один сеанс и идентификатор терминала, соответствующий по меньшей мере одному сеансу; и
если база данных не содержит первый идентификатор и второй идентификатор в запросе преобразования речи в текст, отправленном вторым терминалом, первый идентификатор в запросе преобразования речи в текст, отправленном вторым терминалом, является таким же, как первый идентификатор в запросе преобразования речи в текст, отправленном третьим терминалом, и второй идентификатор в запросе преобразования речи в текст, отправленном вторым терминалом, является таким же, как второй идентификатор в запросе преобразования речи в текст, отправленном третьим терминалом, выделения одного и того же нового сеанса второму терминалу и третьему терминалу.
8. Устройство по п. 6 или 7, при этом устройство дополнительно содержит:
блок добавления, выполненный с возможностью: если выделенный сеанс является новым сеансом, установления соответствия между выделенным сеансом и идентификаторами по меньшей мере двух терминалов, и добавления соответствия в базу данных; при этом
блок добавления дополнительно выполнен с возможностью: если выделенный сеанс является сеансом в базе данных, добавления в базу данных идентификатора, который есть среди идентификаторов по меньшей мере двух терминалов и который принадлежит к терминалу, не содержащемуся в базе данных, так чтобы добавленный идентификатор соответствовал выделенному сеансу.
9. Устройство по п. 6 или 7, при этом устройство дополнительно содержит:
третий блок приема, выполненный с возможностью приема сообщения об окончании, отправленного пятым терминалом; и
блок удаления, выполненный с возможностью удаления идентификатора пятого терминала из базы данных; при этом
блок удаления дополнительно выполнен с возможностью: если идентификатор терминала, соответствующий сеансу, является пустым в базе данных, удаления сеанса из базы данных.
10. Устройство по п. 6 или 7, при этом текст содержит идентификатор по меньшей мере одного терминала, или текст содержит идентификатор и имя пользователя, которые принадлежат по меньшей мере к одному терминалу.
11. Устройство для преобразования речи в текст в конференц-вызове, при этом устройство содержит:
первый приемник, выполненный с возможностью приема запросов преобразования речи в текст, которые отправлены по меньшей мере двумя терминалами, при этом запросы преобразования речи в текст содержат первый идентификатор и второй идентификатор;
процессор, выполненный с возможностью выделения сеанса по меньшей мере двум терминалам, так что в запросах преобразования речи в текст, отправленных по меньшей мере двумя терминалами, терминалы, которые имеют один и тот же первый идентификатор или один и тот же второй идентификатор, имеют один и тот же сеанс;
второй приемник, выполненный с возможностью приема, посредством использования домена с коммутацией пакетов, голосового потока, чья частота выборки больше, чем 8 кГц, и который отправлен по меньшей мере одним терминалом в одном конференц-вызове, при этом конференц-вызов соответствует одному сеансу;
процессор дополнительно выполнен с возможностью преобразования голосового потока в текст; и
передатчик, выполненный с возможностью отправки текста в терминал в конференц-вызове.
12. Устройство по п. 11, при этом процессор дополнительно выполнен с возможностью:
если база данных содержит первый идентификатор или второй идентификатор в запросе преобразования речи в текст, отправленном первым терминалом, выделения первому терминалу сеанса, который находится в базе данных и соответствует первому идентификатору или второму идентификатору в запросе преобразования речи в текст, отправленном первым терминалом, при этом первым терминалом является любой терминал по меньшей мере из двух терминалов, и база данных содержит по меньшей мере один сеанс и идентификатор терминала, соответствующий по меньшей мере одному сеансу; и
если база данных не содержит первый идентификатор и второй идентификатор в запросе преобразования речи в текст, отправленном вторым терминалом, первый идентификатор в запросе преобразования речи в текст, отправленном вторым терминалом, является таким же, как первый идентификатор в запросе преобразования речи в текст, отправленном третьим терминалом, и второй идентификатор в запросе преобразования речи в текст, отправленном вторым терминалом, является таким же, как второй идентификатор в запросе преобразования речи в текст, отправленном третьим терминалом, выделения одного и того же нового сеанса второму терминалу и третьему терминалу.
13. Устройство по п. 11 или 12, при этом процессор дополнительно выполнен с возможностью:
если выделенный сеанс является новым сеансом, установления соответствия между выделенным сеансом и идентификаторами по меньшей мере двух терминалов и добавления соответствия в базу данных; и
если выделенный сеанс является сеансом в базе данных, добавления в базу данных идентификатора, который есть среди идентификаторов по меньшей мере двух терминалов и который принадлежит к терминалу, не содержащемуся в базе данных, так чтобы добавленный идентификатор соответствовал выделенному сеансу.
14. Устройство по п. 11 или 12, при этом устройство дополнительно содержит:
третий приемник, выполненный с возможностью приема сообщения об окончании, отправленного пятым терминалом; и
процессор дополнительно выполнен с возможностью удаления идентификатора пятого терминала из базы данных; при этом
процессор дополнительно выполнен с возможностью: если идентификатор терминала, соответствующий сеансу, является пустым в базе данных, удаления сеанса из базы данных.
15. Устройство по п. 11 или 12, при этом текст содержит идентификатор по меньшей мере одного терминала, или текст содержит идентификатор и имя пользователя, которые принадлежат по меньшей мере к одному терминалу.
16. Компьютерно-читаемый носитель информации, имеющий записанную на нем программу; при этом программа предписывает компьютеру выполнять способ по п. 1 или 2.
RU2017129888A 2015-01-30 2015-01-30 Способ и устройство для преобразования голоса в текст в конференц-вызове RU2677878C1 (ru)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2015/071966 WO2016119226A1 (zh) 2015-01-30 2015-01-30 一种多方通话中语音转文本的方法及装置

Publications (1)

Publication Number Publication Date
RU2677878C1 true RU2677878C1 (ru) 2019-01-22

Family

ID=56542220

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2017129888A RU2677878C1 (ru) 2015-01-30 2015-01-30 Способ и устройство для преобразования голоса в текст в конференц-вызове

Country Status (7)

Country Link
US (1) US10825459B2 (ru)
EP (1) EP3244600B1 (ru)
JP (1) JP6573676B2 (ru)
KR (1) KR101987123B1 (ru)
CN (1) CN106105175B (ru)
RU (1) RU2677878C1 (ru)
WO (1) WO2016119226A1 (ru)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020133342A1 (en) * 2001-03-16 2002-09-19 Mckenna Jennifer Speech to text method and system
US20050201540A1 (en) * 2004-03-09 2005-09-15 Rampey Fred D. Speech to text conversion system
US7236580B1 (en) * 2002-02-20 2007-06-26 Cisco Technology, Inc. Method and system for conducting a conference call
CN101068271A (zh) * 2007-06-26 2007-11-07 华为技术有限公司 电话纪要生成系统、通信终端、媒体服务器及方法
US20130294595A1 (en) * 2012-05-01 2013-11-07 Mitel Networks Corporation Multi-modal communications with conferencing and clients
US20140050308A1 (en) * 2012-02-13 2014-02-20 Stéphane Blecon Telephony system with a background recapitulation feature
RU2012136154A (ru) * 2010-02-10 2014-03-20 Харрис Корпорейшн Одновременные вызовы в режиме конференц-связи с функцией преобразования речи в текст

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7158764B2 (en) 2001-12-13 2007-01-02 Electronic Data Systems Corporation System and method for sending high fidelity sound between wireless units
JP2005012484A (ja) 2003-06-19 2005-01-13 Nec Engineering Ltd 音声会議システム
US8027276B2 (en) * 2004-04-14 2011-09-27 Siemens Enterprise Communications, Inc. Mixed mode conferencing
US20060282265A1 (en) * 2005-06-10 2006-12-14 Steve Grobman Methods and apparatus to perform enhanced speech to text processing
CN100442789C (zh) * 2006-03-16 2008-12-10 华为技术有限公司 一种多方通信的实现方法及系统
US8817668B2 (en) * 2006-09-15 2014-08-26 Microsoft Corporation Distributable, scalable, pluggable conferencing architecture
WO2008066836A1 (en) * 2006-11-28 2008-06-05 Treyex Llc Method and apparatus for translating speech during a call
US9025751B2 (en) * 2008-10-01 2015-05-05 Avaya Inc. System and method of managing conference calls through the use of filtered lists of participants
US8542807B2 (en) * 2009-02-09 2013-09-24 Applied Minds, Llc Method and apparatus for establishing a data link based on a pots connection
US8559606B2 (en) * 2010-12-07 2013-10-15 Microsoft Corporation Multimodal telephone calls
US8510398B2 (en) * 2010-12-10 2013-08-13 At&T Intellectual Property I, Lp Apparatus and method for managing message communication
US9420431B2 (en) * 2011-03-08 2016-08-16 General Motors Llc Vehicle telematics communication for providing hands-free wireless communication
US8918197B2 (en) * 2012-06-13 2014-12-23 Avraham Suhami Audio communication networks
US9110891B2 (en) * 2011-12-12 2015-08-18 Google Inc. Auto-translation for multi user audio and video
JP6201279B2 (ja) 2012-03-22 2017-09-27 日本電気株式会社 サーバ、サーバの制御方法および制御プログラム、情報処理システム、情報処理方法、携帯端末、携帯端末の制御方法および制御プログラム
JP6303324B2 (ja) * 2013-08-09 2018-04-04 株式会社リコー 通信システム、管理装置、通信方法およびプログラム
CN104700836B (zh) * 2013-12-10 2019-01-29 阿里巴巴集团控股有限公司 一种语音识别方法和系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020133342A1 (en) * 2001-03-16 2002-09-19 Mckenna Jennifer Speech to text method and system
US7236580B1 (en) * 2002-02-20 2007-06-26 Cisco Technology, Inc. Method and system for conducting a conference call
US20050201540A1 (en) * 2004-03-09 2005-09-15 Rampey Fred D. Speech to text conversion system
CN101068271A (zh) * 2007-06-26 2007-11-07 华为技术有限公司 电话纪要生成系统、通信终端、媒体服务器及方法
RU2012136154A (ru) * 2010-02-10 2014-03-20 Харрис Корпорейшн Одновременные вызовы в режиме конференц-связи с функцией преобразования речи в текст
US20140050308A1 (en) * 2012-02-13 2014-02-20 Stéphane Blecon Telephony system with a background recapitulation feature
US20130294595A1 (en) * 2012-05-01 2013-11-07 Mitel Networks Corporation Multi-modal communications with conferencing and clients

Also Published As

Publication number Publication date
JP6573676B2 (ja) 2019-09-11
US10825459B2 (en) 2020-11-03
EP3244600A4 (en) 2018-01-17
KR101987123B1 (ko) 2019-06-10
EP3244600B1 (en) 2022-06-22
JP2018509056A (ja) 2018-03-29
CN106105175B (zh) 2019-05-21
WO2016119226A1 (zh) 2016-08-04
KR20170108121A (ko) 2017-09-26
EP3244600A1 (en) 2017-11-15
US20170372701A1 (en) 2017-12-28
CN106105175A (zh) 2016-11-09

Similar Documents

Publication Publication Date Title
US8265247B2 (en) Method of providing message information, including call subject information, to a recipient of a telephone call
US8290124B2 (en) Conference call replay
US9967402B2 (en) Conference call authentication utilizing passcodes personal to users
CN104137523B (zh) 一种实现会议接入的方法、设备和系统
US11050871B2 (en) Storing messages
US8805330B1 (en) Audio phone number capture, conversion, and use
US9967813B1 (en) Managing communication sessions with respect to multiple transport media
JP2014504058A (ja) ネットワーク装置、被呼端末、及びサードパーティ呼を処理する方法
CN106161177B (zh) 实现语音信箱系统与融合通信系统互通的方法和系统
CN105704327B (zh) 一种拒接电话的方法及系统
JP7201897B2 (ja) 中継装置および音声通信のモニタ方法
US20200099726A1 (en) TELEPHONE COMMUNICATION SYSTEM AND METHOD FOR DYNAMIC ASSIGNMENT OF IP-PBXs
RU2677878C1 (ru) Способ и устройство для преобразования голоса в текст в конференц-вызове
CA2647921C (en) Method and system for configuring a contact database associated with a user
CN115766942A (zh) 一种客户服务切换方法、装置、设备以及存储介质
JP4352138B2 (ja) 携帯電話での同報通話システム
EP2224712B1 (en) Method of providing message information, including call subject information, to a recipient of a telephone call
US10818295B1 (en) Maintaining network connections
CN111669458B (zh) 一种电话号码存储方法、装置及存储介质
CN103312903A (zh) 调试录音方法及装置
JP7280608B2 (ja) 電話営業用ctiシステム
JP6665577B2 (ja) 通信処理装置、通信処理方法及びプログラム
US9386157B2 (en) Method and system for telecommunication
CN104144266A (zh) 语音通知电话会议参加者的方法、企业总机服务器及系统
JP2002064633A (ja) 着信先選択サービス提供装置、着信先選択サービス提供方法、及び着信先選択サービス提供プログラムを記録した記録媒体