WO2020066660A1 - 情報処理方法、情報処理装置およびプログラム - Google Patents
情報処理方法、情報処理装置およびプログラム Download PDFInfo
- Publication number
- WO2020066660A1 WO2020066660A1 PCT/JP2019/035902 JP2019035902W WO2020066660A1 WO 2020066660 A1 WO2020066660 A1 WO 2020066660A1 JP 2019035902 W JP2019035902 W JP 2019035902W WO 2020066660 A1 WO2020066660 A1 WO 2020066660A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- characters
- input
- upper limit
- moving image
- information processing
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
Definitions
- the present disclosure relates to a technology for processing a moving image.
- Patent Literature 1 discloses a technique of shooting each scene with a video camera in order to generate a content including a plurality of scenes.
- an aspect of the present disclosure is to enable a user to grasp the number of characters for synthesizing a sound having a time length appropriate for a time length of a moving image.
- an information processing method sets an upper limit number of characters according to a time length of a moving image, and receives an input of a character representing a sound added to the moving image, A notification operation is performed for the user according to the number of input characters, which is the number of characters, and the upper limit number of characters.
- An information processing apparatus includes an upper limit setting unit that sets an upper limit number of characters according to a time length of a moving image, an input receiving unit that receives input of a character representing a sound added to the moving image, A notification processing unit that performs a notification operation to the user according to the number of input characters that is the number of characters and the upper limit number of characters.
- a program includes an upper limit setting unit that sets an upper limit number of characters according to a time length of a moving image, an input receiving unit that receives input of a character representing a sound added to the moving image, and The computer is caused to function as a notification processing unit that performs a notification operation for the user according to the number of input characters that is the number and the upper limit number of characters.
- FIG. 2 is a block diagram illustrating a configuration of the information processing apparatus according to the first embodiment. It is a schematic diagram which illustrates the relationship between a moving image and additional sound.
- 5 is a flowchart illustrating a specific procedure of a process executed by the control device. 5 is a flowchart illustrating a specific procedure of a process executed by the control device. It is a schematic diagram which illustrates a recording screen. It is a schematic diagram which illustrates a recording screen. It is a flowchart which illustrates the specific procedure of the process which the control apparatus in 2nd Embodiment performs. It is a schematic diagram which illustrates the recording screen in 2nd Embodiment. It is an example of a display of the maximum number of characters and the number of input characters in a modification of a 2nd embodiment.
- FIG. 1 is a block diagram illustrating a configuration of the information processing apparatus 100 according to the first embodiment of the present disclosure.
- the information processing apparatus 100 is a computer system for recording a moving image constituting a content.
- an information terminal such as a mobile phone, a smartphone, a tablet terminal, or a personal computer is used as the information processing device 100.
- various types of content related to a company such as content introducing a company or content for recruiting human resources, are assumed. Examples of the content that introduces the company include content that introduces the company itself, content that introduces products handled by the company, and content that introduces technology developed by the company.
- the contents of the contents are not limited to the above examples.
- the information processing apparatus 100 includes a control device 11, a storage device 12, a communication device 13, a display device 14, an input device 15, a recording device 16, and a sound emitting device 17.
- the control device 11 includes one or more processors that control each element of the information processing device 100.
- the control device 11 includes one or more types of processors such as a CPU (Central Processing Unit) or an FPGA (Field Programmable Gate Array). Note that some functions of the control device 11 may be realized by a dedicated electronic circuit. Further, the function of the control device 11 may be mounted on a plurality of devices.
- the communication device 13 communicates with the editing device 300 and the speech synthesis device 400 via a communication network 200 including a mobile communication network or the Internet. Specifically, the communication device 13 transmits data including a moving image (hereinafter, referred to as “material data”) to the editing device 300.
- the editing device 300 is a server device that generates one piece of content by editing material data received from the information processing device 100. For example, content is generated by automatic or manual editing. The content generated by the editing device 300 is provided to the information processing device 100. Note that the information processing apparatus 100 may generate the content from the material data.
- the display device 14 displays various images under the control of the control device 11.
- a liquid crystal display panel is used as the display device 14.
- the display device 14 displays, for example, a screen for recording a plurality of moving images and each moving image of the content generated by the editing device 300.
- the input device 15 receives an operation by a user.
- an operation device operated by a user or a touch panel integrated with the display device 14 is used as the input device 15.
- a sound collection device capable of voice input may be used as the input device 15.
- the sound emitting device 17 (for example, a speaker or headphones) emits sound under the control of the control device 11.
- the recording device 16 is an image input device that records the moving image M.
- the recording device 16 includes an imaging device that converts incident light from an optical system such as a photographic lens into an electric signal.
- an imaging device that converts incident light from an optical system such as a photographic lens into an electric signal.
- a sound collecting device that collects surrounding sounds may be mounted on the recording device 16 to record the moving image M including both sounds and images.
- the moving image M recorded by the recording device 16 is represented by moving image data of an arbitrary format.
- the recording device 16 separate from the information processing device 100 may be connected to the information processing device 100 by wire or wirelessly.
- the storage device 12 is a single or a plurality of memories for storing programs executed by the control device 11 and various data used by the control device 11. For example, the moving image M recorded by the recording device 16 is stored in the storage device 12.
- a known recording medium such as a semiconductor recording medium and a magnetic recording medium, or a combination of plural types of recording media is arbitrarily adopted as the storage device 12.
- a portable recording medium that is detachable from the information processing apparatus 100 or an external recording medium (for example, an online storage) with which the information processing apparatus 100 can communicate may be used as the storage device 12. That is, the storage device 12 may be omitted from the information processing device 100.
- the control device 11 of the first embodiment executes a recording process by executing a program stored in the storage device 12.
- the recording process is a process of recording the moving image M and generating a sound V (hereinafter, referred to as “additional sound”) added to the moving image M.
- the additional sound V is a sound (for example, narration) reproduced in parallel with the moving image M, as illustrated in FIG. Specifically, the additional sound V is reproduced during a specific period (hereinafter, referred to as “additional period”) Q in the moving image M.
- the additional period Q is a period excluding the first predetermined period q1 and the last predetermined period q2 of the period during which the moving image M is reproduced.
- the period q1 is a period during which a predetermined sound such as music impressing the start of the moving image M is reproduced, or a period used for connection with the immediately preceding moving image M, for example.
- the period q2 is a period during which a predetermined sound such as music impressing the end of the moving image M is reproduced, or a period used for connection with the immediately following moving image M.
- FIGS. 3 and 4 are flowcharts illustrating a specific procedure of the recording process executed by the control device 11. For example, the recording process is started in response to an instruction from the user to the input device 15.
- the control device 11 displays the recording screen G of FIG. 5 on the display device 14 (Sa1).
- the recording screen G is configured to include a shooting area R1 and an input area R2.
- the shooting region R1 is a region where the moving image M recorded by the recording device 16 (specifically, a video image captured by the imaging device) is displayed.
- the input area R2 is an area for the user to input a character C representing the additional voice V.
- the character C is, for example, a kanji or hiragana in Japanese and an alphabet in English.
- the control device 11 records the moving image M by the recording device 16 in accordance with an instruction from the user (Sa2). Specifically, the control device 11 causes the recording device 16 to start recording the moving image M in response to a start instruction from the user, and ends recording of the moving image M in response to a termination instruction from the user. Therefore, the time length T of the moving image M is a variable value according to an instruction from the user.
- the control device 11 sets the upper limit character number X according to the time length T of the moving image M (Sa3).
- the upper limit character number X is an upper limit value of the number of characters C representing the additional voice V (hereinafter, referred to as “input character number”) Y.
- the upper limit character number X of the first embodiment is variably set according to the time length Tq of the additional period Q of the moving image M. Specifically, the longer the time length Tq of the additional period Q (ie, the longer the time length T of the moving image M), the larger the upper limit character number X becomes.
- the control device 11 functions as an element (upper limit setting unit) for setting the upper limit character number X according to the time length T of the moving image M.
- the number of characters uttered at a predetermined speech speed (hereinafter referred to as “reference speech speed”) P within the additional period Q is set as the upper limit character number X.
- the reference speech speed P is a standard number of characters uttered within a unit time (for example, one minute). For example, the reference speech speed P is set to 300 characters / minute.
- the user When the recording of the moving image M is completed, the user operates the input device 15 to sequentially input desired characters C into the input area R2.
- the control device 11 receives the input of the character C by the user (Sa4). That is, the control device 11 functions as an element (input receiving unit) that receives the input of the character C representing the additional voice V.
- the control device 11 compares the number of input characters Y, which is the number of characters C already input by the user, with the upper limit character number X set for the moving image M, and determines whether the input character number Y exceeds the upper limit character number X. (Sa5). When the input character number Y exceeds the upper limit character number X (Sa5: YES), the control device 11 notifies the user of the excess of the input character number Y (Sa6). Specifically, as illustrated in FIG. 6, the control device 11 causes the display device 14 to display a message W, such as “the number of input characters has exceeded the upper limit”, which warns that the number of input characters Y has been exceeded.
- the user Upon recognizing the above notification, the user performs an operation for reducing the number of input characters Y, such as deleting the input character C. On the other hand, when the number of input characters Y is less than the upper limit number of characters X (Sa5: NO), the notification to the user (Sa6) is not executed.
- the process of determining whether the number of input characters Y has exceeded the upper limit character number X (Sa5) and the process of notifying the user of the excess of the number of input characters Y (Sa6) depend on the input character number Y and the upper limit character number X.
- 9 is an example of the notification operation N.
- the control device 11 functions as an element (notification processing unit) that executes the notification operation N according to the input character number Y and the upper limit character number X.
- the control device 11 executes a process (Sa8, Sa9) for reproducing the additional sound V.
- the control device 11 of the first embodiment acquires the additional voice V corresponding to the input character string from the voice synthesis device 400 (Sa8). Specifically, the control device 11 transmits the input character string from the communication device 13 to the speech synthesis device 400, and receives the additional voice V generated by the speech synthesis device 400 via the communication device 13.
- control device 11 causes the sound emitting device 17 to reproduce the additional sound V acquired from the sound synthesizing device 400 (Sa9).
- the reproduction of the additional audio V is not instructed (Sa7: NO)
- the additional audio V is not reproduced.
- the speech synthesizer 400 is a server device that generates an additional voice V corresponding to the input character string received from the information processing device 100.
- a publicly known speech synthesis technology (TTS: Text @ To ⁇ Speech) is arbitrarily adopted to generate the additional speech V.
- TTS Text @ To ⁇ Speech
- unit-speech-type speech synthesis that generates additional speech V by connecting a plurality of speech segments
- statistical model-type speech synthesis that generates additional speech V using a statistical model such as a hidden Markov model.
- the additional audio V is represented by data of an arbitrary format such as MP3 (MPEG-1 Audio Layer-3).
- the voice synthesizer 400 transmits the synthesized additional voice V to the information processing apparatus 100.
- the control device 11 When the additional sound V is generated by the above procedure, the control device 11 causes the display device 14 to display the reproduction time Tv of the additional sound V (Sa10). Note that the control device 11 of the information processing device 100 may generate the additional voice V from the input character string by a voice synthesis technology.
- the user can instruct the finalization of the input character string by operating the operator B2 on the recording screen G.
- the control device 11 shifts the processing to step Sa4, and receives the input of the character C (Sa4) and the notification operation N (Sa5, Sa6).
- the reproduction of the additional voice V (Sa7-Sa9) is repeated.
- the control device 11 determines whether or not the reproduction of the additional voice V (Sa8, Sa9) has been executed for the current input character string. (Sa12).
- the control device 11 determines the input character string based on the current content, and proceeds to step Sa13.
- the determination of the input character string is permitted on condition that the additional voice V is reproduced. That is, the user always listens to the additional voice V before the input character string is determined. Therefore, it is possible to prevent the possibility that the audible impression or the reproduction time Tv of the additional voice V deviates from the recognition of the user.
- the user can instruct reproduction of the moving image M by operating the operator B3 on the recording screen G.
- the control device 11 reproduces the moving image M recorded by the recording device 16 and the additional sound V generated by the voice synthesizing device 400 (Sa14).
- the display of the moving image M by the display device 14 and the sound emission of the additional sound V by the sound emitting device 17 are executed in parallel.
- the additional audio V is reproduced within the additional period Q of the moving image M.
- the reproduction of the moving image M is not instructed (Sa13: N0)
- the moving image M and the additional sound V are not reproduced.
- the control device 11 determines whether the user has instructed the end of the recording process (Sa15). When the end of the recording process is not instructed (Sa15: NO), the control device 11 shifts the processing to step Sa4. That is, the reception of the input of the character C (Sa4), the notification operation N (Sa5, Sa6), the reproduction of the additional sound V (Sa7-Sa9), and the reproduction of the moving image M (Sa13, Sa14) are repeated.
- the control device 11 transmits the material data including the moving image M and the additional audio V from the communication device 13 to the editing device 300 (Sa16).
- the editing device 300 appropriately adjusts the moving image M and the additional sound V, and then generates a content to which the additional sound V is added during the additional period Q of the moving image M.
- the notification operation N according to the upper limit number of characters X and the number of input characters Y is performed, so that the additional sound V having a time length appropriate for the time length T of the moving image M is generated.
- the user can grasp the number of input characters Y for combining.
- the user is notified of the excess of the input character number Y, so that the user can easily grasp the excess of the input character number Y. is there.
- FIG. 7 is a partial flowchart of the recording process in the second embodiment.
- the control device 11 of the second embodiment executes the processing of FIG. 7 instead of the processing of FIG. 3 in the first embodiment.
- the process of determining whether or not the number of input characters Y is exceeded (Sa5) and the process of notifying the user of the excess (Sa6) are illustrated as the notification operation N.
- the control device 11 of the second embodiment executes a process of displaying the upper limit character number X and the input character number Y on the display device 14 as a notification operation N (Sb).
- the second embodiment also achieves the same effects as the first embodiment. Further, in the second embodiment, since the upper limit character number X and the input character number Y are displayed on the display device 14, the ratio of the input character number Y to the upper limit character number X (that is, how much more is left) There is an advantage that the user can easily grasp whether the character C can be input.
- the numerical values of the upper limit character number X and the input character number Y are displayed on the display device 14.
- the upper limit character number X and the input character number Y may be schematically displayed.
- the upper limit character number X and the input character number Y may be displayed in a bar graph.
- the upper limit number of characters X is set according to the time length Tq of the additional period Q excluding the first period q1 and the last period q2 of the playback period of the moving image M. Is not limited to the above example.
- the period q1 and the period q2 do not need to be excluded from the playback period of the moving image M, and the upper limit number of characters X may be set with the entire playback period as the additional period Q.
- a period obtained by excluding one of the periods q1 and q2 from the reproduction period of the moving image M may be set as the additional period Q.
- the user is notified of the excess of the number of input characters Y by the image displayed on the display device 14, but the method of notifying the user of the excess of the number of input characters Y is not limited to the above examples.
- a configuration in which the excess of the number of input characters Y is notified by voice is assumed.
- a sound representing a message such as “the number of input characters has exceeded the upper limit value” may be emitted from the sound emitting device 17.
- the material data including the moving image M and the additional sound V is transmitted to the editing device 300.
- the additional sound V (or together with the additional sound V)
- the input character string is May also be transmitted to the editing device 300.
- the additional voice V is synthesized from the input character string.
- the editing device 300 may record a voice in which a specific speaker has pronounced the input character string as the additional voice V. As understood from the above description, the synthesis of the additional voice V according to the input character string can be omitted.
- the present disclosure is also applied to a case where the additional audio V is reproduced in parallel with the display of a still image for a predetermined time. it can.
- the upper limit character number X is set according to the time length T for displaying a still image.
- the “moving image” in one embodiment of the present disclosure means an image reproduced in parallel with the additional sound V, and in addition to a narrow moving image in which a subject dynamically changes, This concept includes a still image that is displayed continuously for a long time.
- the functions of the information processing apparatus 100 according to each of the above-described embodiments are realized by cooperation of a processing circuit such as the control device 11 and a program, as exemplified in each embodiment.
- the program according to each of the above-described embodiments may be provided in a form stored in a computer-readable recording medium and installed on the computer.
- the recording medium is, for example, a non-transitory recording medium, and an optical recording medium (optical disk) such as a CD-ROM is a good example, and a known arbitrary recording medium such as a semiconductor recording medium or a magnetic recording medium is used. Recording media of the type described above are also included.
- non-transitory recording medium includes any recording medium except for a transient propagation signal (transitory, ⁇ propagating ⁇ signal), and does not exclude a volatile recording medium.
- the program may be provided to the computer in a form of distribution via a communication network.
- An information processing method sets an upper limit number of characters according to a time length of a moving image, receives input of a character representing a sound added to the moving image, and The notification operation for the user is executed according to the number of input characters and the upper limit number of characters.
- the notification operation according to the upper limit number of characters and the number of input characters is performed, so that the user can grasp the number of characters for synthesizing a sound having a time length appropriate for the time length of the moving image.
- the number of characters uttered at a predetermined speech speed within an additional period according to a time length of the moving image in the moving image is determined by the upper limit character number. Calculated as According to the above aspect, it is possible to set an appropriate upper limit number of characters that is highly relevant to the time length of a moving image.
- the notification operation is an operation of notifying the user of the excess of the number of input characters.
- the notification operation is an operation of displaying the upper limit number of characters and the number of input characters on a display device. According to the above aspect, there is an advantage that the user can grasp how much the input character number is relative to the upper limit character number.
- An information processing apparatus includes an upper limit setting unit that sets an upper limit number of characters according to a time length of a moving image, and an input that receives input of a character representing a sound added to the moving image.
- a receiving unit configured to execute a notification operation for a user according to the number of input characters that is the number of characters and the upper limit number of characters.
- a program according to an aspect (sixth aspect) of the present disclosure includes an upper limit setting unit that sets an upper limit number of characters according to a time length of a moving image, an input receiving unit that receives input of characters representing voice added to the moving image, Further, the computer is caused to function as a notification processing unit that executes a notification operation for a user according to the number of input characters that is the number of characters and the upper limit number of characters.
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Television Signal Processing For Recording (AREA)
- Studio Circuits (AREA)
Abstract
情報処理装置は、動画の時間長に応じて上限文字数を設定し、前記動画に付加される音声を表す文字の入力を受付け、前記文字の個数である入力文字数と前記上限文字数とに応じた利用者に対する報知動作を実行する。
Description
本開示は、動画を処理する技術に関する。
端末装置を利用して動画像を収録する技術が従来から提案されている。例えば特許文献1には、複数のシーンで構成されるコンテンツを生成するために、各シーンをビデオカメラで撮影する技術が開示されている。
撮影済の動画に音声(ナレーション)を付加する場面が想定される。音声を収録する作業は煩雑であるから、利用者が指定した文字に応じた音声を公知の音声合成技術により生成することが要求される。しかし、利用者が入力した文字に対応した音声が、動画の時間長に対して適切であるか否かを利用者は把握できない。したがって、音声合成技術により生成された音声が実際には動画よりも長時間におよび、動画に対して音声を適切に付加できないといった事態が想定される。以上の事情を考慮して、本開示のひとつの態様は、動画の時間長に対して適切な時間長の音声を合成するための文字数を利用者が把握できるようにすることを目的とする。
以上の課題を解決するために、本開示のひとつの態様に係る情報処理方法は、動画の時間長に応じて上限文字数を設定し、前記動画に付加される音声を表す文字の入力を受付け、前記文字の個数である入力文字数と前記上限文字数とに応じた利用者に対する報知動作を実行する。
本開示のひとつの態様に係る情報処理装置は、動画の時間長に応じて上限文字数を設定する上限設定部と、前記動画に付加される音声を表す文字の入力を受付ける入力受付部と、前記文字の個数である入力文字数と前記上限文字数とに応じた利用者に対する報知動作を実行する報知処理部とを具備する。
本開示のひとつの態様に係るプログラムは、動画の時間長に応じて上限文字数を設定する上限設定部、前記動画に付加される音声を表す文字の入力を受付ける入力受付部、および、前記文字の個数である入力文字数と前記上限文字数とに応じた利用者に対する報知動作を実行する報知処理部としてコンピュータを機能させる。
<第1実施形態>
図1は、本開示の第1実施形態に係る情報処理装置100の構成を例示するブロック図である。情報処理装置100は、コンテンツを構成する動画を収録するためのコンピュータシステムである。例えば、携帯電話機、スマートフォン、タブレット端末、またはパーソナルコンピュータ等の情報端末が、情報処理装置100として利用される。第1実施形態では、例えば企業を紹介するコンテンツまたは人材募集のためのコンテンツなど、企業に関する各種のコンテンツを想定する。企業を紹介するコンテンツとしては、例えば企業自体を紹介するコンテンツのほか、企業が取扱う製品を紹介するコンテンツ、または、企業が開発した技術を紹介するコンテンツなどが想定される。もっとも、コンテンツの内容は以上の例示に限定されない。
図1は、本開示の第1実施形態に係る情報処理装置100の構成を例示するブロック図である。情報処理装置100は、コンテンツを構成する動画を収録するためのコンピュータシステムである。例えば、携帯電話機、スマートフォン、タブレット端末、またはパーソナルコンピュータ等の情報端末が、情報処理装置100として利用される。第1実施形態では、例えば企業を紹介するコンテンツまたは人材募集のためのコンテンツなど、企業に関する各種のコンテンツを想定する。企業を紹介するコンテンツとしては、例えば企業自体を紹介するコンテンツのほか、企業が取扱う製品を紹介するコンテンツ、または、企業が開発した技術を紹介するコンテンツなどが想定される。もっとも、コンテンツの内容は以上の例示に限定されない。
図1に例示される通り、第1実施形態の情報処理装置100は、制御装置11と記憶装置12と通信装置13と表示装置14と入力装置15と収録装置16と放音装置17とを具備する。制御装置11は、情報処理装置100の各要素を制御する単数または複数のプロセッサで構成される。例えば、制御装置11は、CPU(Central Processing Unit)またはFPGA(Field Programmable Gate Array)等の1種類以上のプロセッサで構成される。なお、制御装置11の一部の機能を専用の電子回路で実現してもよい。また、制御装置11の機能を複数の装置に搭載してもよい。
通信装置13は、移動体通信網またはインターネット等を含む通信網200を介して編集装置300および音声合成装置400と通信する。具体的には、通信装置13は、動画を含むデータ(以下「素材データ」という)を編集装置300に送信する。編集装置300は、情報処理装置100から受信した素材データを編集することで1個のコンテンツを生成するサーバ装置である。例えば自動または手動による編集でコンテンツが生成される。編集装置300が生成したコンテンツは情報処理装置100に提供される。なお、情報処理装置100が素材データからコンテンツを生成してもよい。
表示装置14は、制御装置11による制御のもとで各種の画像を表示する。例えば液晶表示パネルが表示装置14として利用される。表示装置14は、例えば複数の動画を収録するための画面、および、編集装置300が生成したコンテンツの各動画を表示する。入力装置15は、利用者による操作を受付ける。例えば、利用者が操作する操作子、または表示装置14と一体に構成されたタッチパネルが、入力装置15として利用される。また、音声入力が可能な収音装置を入力装置15として利用してもよい。放音装置17(例えばスピーカまたはヘッドホン)は、制御装置11による制御のもとで音響を放射する。
収録装置16は、動画Mを収録する画像入力機器である。具体的には、収録装置16は、撮影レンズ等の光学系からの入射光を電気信号に変換する撮像装置を具備する。第1実施形態では、収録装置16により収録された動画Mが音響を含まない場合を例示する。ただし、周囲の音響を収音する収音装置を収録装置16に搭載し、音響と映像の双方を含む動画Mを収録してもよい。収録装置16が収録した動画Mは、任意の形式の動画データで表現される。なお、情報処理装置100とは別体の収録装置16を有線または無線により情報処理装置100に接続してもよい。
記憶装置12は、制御装置11が実行するプログラムと制御装置11が使用する各種のデータとを記憶する単数または複数のメモリである。例えば収録装置16が収録した動画Mが記憶装置12に記憶される。半導体記録媒体および磁気記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置12として任意に採用される。なお、情報処理装置100に対して着脱可能な可搬型の記録媒体、または情報処理装置100が通信可能な外部記録媒体(例えばオンラインストレージ)を、記憶装置12として利用してもよい。すなわち、記憶装置12は情報処理装置100から省略され得る。
第1実施形態の制御装置11は、記憶装置12に記憶されたプログラムを実行することで収録処理を実行する。収録処理は、動画Mを収録するとともに、当該動画Mに付加される音声(以下「付加音声」という)Vを生成する処理である。付加音声Vは、図2に例示される通り、動画Mに並行して再生される音声(例えばナレーション)である。具体的には、動画M内の特定の期間(以下「付加期間」という)Q内に付加音声Vが再生される。付加期間Qは、動画Mが再生される期間のうち先頭の所定長の期間q1と末尾の所定長の期間q2とを除外した期間である。期間q1は、例えば動画Mの開始を印象付ける音楽等の所定の音響が再生される期間、または、直前の動画Mとの連結に使用される期間である。また、期間q2は、例えば動画Mの終了を印象付ける音楽等の所定の音響が再生される期間、または、直後の動画Mとの連結に使用される期間である。
図3および図4は、制御装置11が実行する収録処理の具体的な手順を例示するフローチャートである。例えば、入力装置15に対する利用者からの指示を契機として収録処理が開始される。
収録処理を開始すると、制御装置11は、図5の収録画面Gを表示装置14に表示させる(Sa1)。図5に例示される通り、収録画面Gは、撮影領域R1と入力領域R2とを含んで構成される。撮影領域R1は、収録装置16が収録した動画M(具体的には撮像装置が撮像する映像)が表示される領域である。入力領域R2は、付加音声Vを表す文字Cを利用者が入力するための領域である。文字Cは、例えば日本語であれば漢字または平仮名であり、英語であればアルファベットである。
制御装置11は、利用者からの指示に応じて収録装置16により動画Mを収録する(Sa2)。具体的には、制御装置11は、利用者からの開始の指示に応じて収録装置16に動画Mの収録を開始させ、利用者からの終了の指示に応じて動画Mの収録を終了させる。したがって、動画Mの時間長Tは、利用者からの指示に応じた可変値である。
制御装置11は、動画Mの時間長Tに応じて上限文字数Xを設定する(Sa3)。上限文字数Xは、付加音声Vを表す文字Cの個数(以下「入力文字数」という)Yの上限値である。第1実施形態の上限文字数Xは、動画Mのうち付加期間Qの時間長Tqに応じて可変に設定される。具体的には、付加期間Qの時間長Tqが長い(すなわち動画Mの時間長Tが長い)ほど上限文字数Xは大きい数値となる。以上の説明から理解される通り、制御装置11は、動画Mの時間長Tに応じて上限文字数Xを設定する要素(上限設定部)として機能する。
第1実施形態では、付加期間Q内に所定の話速(以下「基準話速」という)Pで発話される文字数が上限文字数Xとして設定される。基準話速Pは、単位時間(例えば1分間)内に発話される標準的な文字数である。例えば、基準話速Pは300文字/分に設定される。具体的には、制御装置11は、付加期間Qの時間長Tq(単位:分)と基準話速Pとの乗算値を上限文字数Xとして設定する(X=P・Tq)。以上の構成によれば、動画の時間長に対して妥当性が高い適切な上限文字数Xを設定することが可能である。
動画Mの収録が完了すると、利用者は、入力装置15を操作することで所望の文字Cを入力領域R2に順次に入力する。制御装置11は、利用者による文字Cの入力を受付ける(Sa4)。すなわち、制御装置11は、付加音声Vを表す文字Cの入力を受付ける要素(入力受付部)として機能する。
制御装置11は、利用者による入力済の文字Cの個数である入力文字数Yと動画Mについて設定した上限文字数Xとを比較し、入力文字数Yが上限文字数Xを超過したか否かを判定する(Sa5)。入力文字数Yが上限文字数Xを超過した場合(Sa5:YES)、制御装置11は、入力文字数Yの超過を利用者に報知する(Sa6)。具体的には、制御装置11は、図6に例示される通り、入力文字数Yの超過を警告する「入力文字数が上限値を超えました」等のメッセージWを表示装置14に表示させる。以上の報知を認識すると、利用者は、入力済の文字Cの削除など入力文字数Yを削減するための作業を実行する。他方、入力文字数Yが上限文字数Xを下回る場合(Sa5:NO)、利用者に対する報知(Sa6)は実行されない。
入力文字数Yが上限文字数Xを超過したか否かを判定する処理(Sa5)と、入力文字数Yの超過を利用者に報知する処理(Sa6)とは、入力文字数Yと上限文字数Xとに応じた報知動作Nの例示である。以上の説明から理解される通り、制御装置11は、入力文字数Yと上限文字数Xとに応じた報知動作Nを実行する要素(報知処理部)として機能する。
利用者は、収録画面Gの操作子B1を操作することで、入力済の文字Cの時系列(以下「入力文字列」という)に対応する付加音声Vの再生を指示することが可能である。図4に例示される通り、付加音声Vの再生が指示されると(Sa7:YES)、制御装置11は、付加音声Vを再生するための処理(Sa8,Sa9)を実行する。第1実施形態の制御装置11は、入力文字列に対応する付加音声Vを音声合成装置400から取得する(Sa8)。具体的には、制御装置11は、入力文字列を通信装置13から音声合成装置400に送信し、音声合成装置400が生成した付加音声Vを通信装置13により受信する。そして、制御装置11は、音声合成装置400から取得した付加音声Vを放音装置17に再生させる(Sa9)。他方、付加音声Vの再生が指示されない場合(Sa7:NO)、付加音声Vは再生されない。
音声合成装置400は、情報処理装置100から受信した入力文字列に対応した付加音声Vを生成するサーバ装置である。付加音声Vの生成には公知の音声合成技術(TTS:Text To Speech)が任意に採用される。例えば、複数の音声素片の接続により付加音声Vを生成する素片接続型の音声合成、または、隠れマルコフモデル等の統計モデルを利用して付加音声Vを生成する統計モデル型の音声合成が、付加音声Vの生成に利用される。付加音声Vは、MP3(MPEG-1 Audio Layer-3)等の任意の形式のデータで表現される。音声合成装置400は、合成済の付加音声Vを情報処理装置100に送信する。以上の手順で付加音声Vが生成されると、制御装置11は、当該付加音声Vの再生時間Tvを表示装置14に表示させる(Sa10)。なお、情報処理装置100の制御装置11が、音声合成技術により入力文字列から付加音声Vを生成してもよい。
利用者は、収録画面Gの操作子B2を操作することで、入力文字列の確定を指示することが可能である。入力文字列の確定が指示されていない場合(Sa11:NO)、制御装置11は、処理をステップSa4に移行して、文字Cの入力の受付(Sa4)と報知動作N(Sa5,Sa6)と付加音声Vの再生(Sa7-Sa9)とを反復する。他方、入力文字列の確定が指示されると(Sa11:YES)、制御装置11は、現時点の入力文字列について付加音声Vの再生(Sa8,Sa9)が実行済であるか否かを判定する(Sa12)。付加音声Vが未再生である場合(Sa12:NO)、制御装置11は、「音声を再生してからOKを操作して下さい」等のメッセージを表示装置14に表示したうえで、処理をステップSa4に移行する。他方、付加音声Vが再生済である場合(Sa12:YES)、制御装置11は、現時点の内容で入力文字列を確定したうえでステップSa13に処理を進行させる。以上の説明から理解される通り、付加音声Vの再生を条件として入力文字列の確定が許可される。すなわち、入力文字列の確定前に、利用者は必ず付加音声Vを実際に聴取する。したがって、付加音声Vの聴感的な印象または再生時間Tvが利用者の認識から乖離する可能性を未然に防止できる。
利用者は、収録画面Gの操作子B3を操作することで、動画Mの再生を指示することが可能である。動画Mの再生が指示されると(Sa13:YES)、制御装置11は、収録装置16が収録した動画Mと音声合成装置400が生成した付加音声Vとを再生する(Sa14)。具体的には、表示装置14による動画Mの表示と放音装置17による付加音声Vの放音とが並行に実行される。付加音声Vは動画Mの付加期間Q内で再生される。他方、動画Mの再生が指示されていない場合(Sa13:N0)、動画Mおよび付加音声Vは再生されない。
制御装置11は、収録処理の終了が利用者から指示されたか否かを判定する(Sa15)。収録処理の終了が指示されていない場合(Sa15:NO)、制御装置11は、処理をステップSa4に移行する。すなわち、文字Cの入力の受付(Sa4)と報知動作N(Sa5,Sa6)と付加音声Vの再生(Sa7-Sa9)と動画Mの再生(Sa13,Sa14)とが反復される。他方、収録処理の終了が指示された場合(Sa15:YES)、制御装置11は、動画Mと付加音声Vとを含む素材データを通信装置13から編集装置300に送信する(Sa16)。編集装置300は、動画Mおよび付加音声Vを適宜に調整したうえで、動画Mの付加期間Qに付加音声Vが付加されたコンテンツを生成する。
以上に説明した通り、第1実施形態では、上限文字数Xと入力文字数Yとに応じた報知動作Nが実行されるから、動画Mの時間長Tに対して適切な時間長の付加音声Vを合成するための入力文字数Yを利用者が把握できるという利点がある。第1実施形態では特に、入力文字数Yが上限文字数Xを超過した場合に、入力文字数Yの超過が利用者に報知されるから、入力文字数Yの超過を利用者が容易に把握できるという利点がある。
<第2実施形態>
本開示の第2実施形態を説明する。なお、以下の各例示において機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
本開示の第2実施形態を説明する。なお、以下の各例示において機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
図7は、第2実施形態における収録処理の部分的なフローチャートである。第2実施形態の制御装置11は、第1実施形態における図3の処理に代えて図7の処理を実行する。第1実施形態では、入力文字数Yの超過の有無を判定する処理(Sa5)と当該超過を利用者に報知する処理(Sa6)とを報知動作Nとして例示した。図7に例示される通り、第2実施形態の制御装置11は、上限文字数Xと入力文字数Yとを表示装置14に表示させる処理を、報知動作Nとして実行する(Sb)。具体的には、制御装置11は、図8に例示される通り、上限文字数Xに対する入力文字数Yの比λ(λ=Y/X)を入力領域R2に表示させる。報知動作N以外の動作は第1実施形態と同様である。
第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態では、上限文字数Xと入力文字数Yとが表示装置14に表示されるから、上限文字数Xに対して入力文字数Yがどの程度の割合にあるのか(すなわち、あとどれ位の文字Cを入力できるのか)を利用者が容易に把握できるという利点がある。
なお、図8においては、上限文字数Xおよび入力文字数Yの数値を表示装置14に表示したが、上限文字数Xと入力文字数Yとを図式的に表示してもよい。例えば、図9に例示される通り、上限文字数Xと入力文字数Yとを棒グラフで表示してもよい。
<変形例>
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された複数の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された複数の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
(1)前述の各形態では、動画Mの再生期間のうち先頭の期間q1と末尾の期間q2とを除外した付加期間Qの時間長Tqに応じて上限文字数Xを設定したが、付加期間Qの確定の仕方は以上の例示に限定されない。例えば、動画Mの再生期間から期間q1と期間q2とを除外する必要はなく、当該再生期間の全体を付加期間Qとして上限文字数Xを設定してもよい。動画Mの再生期間から期間q1および期間q2の一方を除外した期間を付加期間Qとしてもよい。
(2)前述の各形態では、時間軸上で連続する1個の付加音声Vを動画Mに付加する場合を例示したが、動画Mの再生期間内に複数の付加期間Qを画定し、各付加期間Qに別個の付加音声Vを付加してもよい。すなわち、複数の付加音声Vを1個の動画Mに付加してもよい。上限文字数Xは、動画Mの再生期間内における複数の付加期間Qの時間長の合計に応じて設定される。付加期間Q毎に上限文字数Xを個別に設定してもよい。
(3)前述の各形態では、表示装置14が表示する画像により入力文字数Yの超過を利用者に報知したが、入力文字数Yの超過を利用者に報知する方法は以上の例示に限定されない。例えば入力文字数Yの超過を音声により報知する構成が想定される。具体的には、例えば「入力文字数が上限値を超えました」等のメッセージを表す音声を放音装置17から放音してもよい。
(4)前述の各形態では、動画Mと付加音声Vとを含む素材データを編集装置300に送信したが、付加音声Vに代えて(または付加音声Vとともに)、入力文字列を、動画Mとともに編集装置300に送信してもよい。編集装置300においては、入力文字列から付加音声Vが合成される。また、特定の発声者が入力文字列を発音した音声を編集装置300が付加音声Vとして収録してもよい。以上の説明から理解される通り、入力文字列に応じた付加音声Vの合成は省略され得る。
(5)前述の各形態では、動画Mに付加音声Vを付加する場合を例示したが、所定の時間にわたる静止画の表示に並行して付加音声Vを再生する場合にも、本開示を適用できる。具体的には、静止画を表示する時間長Tに応じて上限文字数Xが設定される。以上の説明から理解される通り、本開示のひとつの態様における「動画」は、付加音声Vに並行して再生される画像を意味し、被写体が動的に変化する狭義の動画のほか、所定長にわたり継続して表示される静止画も含む概念である。
(6)前述の各形態に係る情報処理装置100の機能は、各形態での例示の通り、制御装置11等の処理回路とプログラムとの協働により実現される。前述の各形態に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、通信網を介した配信の形態でプログラムをコンピュータに提供してもよい。
<付記>
以上に例示した形態から、例えば以下の構成が把握される。
以上に例示した形態から、例えば以下の構成が把握される。
本開示のひとつの態様(第1態様)に係る情報処理方法は、動画の時間長に応じて上限文字数を設定し、前記動画に付加される音声を表す文字の入力を受付け、前記文字の個数である入力文字数と前記上限文字数とに応じた利用者に対する報知動作を実行する。以上の態様によれば、上限文字数と入力文字数とに応じた報知動作が実行されるから、動画の時間長に対して適切な時間長の音声を合成するための文字数を利用者が把握できるという利点がある。
第1態様の具体例(第2態様)において、前記上限文字数の設定では、前記動画のうち当該動画の時間長に応じた付加期間内に所定の話速で発話される文字数を、前記上限文字数として算定する。以上の態様によれば、動画の時間長に対して妥当性が高い適切な上限文字数を設定できる。
第1態様または第2態様の具体例(第3態様)において、前記報知動作は、前記入力文字数が前記上限文字数を超過した場合に、当該入力文字数の超過を前記利用者に報知する動作である。以上の態様によれば、入力文字数の過多を利用者が容易に把握できるという利点がある。
第1態様から第3態様の何れかの具体例(第4態様)において、前記報知動作は、前記上限文字数と前記入力文字数とを表示装置に表示させる動作である。以上の態様によれば、上限文字数に対して入力文字数がどの程度にあるのかを利用者が把握できるという利点がある。
本開示のひとつの態様(第5態様)に係る情報処理装置は、動画の時間長に応じて上限文字数を設定する上限設定部と、前記動画に付加される音声を表す文字の入力を受付ける入力受付部と、前記文字の個数である入力文字数と前記上限文字数とに応じた利用者に対する報知動作を実行する報知処理部とを具備する。
本開示のひとつの態様(第6態様)に係るプログラムは、動画の時間長に応じて上限文字数を設定する上限設定部、前記動画に付加される音声を表す文字の入力を受付ける入力受付部、および、前記文字の個数である入力文字数と前記上限文字数とに応じた利用者に対する報知動作を実行する報知処理部としてコンピュータを機能させる。
100…情報提供装置、11…制御装置、12…記憶装置、13…通信装置、14…表示装置、15…入力装置、16…収録装置、17…放音装置、200…通信網、300…編集装置、400…音声合成装置。
Claims (6)
- 動画の時間長に応じて上限文字数を設定し、
前記動画に付加される音声を表す文字の入力を受付け、
前記文字の個数である入力文字数と前記上限文字数とに応じた利用者に対する報知動作を実行する
コンピュータにより実現される情報処理方法。 - 前記上限文字数の設定においては、前記動画のうち当該動画の時間長に応じた付加期間内に所定の話速で発話される文字数を、前記上限文字数として算定する
請求項1の情報処理方法。 - 前記報知動作は、前記入力文字数が前記上限文字数を超過した場合に、当該入力文字数の超過を前記利用者に報知する動作である
請求項1または請求項2の情報処理方法。 - 前記報知動作は、前記上限文字数と前記入力文字数とを表示装置に表示させる動作である
請求項1から請求項3の何れかの情報処理方法。 - 動画の時間長に応じて上限文字数を設定する上限設定部と、
前記動画に付加される音声を表す文字の入力を受付ける入力受付部と、
前記文字の個数である入力文字数と前記上限文字数とに応じた利用者に対する報知動作を実行する報知処理部と
を具備する情報処理装置。 - 動画の時間長に応じて上限文字数を設定する上限設定部、
前記動画に付加される音声を表す文字の入力を受付ける入力受付部、および、
前記文字の個数である入力文字数と前記上限文字数とに応じた利用者に対する報知動作を実行する報知処理部
としてコンピュータを機能させるプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018181200A JP2020053832A (ja) | 2018-09-27 | 2018-09-27 | 情報処理方法および情報処理装置 |
JP2018-181200 | 2018-09-27 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2020066660A1 true WO2020066660A1 (ja) | 2020-04-02 |
Family
ID=69952627
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2019/035902 WO2020066660A1 (ja) | 2018-09-27 | 2019-09-12 | 情報処理方法、情報処理装置およびプログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2020053832A (ja) |
WO (1) | WO2020066660A1 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1188828A (ja) * | 1997-09-11 | 1999-03-30 | Nippon Hoso Kyokai <Nhk> | ナレーション作成収録支援装置 |
JP2011059412A (ja) * | 2009-09-10 | 2011-03-24 | Fujitsu Ltd | 合成音声テキスト入力装置及びプログラム |
JP2011133882A (ja) * | 2009-11-27 | 2011-07-07 | Media Flats Co Ltd | 音声付映像合成システム及び音声付映像合成方法 |
-
2018
- 2018-09-27 JP JP2018181200A patent/JP2020053832A/ja active Pending
-
2019
- 2019-09-12 WO PCT/JP2019/035902 patent/WO2020066660A1/ja active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1188828A (ja) * | 1997-09-11 | 1999-03-30 | Nippon Hoso Kyokai <Nhk> | ナレーション作成収録支援装置 |
JP2011059412A (ja) * | 2009-09-10 | 2011-03-24 | Fujitsu Ltd | 合成音声テキスト入力装置及びプログラム |
JP2011133882A (ja) * | 2009-11-27 | 2011-07-07 | Media Flats Co Ltd | 音声付映像合成システム及び音声付映像合成方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2020053832A (ja) | 2020-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9691429B2 (en) | Systems and methods for creating music videos synchronized with an audio track | |
US20180295427A1 (en) | Systems and methods for creating composite videos | |
US20170236551A1 (en) | Systems and methods for creating composite videos | |
JP4596060B2 (ja) | 電子機器、動画像データ区間変更方法及びプログラム | |
WO2016202176A1 (zh) | 一种媒体文件合成方法、装置和设备 | |
JP2010283605A (ja) | 映像処理装置及び方法 | |
WO2020066660A1 (ja) | 情報処理方法、情報処理装置およびプログラム | |
JP2009260718A (ja) | 画像再生装置及び画像再生処理プログラム | |
JP2007165959A (ja) | 画像表示装置 | |
JP2013131871A (ja) | 編集装置、遠隔制御装置、テレビジョン受像機、特定音声信号、編集システム、編集方法、プログラム、および、記録媒体 | |
JP5454802B2 (ja) | カラオケ装置 | |
KR100597669B1 (ko) | 멀티미디어 콘텐츠의 재생이 가능한 이동통신단말기 및 그재생방법 | |
WO2020066659A1 (ja) | 情報処理方法、情報処理装置およびプログラム | |
CN113948054A (zh) | 音轨处理方法、装置、电子设备和存储介质 | |
JP2010008893A (ja) | 電子音楽装置 | |
KR20160010843A (ko) | 진동 기능을 제공하는 오디오북 재생 방법, 장치 및 컴퓨터 판독 가능 매체 | |
JP2004215123A (ja) | 画像再生装置、画像再生方法及び画像再生プログラム | |
WO2017026387A1 (ja) | 映像処理装置、映像処理方法および記録媒体 | |
JP2012155822A (ja) | 再生装置、再生方法およびコンピュータプログラム | |
JP6646172B1 (ja) | 多言語コンテンツの教育用再生方法、そのためのデータ構造及びプログラム | |
JP6544147B2 (ja) | 歌唱動画作成装置及び歌唱動画作成システム | |
JP2014056137A (ja) | コンテンツ再生装置、コンテンツ再生方法、コンテンツ再生プログラム | |
JP6964918B1 (ja) | コンテンツ作成支援システム、コンテンツ作成支援方法及びプログラム | |
JP7114908B2 (ja) | 情報処理システム、情報処理装置、情報処理方法、および情報処理プログラム | |
JP2797633B2 (ja) | 音楽画像情報処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 19864009 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 19864009 Country of ref document: EP Kind code of ref document: A1 |