Dictate Sub功能——字幕软件革新的关键
户垄印 发布于2020-09 浏览:1454 回复:0
0
收藏

语音识别字幕现在已经有了比较大的发展,再配合翻译功能,可以说极大地提高了人们添加字幕的速度。但是,语音识别字幕在很多场合效果一般:①说话者有口音或者吐字不清;②录音设备缺陷;③说话者所讲的语言是现有的软件不能识别的;④在汉语、日语、朝鲜语中大量存在的同音字现象,造成识别的混乱;④语气词、口吃等情况造成识别的字幕有很多赘余。

为了修正语音识别字幕。很多视频采用了手动添加和修正字幕的方法。但是这种方法效率极低,不能和原视频说话进度相匹配,手动修改非常麻烦并且浪费时间。

与语音识别字幕相对应,同声传译也是一种翻译视频的重要方法。一般的做法是,翻译者和原说话者分别使用两个声道,两个声道的音量可以彼此调节。这样就能做到快速即时的了解视频内容的功效。但是,同声传译同样存在缺陷:①翻译者即时翻译,存在口吃、口误、卡顿、翻译错误等等情况,不如使用字幕更加舒适,且使用文本字幕可以利用翻译和语音合成功能再次进行机器人配音,效果好于人工的同声传译;②不能完整地反映说话人讲话时的语气、神态等等。

我主张字幕软件采用听写字幕(dictate sub)的方法,具体来说就是:输入语音,输出文本+时间轴,通过时间轴自动匹配将听写人的语音识别后的字幕与原视频中说话人说话的语音的时间轴匹配起来,真正做到边听边说,看一遍视频字幕就做完了。

听写字幕(dictate sub)的核心就是:将听写人的语音转化为文本,再将听写人语音识别的字幕文本套在原视频语音的时间轴上。这就等于两次应用了语音识别技术,第一次利用语音识别技术切分原视频说话人语音的时间轴,第二次则利用语音识别技术将听写人的语音转化为文字。
实现听写字幕需要的基础技术:①能识别听写人说话的语言;②可以将原视频中的说话人的语言自动切分断句。

这里必须多说一句。现在的语音识别字幕技术做的最差的一点就是断句功能!造成语音识别的效果非常差:前后无关的语句出现在同一句话中,而有关联的一句话却分到两个不同的语句中,这对自动翻译功能的效果也产生了非常大的负面影响。

我认为要增强断句功能的用户体验,首先要经过反复试验计算出一个人说话的最小停顿时间。这个最小停顿时间越小越好,这样就可以将一个句子切分的非常细。最小停顿时间的确定,应该通过加载整个视频完整地计算出来,除了音节之间的停顿,最小的停顿时间大概是多少,比方说0.5秒。

第二应该确定一个自然停顿时间,相当于汉语中的逗号的概念,算是一个比较大的停顿,比如0.8秒。

碰到自然停顿的,字幕必须切分。碰到最小停顿的,前后N段字幕总长不超过17个字的应该合并成一段字幕,并且中间用空格隔开。举例说:

李强 我们俩 十多年没见了吧 我都有点想不起来你长啥样了
切分后为:

李强 我们俩 十多年没见了吧
我都有点想不起来你长啥样了
前面三个是最小停顿,后面一个是自然停顿

实现的步骤如下:

第一步:语音识别并断句,生成时间轴。利用现在的语音识别技术基本可以做到。将识别到的语音信息自动断句。切分成一段一段的字幕条。有的语音可以自动识别出语言,并自动转化为文字。但是有的语音不能识别,更不能转化为文字。例如,说话者讲的是一种非常罕见的方言或者少数民族语言。这个时候虽然不能将语音识别出来转化成文字。但是应该将说话者所说的话自动切分断句,并自动生成时间轴。

语音识别之后自动进行断句,将语句切分成一个个时间轴,红色表示这段时间有人讲话,黄色表示没有人讲话的空白时间
第二步:播放视频并听写。从原视频说话者这一句讲话开始的一刻,听写人就可以开始听写,也可以在原视频讲话人讲完话之后开始听写(只要听写人的不讲话,原视频说完这一分句后下一句开始之前自然暂停),直到听写人听写完这句话之后的自然停顿一定时间之后(这里假设自然停顿时间为0.8秒),自动播放原视频的下一句。这样的效果就是,听写人不会因为原视频说话人讲话太快而反应不过来,同时也不需要每听写完一句再手动开启下一句浪费时间。

红色表示原视频说话人的时间轴,黄色表示没有说话的时间段。蓝色表示听写人听写的时间轴。第二行表示原始视频在听写模式下播放的时间轴,原视频等待听写人听写完一句的自然停顿结束后自动播放下一段内容。第三行为听写人听写的时间轴。最后一行表示听写字幕生成后的时间轴,与原视频语音时间轴相匹配
为了最大限度地方便听写人一遍成型,听写字幕(dictate sub)功能至少应该增加下列至关重要的12个快捷键,这12个快捷键分为键盘快捷指令和语音快捷指令两类,不需要使用鼠标,只要听写人下意识操作就可以完成(其中语音快捷指令相当于第三次使用了语音识别功能,并将其与程序指令关联起来)。这12个快捷键包括:

(1)听写暂停键:听写人听写一句话的时候突然卡壳,为了不让视频自动播放按暂停键暂停。

指令方式:①单击空格键暂停录音,需要继续录音的再按一次空格,以此类推;如果这一段错误需要重新录制的按退格键(backspace)后再按空格键开始录制;录音暂停的时候,原视频默认继续播放,直到下一段语音开始为止自动暂停;②在播放页面单击鼠标;③语音指令:“Pause dictating!”(听写英文字幕时)或者“暂停录音!”(听写中文字幕时)

(2)播放暂停键:①如果要让原视频播放也暂停,需要长按空格键0.7s以上,要继续播放的,再按一次空格即可;②或者语音指令:“暂停播放”(中文听写);“pause playing”(英文听写)

(3)下一段键:有时候听写人已经讲完,不需要自然停顿时间,直接播放下一段即可。还有的时候这一句不需要听写或者翻译,直接跳到下一段。

指令方式:①单击右箭头键→;②单击Tab键;③语音指令“到下一段”(中文听写);“pass to next”(英文听写)

上一段键:同理,上一段发现错误需要返回上一段修改。

指令方式:①单击左箭头键←;②语音指令“返回上一段"(中文听写);“back to last one”(英文听写)

(4)删除键:这一段字幕冗余,需要删除这一段字幕的。

指令方式:①单击delete键;②语音指令“删除字幕”(中文听写);或者“delete sub”(英文听写)

(5)插入键:需要额外添加一段字幕。

指令方式:①播放视频,在需要开始的时间点长按Tab键,然后听写,需要结束这一段字幕的时间点松开Tab键;②语音指令“添加字幕”(中文听写);或者“add sub”(英文听写)。

(6)复读键:听写人没有听清,需要重新播放这一段的原视频。按复读键之后,自动返回这一段的开头重听。

指令方式:①单击R键,需要重复几遍就单击几遍R,如果需要无限次重复就长按R键1秒钟,听写结束需要跳过这一段的按右箭头→键跳过(这里需要注意的是,复读重听的内容只包含带有语音的部分,没有语音的部分不复读,也就是上图中红色的部分复读,黄色的部分不复读)②语音指令:“重听配音”(中文听写)或者“repeat dub”(英文听写)

(7)变速键:原话太快或者太慢需要变速。

指令方式:①上箭头↑键加速,下箭头↓键减速,每按一次变速0.1倍;②语音指令“XX倍加速”(中文听写)或者“XX times accelerate”(英文听写)

(8)回删键:一段字幕听写口误,需要删掉重新听写。

指令方式:①按退格键(backspace)清除原听写字幕,这时候默认不重放原视频,再按空格键开始重放原视频,新的字幕时间轴仍与原来的时间轴一致;语音指令“重新听写”(中文听写)或者“redictate"(英文听写)

(9)合并下一段键(合并上一段):机器切分的字幕太短,需要人工合并的时候点击合并下一段键。

指令方式:①按住Tab加右箭头→键,合并下一段(Tab加左箭头←合并上一段);②语音指令“合并下一段”(“合并上一段”);英文听写指令“merge next"(“merge last”)

(10)拆分键:一段字幕太长需要拆分的。

指令方式:①按住空格再按C键;②语音指令“切分字幕”(中文听写);“cut sub here”(英文听写)。注意:切分的时间在第一次按空格的时间点和语音指令最开始的时间点。

(11)拖动时间轴。如果认为机器切分时间轴有误,需要人工修改时间轴的范围。

指令方式:

①在播放语音的过程中(上图中红色部分),按住Ctrl再按右箭头→,字幕的时间轴延长到松手为止;如果在这一段语音没有播放完的时候松手(红色部分之内松手)字幕的时间轴缩减到松手时为止;

②在没有语音的部分(黄色部分)按住Ctrl再按回删键(backspace),视频自动按原速倒放,时间轴的结尾删减到松手的位置;

③在红色部分内按住Ctrl再按左箭头←,视频自动按原速倒放,字幕的时间轴延长到松手为止;如果在这一段语音没有播放完的时候松手(红色部分之内松手)字幕的时间轴缩减到松手时为止;

④在没有语音的黄色部分按住Ctrl再按delete键,字幕时间轴的开始部分删减到松手位置。

除了快捷键拖动时间轴还可以鼠标操作删减和移动时间轴。

(12)选词快捷键:汉语、日语、朝鲜语中经常出现同音词甚至一整个句子也在不同的语境下也存在多种不同的可能性。这就需要在语音识别的基础上手动选词。选词或者选句子功能最强大的是输入法,因此字幕软件必须与输入法的词库句库相结合。

指令方法:①在dictate的过程中,单击S键,自动弹出选词框,单击或者输入数字选词即可;(默认情况不打开选词功能,而是直接自动选词)②语音指令:“选择词句”或者英文口令“select words”,弹出选词框后,单击或者输入数字选词,或者口令候选词编号进行选择。翻页的快捷键为右箭头,语音指令为“翻下一页”或者“next page”

范例:



因为听写字幕一段字幕很短,一般不需要个别的修改,因此只设置整体修改,也就是重新听写这一段字幕,而不做回删式的修改。

写到这里我又想到,如果实在不喜欢语音dictate的字幕。各字幕软件还可以用输入法手动输入字幕,具体方法与语音dictate基本一致,但是速度没有语音dictate更快。也就是播放的过程中手动输入,编辑完完整的一句话之后按回车键进入下一段话。同样的,这种字幕的添加方法的核心还是将输入的字幕与原视频的时间轴向匹配(也就是原视频的断句功能)。如果原视频的断句功能不好用,无论用语音dictate还是用手动输入效果都是差强人意的。同时手动输入与语音输入有一个基本的区别就是,语音输入以连续播放为主,视频只要不暂停就继续播放;而手动输入因为停顿时间很难掌握,因此不宜采用连续播放的方法,而是在编辑完成之后再按快捷键(比如回车键)继续播放。

如果想要一次播放,同时听写多种语言字幕。应该提前设置好这几种字幕需要识别的语言,播放的时候先听写字幕一,自然停顿之后听写字幕二。生成的字幕自动区分为两种不同语言的字幕轨道。这样就可以只播放一次同时听写多种语言。

另外一点就是,使用听写字幕,不代表放弃配音,进行听写的配音默认保留。如果听写人对自己的配音满意的话,配音仍然可以自动生成一个音轨,并与原视频说话人说话的时间轴匹配起来,这样的效果与同声传译是完全一样的,并且因为有一定的反应时间,听写字幕的配音效果要远远好于同声传译。这一点非常重要!

收藏
点赞
0
个赞
TOP
切换版块