tutu112 发表于 前天 15:15

跑字幕的一些发现

本帖最后由 tutu112 于 2025-7-31 18:16 编辑

本人也是看了论坛里的帖子,有时想看的片子冷门没字幕,找不到,或是还没出字幕,懊恼啊,为了字幕自由,安装软件开始就跑起来了。
{用的软件-VideoCaptioner v1.3.3},门款不高。
有时跑出来不太理想,一段时间后发现是VR里有些桥段会出现气音,这些气音软件基本提取不到的,所以就跳过了。 研究了一下简单总结。


之前一直使用预设的silero_v4+Large_2模型抓取,下面是对比。
【虽然列表上说Large_3较精准,但是翻了几部发现Large_v3抓出来后,deepseek翻出来的效果, 就是像不流畅的中文,有出入】
左边silero_v4,右边pyannote_v3,摘取字幕明显变多。另外发现把VAD阈值向下降是没用的,只会多很多吚吚呜呜和早安晚安这些词。



后来决定用Adobe Audition进行前期处理,【气音强化】,问的ai,参数照搬。

【Step 1】:噪音分析与降噪(重要!否则轻声会被背景掩盖)
【我觉得大部分片子无需降噪,直接跳过】

【Step 2】:压缩器提升轻声(如气音)


【Step 3】:频率强化(让气音更清晰)


【Step 4】:限制爆音(避免某些单词爆掉)【这个就是预设值,不用调】


【Audition上面这些操作可以一键打包,以后就是拉进去一键执行,也不复杂,就是小麻烦】

总结:大多片子大概是【Large_v2】+【pyannote_v3】,加上Audition优化(有的片子一下就跑完没拉到什么字幕,点开看,不是里面没说话,是说的话都是气音)
气音的片子用Audition优化后会有差别,但观感体验上不会强很多, 比如下面用的这部试验品kavr-433的part-3,感觉可能就提升个10%左右,取决于片子气音的多少。


实验用的是昨天的这部 稍微有点气音,有兴趣的可以下看看对比。

左边是Audition优化过的,右边是没优化过的,都是用的【Large_v3】+【pyannote_v3】 跑出来的。
(个人用Large_v3跑了几部, 过后用deepseek翻出来,有点不像人话,还是推荐用Large_v2)

提取后就是翻译了,用大模型就是会看上下文,对语境翻译。但有时还是会有出入。
自己用的deepseek,翻出来基本很优秀了,除非是提取出问题的文字(如上面这部中kirei美丽, kirai厌恶,它有时抓不准) 。
统计了一下目前大概翻了50-60几部,花了3美金不到。跑片的时间都花了,也没必要省那几毛钱。
而用Google就是直翻,只能说看着确实生硬。

不是技术流,纯交流贴不是教学贴,欢迎大神指点。
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
【补充】
今天又试了这个方法,跑了部气音很重的这部VRKM-1584,展示图为part2



左边是【Audition气音优化】后用【Large_v2】+【pyannote_v3】能看到词条尾端条数,提取率明显多了不是一点半点。

最后还有个ai断句,ai根据语境判断断句的点,可以让句子不那么长,方便看片时阅读。


━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
下面写给想入坑的兄弟,整个过程就两个步骤,【1】首先是提取字幕,用的这个软件、{用的软件-VideoCaptioner v1.3.3}
https://github.com/WEIFENG2333/VideoCaptioner
【2】再来就是把提取的日文翻译成中文的步骤,自己用的是deepseek, 就是把deepseek的api在相关设置内黏贴上去就行了)
platform.deepseek.com



无聊Tai 发表于 前天 15:42

每个字都认识,还是一头雾水😂

Mark123 发表于 前天 16:11

搁这玩解密游戏呢

joe123 发表于 前天 16:20

试试gemini pro,把音频发给他,感觉语句已经很通顺也很骚。我要求不高,能看就行

tutu112 发表于 前天 16:25

joe123 发表于 2025-7-30 16:20
试试gemini pro,把音频发给他,感觉语句已经很通顺也很骚。我要求不高,能看就行 ...

好,回头试试

Chanpeter 发表于 前天 16:45

joe123 发表于 2025-7-30 16:20
试试gemini pro,把音频发给他,感觉语句已经很通顺也很骚。我要求不高,能看就行 ...

gemini pro 幾乎是最準,時間碼準確, 但有時漏了一兩句,你根本不知道在哪裡:Q

近期gemini網頁版好像弱化了,更易出幼覺,所以我用whisper算了

whisper, gemini 翻譯較穩定, 7.5/10分 就夠了

gemini transcribe 加上翻譯,9/10分,但太煩了

wwh777777 发表于 前天 17:10

gemini 2.5pro已经很可以了,不容易输出10分钟只有一句台词的时间轴,比之前的本地部署large v3+sakura 13b的方案精确合适特别多,唯一的缺点是只能白嫖公司的,不然400多刀搞赛博r18还是不太合适。

lovexangel 发表于 前天 19:05

使用Audition进行前期处理的思路确实很厉害,但是V3模型早该更新了,现在看效果只能说差强人意!
也许就像上面说的gemini transcribe 的准确率能达到90%了
虽然价格没有使我望而却步,但是我的花呗做到了!
没办法,我已经放弃字幕了,还是好好背单词好了!
毕竟也长词汇量的吧!只不过有点慢罢了!

tutu112 发表于 昨天 18:29

lovexangel 发表于 2025-7-30 19:05
使用Audition进行前期处理的思路确实很厉害,但是V3模型早该更新了,现在看效果只能说差强人意!
也许就像 ...

我也学了半年日语,然后就放弃了,感觉身边没个会日语的,没输出的学习效率太低,学了就忘了;P

neos1013 发表于 昨天 19:04

我是用flashai_vision这个,转录还可以,就是翻译速度太慢了
页: [1] 2
查看完整版本: 跑字幕的一些发现