12下一页
返回列表 发布新帖
查看: 409|回复: 11

跑字幕的一些发现

1160

金钱

24

回帖

58

积分

Lv4 初窥堂奥

积分
58
发表于 昨天 15:15 | 显示全部楼层 |阅读模式
本帖最后由 tutu112 于 2025-7-31 18:16 编辑

本人也是看了论坛里的帖子,有时想看的片子冷门没字幕,找不到,或是还没出字幕,懊恼啊,为了字幕自由,安装软件开始就跑起来了。
{用的软件-VideoCaptioner v1.3.3}  ,门款不高。
有时跑出来不太理想,一段时间后发现是VR里有些桥段会出现气音,这些气音软件基本提取不到的,所以就跳过了。 研究了一下简单总结。
01.jpg
02.jpg
之前一直使用预设的silero_v4+Large_2模型抓取,下面是对比。
【虽然列表上说Large_3较精准,但是翻了几部发现Large_v3抓出来后,deepseek翻出来的效果, 就是像不流畅的中文,有出入】
左边silero_v4,右边pyannote_v3,摘取字幕明显变多。另外发现把VAD阈值向下降是没用的,只会多很多吚吚呜呜和早安晚安这些词。
03.jpg


后来决定用Adobe Audition进行前期处理,【气音强化】,问的ai,参数照搬。

【Step 1】:噪音分析与降噪(重要!否则轻声会被背景掩盖)
【我觉得大部分片子无需降噪,直接跳过

【Step 2】:压缩器提升轻声(如气音)
04.jpg
05.jpg
【Step 3】:频率强化(让气音更清晰)
06.jpg
07.jpg
【Step 4】:限制爆音(避免某些单词爆掉)【这个就是预设值,不用调】
08.jpg
09.jpg
【Audition上面这些操作可以一键打包,以后就是拉进去一键执行,也不复杂,就是小麻烦】

总结:大多片子大概是Large_v2+pyannote_v3,加上Audition优化(有的片子一下就跑完没拉到什么字幕,点开看,不是里面没说话,是说的话都是气音)
气音的片子用Audition优化后会有差别,但观感体验上不会强很多, 比如下面用的这部试验品kavr-433的part-3,感觉可能就提升个10%左右,取决于片子气音的多少。


实验用的是昨天的这部 稍微有点气音,有兴趣的可以下看看对比。 KAVR-433_3.zip (17.54 KB)
kavr00433pl.jpg
左边是Audition优化过的,右边是没优化过的,都是用的【Large_v3】+【pyannote_v3】 跑出来的。
(个人用Large_v3跑了几部, 过后用deepseek翻出来,有点不像人话,还是推荐用Large_v2
10.jpg
提取后就是翻译了,用大模型就是会看上下文,对语境翻译。但有时还是会有出入。
自己用的deepseek,翻出来基本很优秀了,除非是提取出问题的文字(如上面这部中kirei美丽, kirai厌恶,它有时抓不准) 。
统计了一下目前大概翻了50-60几部,花了3美金不到。跑片的时间都花了,也没必要省那几毛钱。
而用Google就是直翻,只能说看着确实生硬。

不是技术流,纯交流贴不是教学贴,欢迎大神指点。
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
【补充】
今天又试了这个方法,跑了部气音很重的这部VRKM-1584,展示图为part2
x00.jpg
x01.jpg
x02.jpg
左边是【Audition气音优化】后用【Large_v2】+【pyannote_v3】能看到词条尾端条数,提取率明显多了不是一点半点。

最后还有个ai断句,ai根据语境判断断句的点,可以让句子不那么长,方便看片时阅读。
x03.jpg
x04.jpg
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
下面写给想入坑的兄弟,整个过程就两个步骤,【1】首先是提取字幕,用的这个软件、{用的软件-VideoCaptioner v1.3.3}  
  1. https://github.com/WEIFENG2333/VideoCaptioner
复制代码

【2】再来就是把提取的日文翻译成中文的步骤,自己用的是deepseek, 就是把deepseek的api在相关设置内黏贴上去就行了)
  1. platform.deepseek.com
复制代码
x05.jpg



61

金钱

17

回帖

47

积分

Lv3 圆转纯熟

积分
47
发表于 昨天 15:42 来自手机 | 显示全部楼层
每个字都认识,还是一头雾水😂

29

金钱

37

回帖

55

积分

Lv4 初窥堂奥

积分
55
发表于 昨天 16:11 | 显示全部楼层
搁这玩解密游戏呢

43

金钱

14

回帖

16

积分

Lv2 登堂入室

积分
16
发表于 昨天 16:20 来自手机 | 显示全部楼层
试试gemini pro,把音频发给他,感觉语句已经很通顺也很骚。我要求不高,能看就行

1160

金钱

24

回帖

58

积分

Lv4 初窥堂奥

积分
58
 楼主| 发表于 昨天 16:25 | 显示全部楼层
joe123 发表于 2025-7-30 16:20
试试gemini pro,把音频发给他,感觉语句已经很通顺也很骚。我要求不高,能看就行 ...

好,回头试试

151

金钱

36

回帖

44

积分

Lv3 圆转纯熟

积分
44
发表于 昨天 16:45 | 显示全部楼层
joe123 发表于 2025-7-30 16:20
试试gemini pro,把音频发给他,感觉语句已经很通顺也很骚。我要求不高,能看就行 ...

gemini pro 幾乎是最準,時間碼準確, 但有時漏了一兩句,你根本不知道在哪裡

近期gemini網頁版好像弱化了,更易出幼覺,所以我用whisper算了

whisper, gemini 翻譯較穩定, 7.5/10分 就夠了

gemini transcribe 加上翻譯,9/10分,但太煩了

128

金钱

19

回帖

21

积分

Lv2 登堂入室

积分
21
发表于 昨天 17:10 | 显示全部楼层
gemini 2.5pro已经很可以了,不容易输出10分钟只有一句台词的时间轴,比之前的本地部署large v3+sakura 13b的方案精确合适特别多,唯一的缺点是只能白嫖公司的,不然400多刀搞赛博r18还是不太合适。

1492

金钱

352

回帖

373

积分

Lv6 渐入佳境

积分
373
发表于 昨天 19:05 | 显示全部楼层
使用Audition进行前期处理的思路确实很厉害,但是V3模型早该更新了,现在看效果只能说差强人意!
也许就像上面说的gemini transcribe 的准确率能达到90%了
虽然价格没有使我望而却步,但是我的花呗做到了!
没办法,我已经放弃字幕了,还是好好背单词好了!
毕竟也长词汇量的吧!只不过有点慢罢了!

1160

金钱

24

回帖

58

积分

Lv4 初窥堂奥

积分
58
 楼主| 发表于 2 小时前 | 显示全部楼层
lovexangel 发表于 2025-7-30 19:05
使用Audition进行前期处理的思路确实很厉害,但是V3模型早该更新了,现在看效果只能说差强人意!
也许就像 ...

我也学了半年日语,然后就放弃了,感觉身边没个会日语的,没输出的学习效率太低,学了就忘了

2

金钱

4

回帖

3

积分

Lv1 ‌初学乍练

积分
3
发表于 2 小时前 | 显示全部楼层
我是用flashai_vision这个,转录还可以,就是翻译速度太慢了
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Copyright © 2025 4ktwo.com All Rights Reserved.
关灯 快速发帖返回顶部
快速回复 返回顶部 返回列表