开发:AI-双语字幕

AI 确确实实在改变我,让我自己的能力范围在扩大了,可以自行发现需求——产生方案——验证方案——解决需求,这个感觉还蛮棒的。
产生这个想法是因为:
2023.08.01 这个时间点,我看到微博 PG 的一个博主发了 PG 播客的生肉视频。我的英语水平,有字幕都看不懂何况没有 = =
先写爱看的——最终解决方案
最终的解决方案,逻辑其实也很简单:
1、用 whisper 生成原视频的英文字幕;(我预设 whisper 生成的字幕没问题,whisper 的问题不探讨)
2、让 GPT 结合字幕全文翻译,并让他根据原英文字幕的拆分,将译文进行同样行数的拆分;
3、将 GPT 译文拆分的结果插入到原英文字幕文件中形成一个新的双语字幕文件。
这个过程中所有的执行脚本都是让 GPT 写的。GPT 的 prompt 在最后。
08.04 更新这一节是失败的经历,可以跳过。
08.04 更新
08.01 产生想法之后,就经历了下面的过程(过去两天太兴奋了,但想法暂时都还没成功,恰好停一停记录一下):
1、识别音视频中的语言并生成字幕文件:
whisper 是一个非常优秀的字幕处理工具,他能很好的识别视频/音频中的语言:
medium 尺寸能很好的解决英文的问题
中文的处理我没试过,根据宝玉 xp的说法,large 尺寸处理中文的效果会好一些
但仅处理成英文对母语是中文的绝大部分人来说是不够的,至少需要一个纯中文的字幕,当然我认为双语的字幕当然是最好的。
2、下面就到了处理中文翻译的部分,翻译是一个非常麻烦的问题:
我们现在常用的谷歌翻译、微软翻译在处理结果上太粗暴了。普遍的问题有:
没有基础的语境背景信息,不知道一些特定的语境下的句子该如何准确翻译;
在一些常用俚语上的翻译也非常生硬;
没法准确识别一些人名、地名等特定词,这类词语最好的办法是不翻译,直接显示。
在翻译处理上目前 GPT3.5 有比上述工具好太多的效果(Claude 我也试了一下,效果不及 GPT3.5,其他的就没有试了目前):
需要把足够的上下文给他,以确保他在翻译一些句子的时候能够更好的理解;