首页AI 新闻
AI 字幕的新神器?Meta 推出新语音识别模型,懂上千语言,还更少犯错了
15

AI 字幕的新神器?Meta 推出新语音识别模型,懂上千语言,还更少犯错了

好说新闻
好说新闻
2023-05-23 18:43

自从进入AI时代,很多人感觉自己的工作受到了挑战,这里面有画师、编剧这类创意工种,也有像翻译这类脑力活。从 ChatGPT 有人味儿的文字翻译,到 Whisper 的实时语音转录,AI 正一步步在翻译领域施展手脚。而 Meta AI,今天又向前迈出了一步。

AI 让「做字幕」有了新变化

尽管工作上代替翻译这事为时尚早,但在“为爱发电”的民间字幕组中,如果真能“解放劳动力”,那当然是越快越好,于是 AI 的发展、开源的助力,让“人人都是字幕组、人人都能英译汉”不再天方夜谭。

扒源、提取音轨、Whisper 文字转录+自动生成时间轴、调取 DeepL/ChatGPT API 进行翻译、视频压制,如今每一步都有了成熟的工具能去使用,甚至在 B站都有教程告诉你怎么做。

如果你多逛逛B站,可能就发现如今“一人字幕组”、“Whisper机翻”的视频也不少见了,热心点的UP主还会在机翻基础上对重点内容做个精校,于是原本要“烤肉”(制作带字幕的视频)很久的一小时外语节目,成为了一人一电脑就能开工的“速食米饭”——能吃,不香,但也管饱。

这也是许多B站观众除了“谢谢UP主”之外较常说的话——机翻嘛,还是 AI 这种有些“品质”的机翻,要啥自行车呢?

初识 Meta 的新语音识别模型

Meta AI 新开源的 大规模多语言语音模型 MMS(Massively Multilingual Speech)最大亮点,是支持了 1100 多种语言的 语音转文本、文本转语音 功能、以及更低的错误率。据官方介绍,MMS 与大家熟知的 OpenAI Whisper 比较中,MMS 在不到 Whisper 一半单词错误率的情况下,覆盖了对方11倍的语言数量,表现喜人。

而在实际运用的语言识别场景下,支持 4000 多种语言的 MMS 依旧能有不错的表现。

大家应该发现了,MMS 的一大特色就是支持语言的“多”,它把 AI 支持的语言数量级“卷”高了整整一个数位,其实这也和它的研发初衷有关。咱们都清楚,以往技术的发展是让所依赖的语言更具优势,于是英语成为了主流,当年咱们的科技尚待发展,即使是源远流长的中文语言也吃了不少苦头。

林语堂和女儿林太乙正在使用他发明的明快打字机,这台打字机的内部结构堪称天才,最终却没能量产。

MMS 的出现就是为了缓解这类情况。我们要知道,地球上有 7000 多种已知语言,近一半却在可见的未来面临消失危险。尽管是家资本主导的科技公司,但 Meta 还是希望人们可以通过用自己喜欢的语言来获取信息和使用技术,以此来保持各种语言的活力,也是“科技向善”的一种体现。

说起 MMS 的诞生,也颇有人文精神,为了尽可能涵盖多种语言,Meta AI 的团队采用了宗教文本(例如圣经),因为这些文本已被翻译成许多不同的语言,甚至还有不同语言的文本录音。作为该项目的一部分,Meta AI 创建了一个超过1,100种语言的新约阅读数据集,每种语言平均提供32小时的数据。通过类似的手段,加上应用更高效的 wav2vec 0.500 自我监督模型,才让这个涵盖数千语言的大规模多语言语音模型成为可能。

MMS 将给「做字幕」带来什么

MMS 的诞生,给人们带来了一个除 OpenAI Whisper 外的“语音转录”新选择,尽管市面上也有像 讯飞听见、网易见外 这类国内语音转录的产品,但民间字幕组的属性注定了“免费”、“精通外文”是最大的需求。

于是,在开源社区的助力下,有不少基于 Whisper 的简易转录工具诞生了,例如 Buzz——这是一个支持在 Mac/Win/Linux 上本地运行 Whisper 语音转录的小工具,有网友尝试,经过配置后的 Buzz 在 4090 显卡跑 6 小时的音频即使是使用大体积 Whisper 模型也耗时不到一个小时,生产力客观。

而上文提到的 MMS 与 Whisper 模型能力对比,更让我们有理由去相信,在开源社区的沃土上,MMS 模型会和 Whisper 一样迅速壮大,甚至更强。

AI与「字幕组」

这两天,有一条Po文批判了人工翻译的精校字幕组被观众吐槽“出片慢”,AI字幕作者却受用户感激爱戴的现象,在小圈子里引起讨论。

但说到底,这其实是“责任感”的问题,笔者也经历过正版尚未流行的“字幕组时代”,那是一个字幕组“百花齐放”的时代,一些热门的动画甚至有 抢速度机翻粗校的“快餐组”(当时的机翻是没有 AI 的真机翻)、也有时隔一两周才出片特效精良的“优质组”。观众们口口相传,心里都有个谱,好的翻译至今依旧被收藏传播,快餐字幕则已经被遗忘在互联网的角落。

当年的 Popsub 打轴软件

笔者也曾在大学宿舍里深夜打轴,只为了自己喜欢的作品能和国内观众见面。当年的我曾经心累于 Popsub 打轴的痛苦,如果当年有如 Buzz 这类自动打轴的神器,或多或少也能让自己的工作量有所减少。当年还不懂外语的我,如果有 Whisper + ChatGPT 这类“黄金搭档”,追星也会轻松不少。

AI 对于人来说,更多的是一个工具、助理,单纯的依靠工具并不等于“善用”。从一句句的人工翻译到AI翻译再校,从一句句打轴到AI的自动识别,工具的升级让字幕组的“活儿”能越来越轻松,但也更考验了后期译者的校译水平、和组员的技术能力。

在 AI 时代,会用 AI 不是难事,但会用 AI 创造精品将会是对字幕组的最大挑战。

而这,不仅是对于“字幕组”这个小圈层,对于更广阔的其它领域,也是适用的……

全部讨论

no data来都来了,坐下聊聊