GoogleAI翻译新突破!保留原声同步语音翻译

上週在 I / O 开发者大会上,Google 分享机器学习透过神经网路和语意理解模型如何缩短智慧型手机使用流程,像是 Google 智慧助理的速度提高 10 倍、Google Lens 的即时翻译,可以透过 AI 镜头翻译 100 多种语言,更在今日于官方部落格上发表了突破性的保留原声同步语音翻译。

过去十年间蓬勃发展的语音翻译系统提高跨国交流,各家厂商相继推出翻译棒、翻译蒟蒻,一般来说,机器翻译需要经过三个步骤才能完成,首先,要透过语音辨识将语音转化成文字;再者,将文字翻译成目标语言文字;最后,用目标语言文字产生目标语言语音,才能完成即时语音翻译流程。这项技术为许多商业语音翻译产品提供支援。

为了提高翻译速度与正确率,Google 提出实验性新系统「Translatotron」,让语音到语音之间能不依赖于中间文字转译,直接完成翻译。

根据 Google 技术说明,为了使「Translatotron」能够进行端点到端点的翻译,研究员使用 seq2seq 模型和频谱图作为输入数据的训练。藉由麦克风编码器搜集说话者声音,透过多任务学习预测音源或目标说话者使用的单字。

「Translatotron」系统提供比传统的语音翻译系统更多优势,像是:更快的推理速度,避免了辨识和翻译之间的错误,翻译后要保留原始说话者的声音也变得更简单,甚至也会处理不需要翻译的单字。

GoogleAI翻译新突破!保留原声同步语音翻译
「Translatotron」翻译系统架构

从测量机器翻译品质的 BLEU 分数发现「Translatotron」的分数虽然低于传统的语音翻译系统,但「Translatotron」 确实达到整体更精準的翻译。

研究员表示,Translatotron 是首组能保留原说话者的声音,将语言从语音直接翻译成另一种语音的点到点模型。希望将此实验系统作为未来点到点语音转语音翻译系统研究的起点。