橡胶成分检测:英国初创公司Papercup利用人工智能技术进行听起来很逼真的语音翻译

总部位于英国的人工智能初创公司Papercup开发了语音技术,可以将人们的声音翻译成其他语言,并已在视频和电视行业得到应用,该公司已获得800万英镑的融资 。

这轮融资由LocalGlobe和Sands Capital Ventures领投,另外还有Sky、GMG Ventures、Entrepreneur First (EF)和BDMI 。Papercup表示,新资本将被用于进一步投资于机器学习研究,并扩大其“人在环”质量控制功能,该功能用于改进和定制其人工智能翻译视频的质量 。


橡胶成分检测:英国初创公司Papercup利用人工智能技术进行听起来很逼真的语音翻译

文章插图


与此同时,Papercup现有的天使投资人包括Evi科技公司的创始人威廉·汤斯顿-佩多和Zoubin Ghahramani,后者是优步公司的首席科学家和人工智能副总裁,现在是谷歌大脑领导团队的一员 。

Papercup由Jesse Shemen和Jiameng Gao于2017年创立,当时正在进行英孚的公司建设项目,Papercup正在构建一个基于人工智能和机器学习的系统,据说能够将人的声音和表达翻译成其他语言 。与许多文本语音转换不同的是,这家初创公司声称,语音转换后的语音与人类语音“难以区分”,而且可能是独一无二的,它试图保留原声说话人的声音特征 。

最初,这项技术针对的是视频制作者,包括天空新闻、探索频道和YouTube明星与阿德里安的瑜伽以及DIY内容创作者已经在使用 。它被定位为比纯人工配音更具有可扩展性,因此成本更低的替代方案 。

“世界上大部分的视频和音频内容都被限制在一种语言上,”Papercup联合创始人兼首席执行官谢曼说 。这包括YouTube上数十亿小时的视频、数百万个播客片段、Skillshare和Coursera上的数万节课程,以及Netflix上数千小时的内容 。几乎每一个内容所有者都在争先恐后地走向国际,但除了字幕以外,还没有一种简单而经济的方法来翻译内容 。”

对于“财力雄厚的工作室”,当然可以选择通过专业配音工作室和配音演员聘请高端配音,但这对大多数内容所有者来说太昂贵了 。即使是富有的工作室也常常在能够容纳多少语言方面受到限制 。

Shemen说:“这样一来,占所有内容99%的内容所有者的中长尾就陷入了困境,除了字幕之外,他们无法接触到国际受众 。”当然,Papercup就是在这方面发挥作用的 。“我们的目标是产生听起来尽可能接近原始说话人的翻译声音 。”

他说,要做到这一点,Papercup需要解决四件事 。首先是创造“自然的声音”,即如何清晰和像人的合成声音 。第二个挑战是保持情绪和节奏来反映原话者是如何表达自己的(想想:高兴、悲伤、愤怒等) 。第三是捕捉某人声音的独特性(如摩根·弗里曼,但用的是德语) 。最后,产生的翻译需要音频和视频本身的正确对齐 。

谢曼解释说:“我们一开始尽可能让我们的声音像人一样,听起来很自然,通过不断打磨我们的技术,我们在质量上取得了相当大的飞跃,今天我们已经有了生产中的最好的西班牙语语音合成系统之一 。

“我们现在关注的是如何在不同语言中更好地保留和传递原话者原有的情感和表现力,同时我们也在研究配音质量的关键所在 。”

下一个挑战,可以说是最难解决的难题是“扬声器适应”,描述为捕捉某人声音的独特性 。“这是最后一层适应,”Papercup的首席执行官说,“但它也是我们研究的首批突破之一 。虽然我们的模型可以做到这一点,但我们将更多的时间放在情感和表现力上 。”

这并不是说Papercup完全是机器驱动的,即使有一天它可能会实现 。该公司还采用了“人在环”的过程,以纠正和调整翻译音轨 。这包括纠正出现的任何语音识别或机器翻译错误,调整音频的时间,以及强化情绪(如高兴、悲伤)和改变生成声音的速度 。


以上关于本文的内容,仅作参考!温馨提示:如遇健康、疾病相关的问题,请您及时就医或请专业人士给予相关指导!

「四川龙网」www.sichuanlong.com小编还为您精选了以下内容,希望对您有所帮助: