[返回数码家电首页]·[所有跟帖]·[ 回复本帖 ] ·[热门原创] ·[繁體閱讀]·[版主管理]
只需3秒就能复制你声音的AI,是全新的AI蓝海吗?
送交者: 沙角二少[☆品衔R4☆] 于 2023-01-14 19:34 已读 4365 次 1 赞  

沙角二少的个人频道

只需3秒就能复制你声音的AI,是全新的AI蓝海吗?

2022年属实是AI大年。

从年初年中的AI绘画,到年尾的AI作者,好像这个AI已经实实在在的刷了一整年的存在感了。

先是 画图——画好图——画黄图,再到 写文——写好文——写黄文,我不知道AI的制作者们抱着什么样的伟大信念制作出来这些新颖的好东西,但只要落到网友们的手里,这些数据模型肯定会被灌满奇怪的东西。

就拿我群里最近疯狂转发的AI绘画最新训练成果来说,在我不知不觉间,这小机器人已经可以精准的拿捏我的XP了。



不过今天要介绍的并不是这两个已经被玩坏的AI,而是微软最新出品的AI成果——语音合成模型 VALL·E。

它可不是那些影视剧讲解里的那些 “注意看,这个男人叫小帅”的固定语气语调的AI念稿人,而是号称“3秒钟”就可以复制你的声音的赛博卡卡西。 6park.com

根据我查来的说法,VALL·E相比传统的AI语音模型采用 “梅尔频谱”提取特征,它转换了思路与赛道,将语音合成这个步骤改为 “语言模型”的任务。

以前走 音素→梅尔频谱(mel-spectrogram)→波形的流程,被VALL·E改变成了 音素→离散音频编码→波形。


——当然,尽管这些东西是我写出来的,但我完全看不懂官方说的是什么,我放张图也只是显得文章没有那么空而已。

在我能看懂的介绍里,让我觉得最值得发出来给大家讲讲的,就是这个VALL·E,不只是能用过数据模仿出采样人的音色,它连 语气和 语速都模仿的非常到位。


除此之外,包括采样者的 背景音和话语中的 情绪,VALL·E都能通过学习慢慢掌握。

一个音色、语气、语调、语速、情绪甚至是背景里的环境音被训练到极致的语音AI,说出的话可能真的和本人差别不大了。

搭配上“AI作者”和“AI绘画”,好家伙,已经可以组织起一个公司会议上的赛博PPT了,等哪天“AI动画”出来了,我们没准还能看见机器人自己拍的电影。

不少网友也评论,继画家和作者失业后,这股海克斯狂潮终于轮到配音演员身上了。


像其他 AI 新技术一样,这个尚未开源的VALL-E在安全、伦理等方面也引发不少人的担忧,尽管微软发布了关于使用 VALL-E 的道德声明,但未来的事儿谁又说得准呢。

怎么样各位,这么看下来,你觉得这个VALL-E会不会是新的一年里的AI蓝海?

评分完成:已经给 沙角二少 加上 50 银元!

喜欢沙角二少朋友的这个贴子的话, 请点这里投票,“赞”助支持!
[举报反馈]·[ 沙角二少的个人频道 ]·[-->>参与评论回复]·[用户前期主贴]·[手机扫描浏览分享]·[返回数码家电首页]
帖子内容是网友自行贴上分享,如果您认为其中内容违规或者侵犯了您的权益,请与我们联系,我们核实后会第一时间删除。

所有跟帖:        ( 主贴楼主有权删除不文明回复,拉黑不受欢迎的用户 )


用户名:密码:[--注册ID--]

标 题:

粗体 斜体 下划线 居中 插入图片插入图片 插入Flash插入Flash动画


     图片上传  Youtube代码器  预览辅助

打开微信,扫一扫[Scan QR Code]
进入内容页点击屏幕右上分享按钮

楼主本栏目热帖推荐:

>>>>查看更多楼主社区动态...






[ 留园条例 ] [ 广告服务 ] [ 联系我们 ] [ 个人帐户 ] [ 版主申请 ] [ Contact us ]