AI 可以通过声音构建人脸图像 | 草根影響力新視野

草根影响力新视野编译钟艺

你是否尝试过，通过识别陌生人的声音，在大脑里构建出这个人的形象？人工智能（AI）现在已被证实可以做到这一点仅使用简短的剪辑音频就能生成人脸的数字图像。

科学家对名为Speech 2Face的神经网络计算机（其工作原理类似于人类大脑的思考方式）进行了数量庞大的视频训练，在数百万视频中有超过100,000名不同的人在说话。研究人员在研究报告中写道，Speech 2Face从这些海量数据中发现了人类声音和某些身体特征之间的联系。基于此，Speech 2Face可以使用音频来仿真呈现与声音相匹配的面容。

YHBG08

科技快速进步往往也会让人不安，庆幸的是，目前Speech 2Face还不能仅通过声音就精准仿真出相对应的人具体长什么样子。研究作者表示，现阶段Speech 2Face能从语音中识别出来一些共性特征，比如性别、年龄、种族等。换言之，目前的AI技术只能呈现出一个大致的轮廓性样貌，不会产生特定的精确个体画像。

虽然Speech 2Face已经能通过声音配备上一定的外貌轮廓，但其背后的AI算法还需不断精进，目前仍有一些bug未能得到处理。比如，当Speech 2Face听到同一声源的声音变化时，它所识别出来的轮廓就会发生变化。举个例子，当Speech 2Facee听到一个亚洲男子说中文时，它所呈现的图像为一张亚洲男性的脸，但如果此男子说英文，它所呈现的图像就会变为白人的脸。除此以外，在性别识别也可能会有问题。目前，Speech 2Face将低音调的声音与男性面部相关联，将高音调声音与女性面部相关联。然而，Speech 2Face的受训数据仅来自YouTube，数据源并不能代表整个世界人口，所以一旦出现低音调的女性，它的识别就会出错。

Slate报导，如果一个人出现在YouTube视频中，那麽他的样子很快就会被纳入此项研究的数据库。旧金山因特网安全公司Cloudflare的密码学负责人Nick Sullivan就意外地发现他的脸成为了Speech 2Face受训数据的一员。所以，这项研究背后的隐私数据安全问题也浮出水面。

资料来源：AI Listened to People’s Voices. Then It Generated Their Faces.