iOS上的YouTube故事获得了人工智能语音增强-今日热榜-资讯-三龙汇之窗网
推广 热搜: 广州  深圳  SEO  贷款  医院  用户体验  机器人  网站建设    摩托车 

iOS上的YouTube故事获得了人工智能语音增强

   日期:2020-10-21 15:40:04     来源:互联网    作者:三龙汇之窗网    浏览:72    
核心提示:谷歌今天推出了look -to- listen,这是一项新的视听语音增强功能,可以在iOS设备上捕捉YouTube上的故事。该公司表示,凭借人工智能和机...

谷歌今天推出了look -to- listen,这是一项新的视听语音增强功能,可以在iOS设备上捕捉YouTube上的故事。该公司表示,凭借人工智能和机器学习,它可以通过自动增强声音和减少背景噪音,让创作者拍出更好的自拍视频。

虽然智能手机的视频质量每一代都在不断提高,但音频质量仍然停滞不前。例如,人们很少关注如何使视频中的多人讲话和背景噪音不那么混乱、扭曲和难以理解。

这就是为什么两年前,谷歌开发了一种机器学习技术,利用视觉和音频线索来分离视频中受试者的讲话。通过对该模型进行大规模YouTube内容的训练,该公司的研究人员能够捕捉到语音和视觉信号之间的关联,比如嘴部动作和面部表情。这些相关性可以用来区分视频中一个人的讲话和另一个人的讲话,或者从嘈杂的背景噪音中区分讲话。

谷歌软件工程师Inbar Mosseri和谷歌研究科学家Michael Rubinstein表示,将这项技术应用到YouTube上并不是一件容易的事。在过去的一年里,look -to- listen团队与YouTube视频制作者合作,了解他们希望如何使用这一功能,在什么场景中使用,以及他们希望自己的视频保留怎样的语音和背景声音的平衡。look -to- listen模型也必须精简,以有效地运行在移动设备上;所有的处理都是在设备上通过YouTube应用程序完成的,以最小化处理时间并保护隐私。这项技术必须经过测试,以确保它在不同的记录条件下都能保持良好的性能。

“从听着看”的工作方式是,首先从给定流中分离出包含说话者面部的视频缩略图。组件输出在录制视频时从面部缩略图提取的,用于语音增强目的学习的视觉功能。录制完成后,音频和计算出的特征将被流式传输到视听分离模型,该模型会产生隔离和增强的语音。

Mosseri和Rubinstein表示,各种体系结构的优化和改进成功地将“收听听”的运行时间从台式机上的10倍实时降低到仅使用iPhone处理器的0.5倍性能。此外,它使系统的大小从120MB减小到6MB。结果是在YouTube故事录制结束后的几秒钟内即可获得增强的语音。

从听觉上看并不能消除所有背景噪音-Google表示,接受调查的用户更喜欢保持声音的氛围-该公司声称,该技术可以公平地对待不同外观的扬声器。在一系列测试中,“期待听”团队发现该功能在不同年龄,肤色,口语,音高,能见度,头部姿势,面部毛发和配件(例如眼镜)的扬声器上效果良好。

符合YouTube故事创建条件的YouTube创建者可以在iOS上录制视频,然后从音量控制编辑工具中选择“增强语音”,这将立即将语音增强应用于音轨并循环播放增强的语音。然后,他们可以将原始视频与增强版进行比较。

 
免责声明:以上所展示的信息由网友自行发布,内容的真实性、准确性和合法性由发布者负责。 三龙汇之窗网对此不承担任何保证责任, 三龙汇之窗网仅提供信息存储空间服务。任何单位或个人如对以上内容有权利主张(包括但不限于侵犯著作权、商业信誉等),请与我们联系并出示相关证据,我们将按国家相关法规即时移除。

本文地址:http://b2b.shop.wlchinajn.com/news/slh17746.html

打赏
 
更多>同类资讯

推荐图文
推荐资讯
点击排行

网站首页  |  付款方式  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  RSS订阅  |  违规举报
免责声明:本站所有信息均来自互联网搜集,产品相关信息的真实性准确性均由发布单位及个人负责,请大家仔细辨认!并不代表本站观点,三龙汇之窗网对此不承担任何相关法律责任!如有信息侵犯了您的权益,请告知,本站将立刻删除。
友情提示:买产品需谨慎 网站处理与建议邮箱:slhzc@qq.com