iOS上的YouTube故事获得了人工智能语音增强

日期：2020-10-21 15:40:04 来源：互联网作者：三龙汇之窗网浏览：99

核心提示：谷歌今天推出了look -to- listen，这是一项新的视听语音增强功能，可以在iOS设备上捕捉YouTube上的故事。该公司表示，凭借人工智能和机...

谷歌今天推出了look -to- listen，这是一项新的视听语音增强功能，可以在iOS设备上捕捉YouTube上的故事。该公司表示，凭借人工智能和机器学习，它可以通过自动增强声音和减少背景噪音，让创作者拍出更好的自拍视频。

虽然智能手机的视频质量每一代都在不断提高，但音频质量仍然停滞不前。例如，人们很少关注如何使视频中的多人讲话和背景噪音不那么混乱、扭曲和难以理解。

这就是为什么两年前，谷歌开发了一种机器学习技术，利用视觉和音频线索来分离视频中受试者的讲话。通过对该模型进行大规模YouTube内容的训练，该公司的研究人员能够捕捉到语音和视觉信号之间的关联，比如嘴部动作和面部表情。这些相关性可以用来区分视频中一个人的讲话和另一个人的讲话，或者从嘈杂的背景噪音中区分讲话。

谷歌软件工程师Inbar Mosseri和谷歌研究科学家Michael Rubinstein表示，将这项技术应用到YouTube上并不是一件容易的事。在过去的一年里，look -to- listen团队与YouTube视频制作者合作，了解他们希望如何使用这一功能，在什么场景中使用，以及他们希望自己的视频保留怎样的语音和背景声音的平衡。look -to- listen模型也必须精简，以有效地运行在移动设备上;所有的处理都是在设备上通过YouTube应用程序完成的，以最小化处理时间并保护隐私。这项技术必须经过测试，以确保它在不同的记录条件下都能保持良好的性能。

“从听着看”的工作方式是，首先从给定流中分离出包含说话者面部的视频缩略图。组件输出在录制视频时从面部缩略图提取的，用于语音增强目的学习的视觉功能。录制完成后，音频和计算出的特征将被流式传输到视听分离模型，该模型会产生隔离和增强的语音。

Mosseri和Rubinstein表示，各种体系结构的优化和改进成功地将“收听听”的运行时间从台式机上的10倍实时降低到仅使用iPhone处理器的0.5倍性能。此外，它使系统的大小从120MB减小到6MB。结果是在YouTube故事录制结束后的几秒钟内即可获得增强的语音。

从听觉上看并不能消除所有背景噪音-Google表示，接受调查的用户更喜欢保持声音的氛围-该公司声称，该技术可以公平地对待不同外观的扬声器。在一系列测试中，“期待听”团队发现该功能在不同年龄，肤色，口语，音高，能见度，头部姿势，面部毛发和配件(例如眼镜)的扬声器上效果良好。

符合YouTube故事创建条件的YouTube创建者可以在iOS上录制视频，然后从音量控制编辑工具中选择“增强语音”，这将立即将语音增强应用于音轨并循环播放增强的语音。然后，他们可以将原始视频与增强版进行比较。

标签： 环球信息网,汽车,财经,房产,体育,教育,科技

免责声明：以上所展示的信息由网友自行发布，内容的真实性、准确性和合法性由发布者负责。三龙汇之窗网对此不承担任何保证责任, 三龙汇之窗网仅提供信息存储空间服务。任何单位或个人如对以上内容有权利主张（包括但不限于侵犯著作权、商业信誉等），请与我们联系并出示相关证据，我们将按国家相关法规即时移除。

本文地址:http://b2b.shop.wlchinajn.com/news/slh17746.html

打赏

更多>同类资讯

推荐图文

美政客称中国大蒜对美	黑神话主创IP已在美国
姐姐锻炼20岁自闭症弟	中菲合作遣返近200名
还珠格格演员纷纷悼琼	男子与白俄女子婚礼上

推荐资讯

点击排行

免责声明：本站所有信息均来自互联网搜集，产品相关信息的真实性准确性均由发布单位及个人负责，请大家仔细辨认！并不代表本站观点,三龙汇之窗网对此不承担任何相关法律责任！如有信息侵犯了您的权益，请告知，本站将立刻删除。
友情提示：买产品需谨慎网站处理与建议邮箱：slhzc@qq.com

• 山西12岁女孩被继母打成植物人	• 茅台董事长8天收2次监管函
• 新冠疫苗产能可满足国内大规模接种	• 华为被授权无人机相关专利
• 西安一地铁可直达高校食堂	• 北京或挑战21世纪最低气温纪录