专业性

责任心

高效率

科学性

全面性

谷歌开发AI“读唇”软件

   谷歌(微博)人工智能部门DeepMind正与牛津大学研究人员合作,谷歌开发AI“读唇”软件。
 
   为实现这一目标,研究人员选取了数千个小时的BBC电视短片,上传到一个神经网络上,对其“读唇”软件进行训练,即根据主播嘴部运动来识别其播报内容。
 
   结果,这款“读唇”软件的唇读准确率高达46.8%。相比之下,基于同样的测试内容,人类唇读的准确率只有12.4%。
 
   这项研究基于牛津大学之前的一款人工智能“读唇”系统“LipNet”。LipNet能将视频中人物的嘴部运动与其台词进行匹配,准确率高达93.4%。当然,该准确率主要基于一些相对简单的句子。
 
   DeepMind这款“读唇”软件名为“看、听、分析与拼写”(Watch,Listen,Attend,andSpell),与LipNet不同的是,DeepMind的软件致力于更难的长句。
 
   为此,谷歌神经网络观看了来自BBC的约5000个小时的流行电视节目,包括《晚间新闻》和《提问时间》和《今日世界》等,共包含了11万个不同的句子,1.75万个不同的单词。相比之下,测试LipNet的句子只包含了51个不同的单词。
 
   谷歌对此表示:“这项研究的目的是识别人们谈话时的短语和句子,有声音或没有声音都能识别。与之前的相关研究不同,它们仅限于有限数量的单词或短语,而我们的研究针对无限制的自然语言长句。”
 
   DeepMind团队认为,他们新开发的这款软件除了能帮助听力损伤人群,还支持其他一系列应用,包括注释电影、利用唇部动作与Siri和Alexa等数字助理通信等。

业务领域

可研报告

商业计划书

节能评估报告

项目申请报告

资金申请报告

工业扶持资金

农业扶持资金

企业融资

立项申请报告

项目实施方案

项目建议书

文化旅游

特色小镇

规划咨询

乡村振兴计划

PPP项目规划

稳定风险评估

科技成果评价

市场专项调研

行业研究

财政扶持资金申请

融资计划书

股权融资方案书

现代农业规划

文旅设计规划

十四五规划

产业园区规划

康养地产规划

城镇规划设计

区(县)域经济规划

景观设计

产品市场分析

市场发展分析

企业调研

消费者调研

产业集群

一二三产业融合

田园综合体

现代农业产业园

园区申报

园区招商