亚洲报业网免费收录优秀网站,为共同发展免费收录需做上本站友情链接,我们才会审核收录,不做链接提交一律不审核,为了不浪费时间:收录必看!!!

  • 收录网站:298
  • 快审网站:10
  • 待审网站:1
  • 文章:27895
当前位置:主页 > 新闻中心 > “机器学习系统并且解决语音和对象识别”

“机器学习系统并且解决语音和对象识别”

发布日期:2021-05-22 14:24:02 浏览:

麻省理工学院的计算机科学家开发了一种根据对图像的口头描述来识别图像内物体的系统。 指定图像和音频标题时,模型会实时突出显示所描述图像的相关区域。

与现有的语音识别技术不同,该模型不需要解释手动转录及其训练的例子。 相反,它直接从原始图像中记录的音频剪辑和对象中学习单词,并将其相互关联。

这个模型现在只能识别数百种不同的单词和对象类型。 但是,希望有一天,他们的语音对象识别技术将大大节省手工时间,为语音和图像的识别打开新的大门。

例如,siri和谷歌语音等语音识别系统需要数千小时的语音录音。 使用这些数据,系统学习用特定的单词映射语音信号。 一旦新术语进入词典,这种方法就特别成问题,系统需要重新训练。

我们想用更自然的方法进行语音识别,利用人类可以采用的其他信号和新闻,但是机器学习算法一般不能访问。 我们有像叙述让孩子在世界旅行中看到的东西一样的训练模式的想法。 计算机科学与人工智能实验室( csail )和口语系统组的研究员david harwath说。 harwath与人类共同就最近在欧洲计算机视觉会议上提出的模型写了论文。

“机器学习系统并且解决语音和对象识别”

论文在金发和蓝眼睛的年轻女孩的画像上展示了他们的模特,穿着蓝色的连衣裙,背景上有红色屋顶的白色灯塔。 该模型学习了使图像中的像素与女孩、金发、蓝眼睛、蓝裙子、白光房子和红色屋顶相对应。 编写音频标题时,模型会突出显示图像中的各个对象。

“机器学习系统并且解决语音和对象识别”

有希望的应用之一是学习不同语言之间的翻译,而不需要双语注释器。 在全世界推测的000种语言中,只有100种语言具有足够识别转录数据的语音识别。 但是,考虑两种不同语言的说话者记述相同图像的情况。 如果模型从语言a学习与图像中的对象对应的语音信号,在语言b中同时学习与哪个相同对象对应的信号,则可以假定这两个信号-一致的词-是相互翻译的。

“机器学习系统并且解决语音和对象识别”

有babel fish型机制的潜力。 harwath说,他指银河系漫游指南中虚构的生活耳机,把不同的语言翻译成佩戴者。

csail的共同作者是研究生adria recasens。访问学生didac suris的原研究者galen chuang; antonio torralba,电气工程和计算机科学教授,也是麻省理工大学海洋实验室的负责人。 与高级研究科学家詹姆斯·格拉斯一起领导csail语言系统小组。

“机器学习系统并且解决语音和对象识别”

视听协会

该业务将扩展harwath、glass、torralba开发的初始模型,并将声音和主题相关图像组关联起来。 在以前的研究中,将分类数据库的场景图像放置在众包mechanical turk平台上。 然后,他们让人们把这些图像描述成孩子,大约10秒钟。 他们收集了20万组以上的图像和音频字幕,分为海滩、商场、城市街道、卧室等数百种不同的类别。

“机器学习系统并且解决语音和对象识别”

然后,他们设计了由两个独立的卷积神经互联网( cnn )组成的模型。 一个解决图像,一个解决谱图,声音信号随时间变化的视觉表现。 模型的顶层计算两个互联网的输出,并将语音模式映射到图像数据上。

例如,研究人员将提供模型标题a和图像a。 这是正确的。 然后,他们用图片a给随机标题b。 这是错误的一对。 在将几千个错误的字幕与图像a比较之后,通过模型学习对应于图像a的声音信号,并将这些信号与字幕中的单词相关联。 正如年的研究所所述,该模型例如学会了选择与水对应的信号,在水体中检索图像。

“机器学习系统并且解决语音和对象识别”

但是,在这一点上,并没有提供一种说法说某个特定的单词指向了那个特定的像素片。

制作匹配地图

在新论文中,研究者建立模型,将特定的单词和特定的像素块关联起来。 研究者在同一数据库中训练了模型,总共有400,000对图像标题。 他们提供了1000个随机对进行测试。

在培训中,模型显示了正确的图像,不正确的图像和标题。 但这次,图像分解cnn将图像分割成由像素块构成的单元网格。 音频分解cnn将频谱图分割为例如1秒的片段,捕获一个或两个字。

模型使用正确的图像和标题对,将网格的第一个单元与第一个音频段匹配,然后将同一单元与第二个音频段匹配,并继续到各个网格单元和所有网格单元之间的时间段。 根据信号和对象的对应程度,为每个单元和音频剪辑提供相似性得分。

“机器学习系统并且解决语音和对象识别”

挑战是,在训练中,模型无法访问声音和图像之间的真实定位新闻。 这篇论文最大的贡献是,harwath表示,这些交叉模式[声音和视觉]的排列,通过简单地教导互联网图像和字幕属于一起,是无法自动推断的。

作者将这种自动学习相关称为声音标题的波形与图像像素的匹配图。 在训练了数千个图像标题对之后,互联网将这些对齐方式缩小为表示匹配图中特定对象的特定单词。

这就像大爆炸,物质真的分散了,结合成行星和恒星,哈瓦斯说。 预计开始分散,但进行训练后,它将成为口语和视觉对象之间有意义的基础的定位。

免责声明:亚洲报业网是一个完全人工审核编辑的开放式分类目录网站,本篇文章是在网络上转载的,本站不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2031@163.com,本站将予以删除。