亚洲报业网免费收录优秀网站,为共同发展免费收录需做上本站友情链接,我们才会审核收录,不做链接提交一律不审核,为了不浪费时间:收录必看!!!

  • 收录网站:298
  • 快审网站:10
  • 待审网站:1
  • 文章:27895
当前位置:主页 > 新闻中心 > “Northstar是一个交互式数据科学系统 允许客户拖放和操作数据”

“Northstar是一个交互式数据科学系统 允许客户拖放和操作数据”

发布日期:2021-05-22 19:42:02 浏览:

在钢铁侠电影中,托尼·斯塔克利用全息技术将三维数据投影到空气体上,用双手操纵,发现了修复他的超级英雄的麻烦。 同样,麻省理工学院和布朗大学的研究人员目前正在开发一种在触摸屏上运行的交互式数据观察系统,以便不仅是亿万富翁的技术天才,而且所有人都能处理现实问题。

“Northstar是一个交互式数据科学系统 允许客户拖放和操作数据”

多年来,研究人员开发了一种交互式数据科学系统——北约星。 虽然该系统在云中运行,但其接口支持高端智能手机和大型交互式白板等触摸屏设备。 客户提供系统数据集,使用手指和数字笔,通过友好的用户界面进行操作,提取功能的组合,发现趋势和模式。

“Northstar是一个交互式数据科学系统 允许客户拖放和操作数据”

在acm sigmod会议上发表的论文中,详细介绍了北之星的新组件——虚拟数据科学家的vds,使其能够立即生成机器学习模型并在数据集上执行预测任务。 例如,医生可以利用该系统预测患者容易罹患特定疾病,企业广告主可能希望预测销售情况。 如果采用交互式白板的话,也可以各自进行实时协作。

“Northstar是一个交互式数据科学系统 允许客户拖放和操作数据”

目的是通过迅速准确地进行多元分析,使数据科学民主化。

即使是不了解数据科学的咖啡店老板,也应该能在未来几周内预测他们的销售情况,明确购买多少咖啡,共同作者和northstar的项目负责人蒂姆·克拉斯卡说。 麻省理工学院计算机科学与人工智能实验室( csail )电气工程与计算机科学副教授,新数据系统与ai实验室( dsail )创始联合主任。 在拥有数据科学家的企业中,数据科学家和非专家之间有很多往返,所以我们也可以把他们带到一个房间进行分解。

“Northstar是一个交互式数据科学系统 允许客户拖放和操作数据”

vds基于一种越来越流行的人工智能技术,称为自动智能技术( automl ),它允许具有有限数据科学知识的人训练ai模型并从数据集进行预测。 目前,该工具领导着darpa d3m机器人学习大赛,该大赛决定每6个月不重复最佳的automl工具。

“Northstar是一个交互式数据科学系统 允许客户拖放和操作数据”

参加kraska的论文有第一作者zeyuan shang、研究生、emans、csail、dsail的northstar博士后和主要撰稿人emanuel zgraggen、布朗的benedetto buratti、Yel 飞利浦Eichmann,eli upfal最近从布朗搬到了德国达姆施塔特理工大学的carsten binnig。

“Northstar是一个交互式数据科学系统 允许客户拖放和操作数据”

用于分解的无边界画布

这项新事业基于麻省理工学院和布朗研究者之间多年来的北极星合作。 四年多来,研究者就北之星组件发表了许多详细的论文,包括交互界面、多平台操作、加速结果和顾客行为研究等。

北之星以空白色界面开头。 客户将在左侧的数据集框中显示的数据集上载到系统。 数据标签自动填充在下面的单独属性框中。 还有一个运算符框,其中包含各种算法和新的automl工具。 所有数据都存储在云中并进行分析。

“Northstar是一个交互式数据科学系统 允许客户拖放和操作数据”

研究人员喜欢在公共数据集上演示这个系统,包括重症监护室的患者新闻。 请考虑想通过检查某个年龄组的某个疾病而发生的医学研究者。 它们被拖放到界面中央的模式检查算法上,最初显示为空白色框。 作为输入,他们进入标记为血液、传染性、代谢的箱子的疾病特征。 框中显示数据集中这些疾病的百分比。 然后,将年龄功能拖动到显示表示患者年龄分布的条形图的界面上。 在两个框之间画一条线把它们连接起来。 通过包围年龄范围,算法立即计算年龄范围内三种疾病的共现。

“Northstar是一个交互式数据科学系统 允许客户拖放和操作数据”

这就像一幅没有大边界的画布,你可以在这里浏览所有你需要的东西。 北之星界面的主要发明者zgraggen说。 然后,可以链接所有副本,以创建更多的数据复杂问题。

接近自动

使用vds,客户现在可以通过使模型适应数据预测、图像分类、分解多、复杂的图形结构等任务来执行数据的预测分解。

利用上述例子,医学研究者希望从数据集的所有特征预测那些患者有可能患上血液病。 他们从算法列表中拖放automl。 首先生成空的白色框,但有删除血液功能的目标标签。 系统自动找到性能最高的机器学习管道,用不断更新的精度比例的标签进行显示。 客户可以随时停止此过程,优化搜索,并查看每个模型的错误率、结构、计算和其他事项。

“Northstar是一个交互式数据科学系统 允许客户拖放和操作数据”

研究人员表示,vds是迄今为止最快的交互式automl工具,部分归功于定制的报价引擎。 引擎位于接口和云存储之间。引擎利用率可以自动生成数据集的几个典型样本,并在几秒钟内逐步解决以生成优质结果。

和合作者一起,我设计了两年的vds来模仿数据科学家的想法。 也就是说,根据各种编码规则,可以很快明确这些模型和预解决步骤是不是应该在特定的任务中执行,还是不应该执行。 首先,从任何机器学习管线的许多列表中选择模拟,然后在样本集中运行。 这样可以记住结果并改善选择。 一旦提供了快速的近似结果,结果将在后端进行调整。 但是,最终的数字一般与最初的近似值非常接近。

“Northstar是一个交互式数据科学系统 允许客户拖放和操作数据”

如果使用预测器,我不想等4个小时才能得到最初的结果。 我想看看发生了什么,发现错误后马上就能改正。 这一般是不可能的。 其他系统,kraska说。 事实上,研究者以前的顾客研究表明,在延迟给顾客带来结果的瞬间,他们开始与系统失去接触。

“Northstar是一个交互式数据科学系统 允许客户拖放和操作数据”

研究人员通过300个实际数据集判断了这个工具。 vds的近似值比其他先进的automl系统更准确,但在几秒钟内生成。 这比几分钟到几小时内运行的其他工具要快得多。

其次,研究人员要求客户增加对潜在数据偏差和错误发出警告的功能。 例如,为了保护患者的隐私,研究者可能会将医疗数据集标记为0岁(如果不知道年龄)和200岁(如果患者的年龄超过95岁)的患者。 但是,初学者可能无法认识到这样的错误。 这可能会完全消除他们的分解。

“Northstar是一个交互式数据科学系统 允许客户拖放和操作数据”

如果你是新客户的话,得到的结果可能会觉得他们很棒。 kraska说。 但是,实际上,可以警告可能存在表示数据集有问题的异常值。

免责声明:亚洲报业网是一个完全人工审核编辑的开放式分类目录网站,本篇文章是在网络上转载的,本站不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2031@163.com,本站将予以删除。