博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Spark Summit EU重头戏:TensorFlow、结构化的流和GPU硬件加速
阅读量:6001 次
发布时间:2019-06-20

本文共 837 字,大约阅读时间需要 2 分钟。

上星期在布鲁塞尔召开,其中大会中的重头戏是 集成深度学习库 、使用结构化的流进行在线学习和GPU硬件加速。

\\

大会第一日最具特色的是预览了由引入的一个创新。该API是针对DataFrames和简化了的接口,使其更容易去开发大数据应用。这个第二代的 引擎通过把MPP数据库的理念应用到数据处理查询使处理更接近于硬件了:针对中间数据和以节省空间的面向列方式保存在内存中的数据,生成的字节码充分利用CPU寄存器的能力。

\\

不管API是否使用过,数据操作图都是通过Catalyst Optimizer优化过的,它针对所有集群上的计算指令生成执行计划,并针对每个操作进行优化。

\\

,这是作为阿尔法版针对流发布的一个新的高层API,在本次大会中也做了推介。该API集成了Spark的Dataset和DataFrame,使开发人员可以以类似于Spark批量API的方式描述从(到)外部系统的数据读写。它通过以批处理指令的方式编译流处理指令提供了很强的一致性,并使事务型系统可以与存储系统集成在一起(比如HDFS和AWS S3)。

\\

在大会,Databricks的CEO Ali Ghodsi将Spark描绘成了将AI大众化的一款工具,它简化了机器语言算法的数据准备和计算指令的管理。今年早些时候,深度学习类库TensorFlow通过一个称为 的类库集成运行于Spark之上。这个类库允许在DataFrames和TensorFlow之间在运行期传递数据。

\\

数据科学专题召开了一个会议,主要围绕的主题是如何结构化流使机器学习具有弹性,并使其可以做到在线学习,这就有可能做到根据到达的数据去更新一些机器学习模型了,而不是采用一批离线任务去执行模型训练。

\\

最后一个重头戏是在Databricks平台和更多深度学习类库集成的公告。GPU的支持是通过像这样的硬件类库完成的,并可以在Databricks中预先构建它,据说这样集群设置成本就会有更低了。

\\

查看英文原文:

转载地址:http://oezmx.baihongyu.com/

你可能感兴趣的文章
Mac OS X快速显示、恢复隐藏文件的方法
查看>>
深入学习jQuery自定义插件
查看>>
apache 日志为每个域名独立配置单独的日志文件
查看>>
mongodb 系列 ~ mongo的副本集(3)
查看>>
设计模式之适配器模式
查看>>
IDEA 字体设置(转)
查看>>
java无需解压zip压缩包直接读取包内的文件名(含中文)
查看>>
Testing - 软件测试知识梳理 - 理解测试
查看>>
Mac下配置idk
查看>>
L2TP/IPSec一键安装脚本
查看>>
android以json形式提交信息到服务器
查看>>
[HDU5965]扫雷
查看>>
Asymptote 学习记录(2):例子阅读
查看>>
Functions should do one thing一个函数应该只做一件事
查看>>
HDU 6438 Buy and Resell (CCPC网络赛) 堆 贪心
查看>>
语义化标签
查看>>
CetnOS 6.7安装Hive 1.2.1
查看>>
React学习——ListView(Reflux)
查看>>
最短最优升级路径(完美世界2017秋招真题)
查看>>
【PHP基础】错误处理、异常处理
查看>>