巧用云平台简化Spark集群与大数据部署 – 51CTO.COM

在日前于旧金山举办的Spark 2014峰会上,Databricks公司CEO Ion Stoica通过主题演讲公布了Databricks云——这是一套以Apache Spark开源处理引擎为核心构建而成的云平台,专门负责大数据处理工作。

Spark项目在一个月之前才刚刚完成了其v1.0版本,这是一套集群计算框架、设计目的在于以Hadoop分布式文件系统(简称HDFS)为基础取代原本的Hadoop MapReduce。借助对内存内集群计算的支持能力,Spark得以在内存机制的辅助下将Hadoop MapReduce的性能表现提升达100倍,而磁盘配合时的性能提升也能达到原先的10倍。

admin发布于 分类 大数据、数据挖掘、云计算、机器学习