Apache火花

Apache火花是一个闪电般的速度 统一的分析引擎 用于大数据和机器学习. 它最初是在2009年由加州大学伯克利分校开发的.

数据处理领域最大的开源项目.

自发布以来, Apache火花, 统一分析引擎, 是否已被众多行业的企业迅速采用. 像Netflix这样的互联网巨头, 雅虎, 和eBay都大规模部署了Spark, 在超过8个的集群上集体处理多个pb的数据,000个节点. 它已迅速成为大数据领域最大的开源社区, 来自250多个组织的1000多名贡献者.
Spark - Apache火花

在加州大学伯克利分校启动Spark研究项目的团队于2013年创建了砖.

Apache火花是100%开源的,由独立于供应商的Apache软件基金会托管. 在砖,BG视讯注册登录完全致力于维护这种开放的开发模型. 和Spark社区一起, 砖继续为Apache火花项目做出巨大贡献, 通过发展和社区福音.


Apache引发生态系统

Spark SQL + DataFrames

结构化数据:Spark SQL

许多数据科学家, 分析师, 一般的商业智能用户依赖于交互式SQL查询来探索数据. Spark SQL是一个用于结构化数据处理的Spark模块. 它提供了一个称为DataFrames的编程抽象,还可以充当分布式SQL查询引擎. 它使未修改的Hadoop Hive查询在现有部署和数据上的运行速度提高了100倍. 它还提供了与Spark生态系统的其他部分的强大集成.g.,将SQL查询处理与机器学习相结合).

流媒体

流式分析:Spark流式分析

许多应用程序不仅需要处理和分析批处理数据的能力, 但也有实时的新数据流. 在Spark上运行, Spark 流媒体支持强大的交互和分析应用程序,跨越流数据和历史数据, 同时继承Spark的易用性和容错特性. 它很容易与各种流行的数据源集成, 包括HDFS, 水槽, 卡夫卡, 和推特.

MLlib 机器学习

机器学习:MLlib

机器学习已经迅速成为挖掘大数据以获得可操作见解的关键部分. 建立在Spark之上, MLlib是一个可扩展的机器学习库,提供高质量的算法(e.g.,多次迭代以提高精度)和惊人的速度(比MapReduce快100倍). 该库在Java中可用, Scala, 和Python作为Spark应用的一部分, 这样您就可以将其包含在完整的工作流中.

GraphX 图计算

图计算:GraphX

GraphX是一个构建在Spark之上的图形计算引擎,允许用户交互式地构建, 图结构数据的尺度变换与推理. 它带有一个通用算法库.

火花核心API

一般执行:Spark Core

Spark Core是Spark平台的底层通用执行引擎,所有其他功能都建立在它的基础之上. 它提供内存计算能力以提供速度, 支持多种应用程序的通用执行模型, 和Java, Scala, 和Python api,以方便开发.

R
SQL
Python
Scala
Java

Apache火花的优点是什么

速度

Spark可以从性能的角度进行自下而上的设计 在大规模数据处理方面,比Hadoop快100倍 通过利用内存计算和其他优化. 当数据存储在磁盘上时,Spark的速度也很快, 目前还保持着大规模磁盘上分类的世界纪录.

易用性

Spark提供了易于使用的api,用于操作大型数据集. 这包括用于转换数据的100多个操作符的集合,以及用于操作半结构化数据的熟悉数据帧api.

一个统一的引擎

Spark附带了一些高级库, 包括对SQL查询的支持, 流数据, 机器学习和图形处理. 这些标准库提高了开发人员的工作效率,并且可以无缝地组合在一起创建复杂的工作流.

可以在砖云上免费试用Apache火花

砖统一分析平台的性能是开源Spark的5倍, 协作笔记本, 集成的工作流, 以及企业安全——所有这些都在一个完全托管的云平台上.

试着砖

开源的Apache火花项目可以是 在这里下载