Apache Spark的局限性是什么？【大数据吧】

大数据吧关注：166,103贴子：209,551

4回复贴，共1页

Apache Spark的局限性是什么？

Apache Spark是行业中流行和广泛使用的大数据工具之一。Apache Spark已成为业界的热门话题，并且如今非常流行。但工业正在转移朝向apache flink。
Apache Spark简介
Apache Spark是为快速计算而设计的开源，闪电般快速的集群计算框架。Apache Spark扩展了MapReduce模型，以有效地将其用于多种计算，包括流处理和交互式查询。Apache Spark的主要功能是内存中的群集计算，可以提高应用程序的处理速度。
Spark计划用于涵盖各种工作负载，例如迭代算法，批处理应用程序，流和交互式查询。除了支持这些工作负载，它还减少了维护不同工具的管理障碍。

送TA礼物

1楼2021-09-13 17:25回复

Apache Spark框架的核心组件
Apache Spark框架由负责Spark功能的主要五个组件组成。这些组成部分是–
Spark SQL和数据框架–在顶部，Spark SQL允许用户运行SQL和HQL查询以处理结构化和半结构化数据。
SparkStreaming – Spark流传输有助于处理实时流数据，即日志文件。它还包含用于处理数据流的API
MLib机器学习– MLib是具有机器学习功能的Spark库。它包含各种机器学习算法，例如回归，聚类，协作过滤，分类等。
GraphX –支持图形计算的库称为GraphX。它使用户能够执行图操作。它还提供了图形计算算法。
Apache Spark Core API –它是Spark框架的内核，并提供了一个执行Spark应用程序的平台。
下图清楚地显示了Apache Spark的核心组件。

2楼2021-09-13 17:26

不感兴趣

开通SVIP免广告

Apache Spark的局限性
用户在使用它时必须面对Apache Spark的一些限制。本文完全侧重于Apache Spark的限制以及克服这些限制的方法。让我们详细阅读Apache Spark的以下限制以及克服这些Apache Spark限制的方法。
1.没有文件管理系统
Apache Spark中没有文件管理系统，需要与其他平台集成。因此，它依赖于Hadoop等其他平台或任何其他基于云的文件管理系统平台。这是Apache Spark的主要限制之一。
2.不进行实时数据处理
Spark不完全支持实时数据流处理。在Spark流中，实时数据流被分为几批，称为Spark RDD（弹性分布式数据库）。在这些RDD上应用诸如join，map或reduce等操作来处理它们。处理后，结果再次转换为批次。这样，Spark流只是一个微批处理。因此，它不支持完整的实时处理，但是有点接近它。
3.昂贵
在谈论大数据的经济高效处理时，将数据保存在内存中并不容易。使用Spark时，内存消耗非常高。Spark需要巨大的RAM来处理内存。Spark中的内存消耗非常高，因此用户友好性并不高。运行Spark所需的额外内存成本很高，这使Spark变得昂贵。
4.小文件发行
当我们将Spark与Hadoop一起使用时，存在文件较小的问题。HDFS附带了数量有限的大文件，但有大量的小文件。如果我们将Spark与HDFS一起使用，则此问题将持续存在。但是使用Spark时，所有数据都以zip文件的形式存储在S3中。现在的问题是所有这些小的zip文件都需要解压缩才能收集数据文件。
仅当一个核心中包含完整文件时，才可以压缩zip文件。仅按顺序刻录核心和解压缩文件需要大量时间。此耗时的长过程也影响数据处理。为了进行有效处理，需要对数据进行大量改组。

3楼2021-09-13 17:26

5.延迟
Apache Spark的等待时间较长，这导致较低的吞吐量。与Apache Spark相比，Apache Flink的延迟相对较低，但吞吐量较高，这使其比Apache Spark更好。
6.较少的算法
在Apache Spark框架中，MLib是包含机器学习算法的Spark库。但是，Spark MLib中只有少数几种算法。因此，较少可用的算法也是Apache Spark的限制之一。
7.迭代处理
迭代基本上意味着重复使用过渡结果。在Spark中，数据是分批迭代的，然后为了处理数据，每次迭代都被调度并一个接一个地执行。
8.窗口标准
在Spark流传输中，根据预设的时间间隔将数据分为小批。因此，Apache Spark支持基于时间的窗口条件，但不支持基于记录的窗口条件。
9.处理背压
背压是指缓冲区太满而无法接收任何数据时，输入/输出开关上的数据累积。缓冲区为空之前，无法传输数据。因此，Apache Spark没有能力处理这种背压，但必须手动完成。
10.手动优化
使用Spark时，需要手动优化作业以及数据集。要创建分区，用户可以自行指定Spark分区的数量。为此，需要传递要固定的分区数作为并行化方法的参数。为了获得正确的分区和缓存，应该手动控制所有此分区过程。
尽管有这些限制，但Apache Spark仍然是流行的大数据工具之一。但是，现在已经有许多技术取代了Spark。Apache Flink是其中之一。Apache Flink支持实时数据流。因此，Flink流比Apache Spark流更好。

4楼2021-09-13 17:26

总结
每种工具或技术都具有一些优点和局限性。因此，Apache Spark的限制不会将其从游戏中删除。它仍然有需求，并且行业正在将其用作大数据解决方案。最新版本的Spark进行了不断的修改，以克服这些Apache Spark的局限性。
注：每周福利均会更新，更多福利等你领取，更多技巧，欢迎在评论区一起交流！
学习Java没有那么容易，一定要掌握学习方法，初学者对于学习方法有什么不懂的可以随时找我咨询，真的是希望新手少走弯路，下面有我的java学习交流q u n：前面是四九零，中间是五七四，后面是七五三，进qun备注123，任何问题都可以随时问我。,领取Python ，web前端开发，Python爬虫，Python数据分析，大数据开发，人工智能，Java项目，Java基础等精品学习课程。带你从零基础系统性的学好Python，Java，web前端和大数据等！做一名牛逼的程序员！
希望这些能够帮助大家从一个小白成长为大牛，最后提醒大家，不要在拼搏的年纪选择安逸，希望小编的文章能够帮助到小伙伴们！
END祝大家学的愉快，学的神速。有帮助的话，各位小伙伴可以点个赞收藏支持下啦！❤️也欢迎关煮lili，一个在变秃，但能带你变强的程序员~今天先说这么多，我是乐字节哩哩，一个有趣的灵魂！下期见！【此文章转自乐字节】

5楼2021-09-13 17:26

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

贴吧热议榜

4回复贴，共1页

<返回大数据吧

发表回复

发贴请遵守贴吧协议及“七条底线”贴吧投诉

内容:

使用签名档查看全部

发表

保存至快速回贴

日	一	二	三	四	五	六

Apache Spark的局限性是什么？

登录百度账号

扫二维码下载贴吧客户端