-
-
0
-
0求大佬告知,目前学spark的话是用java版本好一些还是Scala版本,或python版本好一些. 网上教程的Scala版本比较多,python版本的教程有推荐的么,想系统性学习一下. 感谢各位大佬
-
1sparksteraming消费Kafka报error: User class threw exception: org.apache.kafka.common.errors.TimeoutException: Timeout of 60000ms expired before the position for partition appbury-9 could be determined 我设置的批处理时间是半个小时。前面几次都正常,运行三四小时之后就报这个错了,很奇怪。在网上都说kafka broker那边出了问题,但是排查一下并没有问题,相关的flink任务(消费同样的topic)也正常跑了,唯独这spark任务出这个问题。有大佬遇见过这个问题吗?跪求解决方式
-
1
-
0有偿求助spark大作业,有会的吗?私我
-
6一名专业的代码和程序代写者。拥有多年的编程经验,熟悉Python、Java、Scala种编程语言和大数据知识等。有不懂的可以交流,Hadoop、spark、hive、hbasee、zookeeper、kafka 等都可以
-
1
-
6
-
0
-
1用的python pyspark,但是没有办法直接读取lz4的压缩文件,搞不定要被干掉了
-
0这就没反应了
-
1新手小白求教,我现在有一个daraset,假如里面有两个字段,分别是id,score,我按score进行降序排序,现在我要获取id为2用户在这个dataset里面的排名,如何操作
-
3各位大佬们,你们好,我想问一下,我搭建了在centos的hadoop集群,然后再hadoop中下载了spark,现在显示的是scala,我应该怎么做可以用pyspark
-
0有没有spark大神,急急急,我想把一个rdd数据集中同时满足两个特征值的数据都拿出来并且计数,这个命令该怎么写啊
-
11
-
3
-
1最近要做一个网上平台,像那种学校自用的线上课堂,学生可以在平台上看课程。平台上也有一些竞赛的数据,考研的一些资料。有一个模块就是学生能力画像(平台上有学生的课程成绩,竞赛的一些信息记录)。目前准备用springboot框架做,mybatis管理数据库,上面那个模块永spark实现。我之前java就学到了springboot,大数据方面是零基础,我现在应该按什么学习线路去学习。我看了哔哩哔哩上的黑马的大数据课程是基于python的,按那个学的话是不是对我
-
1code expected at least 16 arguments got 15 楼主是spark2.4.2和python3.11.4
-
3
-
6有会的吗?私我
-
0
-
1
-
0本人是准初三的学生,想提前学一下化学,补一下英语,打听了一下本地的暑假班 价格高到离谱,想给家里省省钱,求各位学长学姐推荐下有没有优质的网课老师之类的
-
2有偿求助头歌的企业spark案例-电商分析实战,并且写一个word的报告
-
0兄弟们,头歌的企业spark案例-电商分析实战的第五关怎么搞,或者说有没有答案推一下,谢谢大佬们 【【第五关:每种店铺类型在哪个平台上销售情况最好】】 【【本关任务:分析出每种店铺类型在哪个平台上销售情况最好(每个月取销量最高的值,所有月份相加即为总销量),按照店铺类型的销量值降序排序(输出前 20 条即可)。】】
-
0求一份spark数据分析案例
-
1
-
1Bug如下,在启动sparkDriver之后启动sparkUI时报错 2023-04-27 12:39:59.077 WARN 24176 --- [ restartedMain] 网页链接 : FAILED SelectChannelConnector@account.jetbrains.com:4040: java.net.BindException: Cannot assign requested address: bindjava.net.BindException: Cannot assign requested address: bind
-
2有人会吗?私聊我,感谢大佬们
-
1
-
0
-
01.从hdfs中读取文件后,创建 RDD 对象 2.DAGScheduler模块介入运算,计算RDD之间的依赖关系。RDD之间的依赖关系就形成了DAG 3.每一个JOB被分为多个Stage,划分Stage的一个主要依据是当前计算因子的输入是否是确定的,如果是则将其分在同一个Stage,避免多个Stage之间的消息传递开销。
-
3版本spark3.*,spark2.*没有此问题。hadoop3.1.2,hbase2.4.4,hive3.1.2 单纯查询hive表没有问题,但是查询hive on hbase时会报以下错误: 2022-04-20 14:57:03,276 INFO spark.SparkContext: Created broadcast 3106 from 2022-04-20 14:57:03,286 INFO scheduler.DAGScheduler: Asked to cancel job group 10155d28-e4ed-46c5-96ce-0325aa45e187 2022-04-20 14:57:03,286 ERROR thriftserver.SparkExecuteStatementOperation: Error executing query with 10155d28-e4ed-46c5-96ce-0325aa45e187, currentState RUNNING, java.io.IOException: Cannot create a record reader because of a previous error. P
-
0
-
5spark3以后出现该问题,spark2无问题,求大神指点! 报错如下: 2022-04-20 14:57:03,276 INFO spark.SparkContext: Created broadcast 3106 from 2022-04-20 14:57:03,286 INFO scheduler.DAGScheduler: Asked to cancel job group 10155d28-e4ed-46c5-96ce-0325aa45e187 2022-04-20 14:57:03,286 ERROR thriftserver.SparkExecuteStatementOperation: Error executing query with 10155d28-e4ed-46c5-96ce-0325aa45e187, currentState RUNNING, java.io.IOException: Cannot create a record reader because of a previous error. Please look at the previous logs lines from the task's full log for more detai
-
0Simple(易用性)、Fast(速度快)、Unified(通用性)、Scalable(兼容性)
-
9Pycharm ssh连接linux虚拟机,完成简单的rdd查询作业,虚拟机里能够成功运行,可是pycharm里报错( AttributeError:module ”pyspark.rdd”has no attribute ”T”),百度给的解释是什么pyc文件,可我没找到,关键是我第一次在pycharm里运行成功过的,后来才一直报这个错(同样的代码同样的操作,第一次能运行,第二次和接下来数次就报错)。尝试重新pip install pyspark 过,还是不行,有大佬知道怎么解决吗?
-
01.Local本地单机模式:一般用于测试和练习 2.StandaloneSpark集群模式:Spark集群的资源管理由spark自己来负责 3.OnYarnSpark集群模式:Spark集群的资源由Yarn来管理
-
8