跳至主要內容
头歌spark实训

Spark环境搭建和使用

词频统计

任务描述

读取文件 /data/bigfiles/example.txt 中的内容,完成 WordCount 词频统计,其中单词之间的间隔符为:一个空格符。最终输出结果按大小写字母升序排列,使用 \t 作为字段输出间隔符,如下所示:

A    10
B    3
a    5
b    10
c    1
d    9

代码补充完成后,打开右侧命令行窗口,使用 maven 打包项目,并使用 spark-submit 进行手动提交,将打包提交运行的结果保存到 /root/result.txt 文件中。


fatSheep大约 5 分钟BigDataSpark复盘
Spark原理与实践

Spark介绍

大数据处理技术栈

开源大数据处理引擎

Spark 生态&特点

  • 统一引擎,支持多种分布式场景
  • 多语言支持
  • 可读写丰富数据源
  • 丰富灵活的APIV算子
  • 支持K8S/YARN/Mesos资源调度

fatSheep大约 1 分钟BigData字节青训营Spark计算框架