大数据相关

Map-Reduce

我们要数图书馆中的所有书。你数1号书架,我数2号书架。这就是“Map”。我们人越多,数书就更快。

现在我们到一起,把所有人的统计数加在一起。这就是“Reduce”。


spark 和 hadoop区别

功能

hadoop 是一个分布式数据基础设施。作用:用来存储

spark 是处理数据的工具。作用:用来计算

数据处理方式

spark 比 hadoop MapReduce快很多

hadoop 分布处理:读取->处理->存储->读取->处理->……

spark 集中处理:读取->完成所有处理任务->存储


应用

一、如何给20G大小的文件,每一行是一个数字进行排序?

K-归并。(Map-Reduce应用)

二、分布式 ID 生成


大数据相关
http://blog.mornw.com/2022/02/04/学习/big_data/
作者
朝霞换夕阳
发布于
2022年2月4日
许可协议