大数据相关
Map-Reduce
我们要数图书馆中的所有书。你数1号书架,我数2号书架。这就是“Map”。我们人越多,数书就更快。
现在我们到一起,把所有人的统计数加在一起。这就是“Reduce”。
spark 和 hadoop区别
功能
hadoop 是一个分布式数据基础设施。作用:用来存储
spark 是处理数据的工具。作用:用来计算
数据处理方式
spark 比 hadoop MapReduce快很多
hadoop 分布处理:读取->处理->存储->读取->处理->……
spark 集中处理:读取->完成所有处理任务->存储
应用
一、如何给20G大小的文件,每一行是一个数字进行排序?
K-归并。(Map-Reduce应用)