Mapreduce

hx x

Unknown

0 0

0 Collaborators

Mapreduce框架实现，WordCount是分布式计算的入门问题,但也是最基本和经典的问题. 问题是让你统计一个超级大的文件(可能上T级别), 里面的每个字符串各出现了多少次. ...learn more

Project status: Published/In Market

oneAPI, HPC

Intel Technologies
DevCloud, oneAPI

Overview / Usage

MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）"和"Reduce（归约）"，是它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map（映射）函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce（归约）函数，用来保证所有映射的键值对中的每一个共享相同的键组。

第一部分是mapreduce框架本身的代码实现，这部分是要点。

第二部分是mapreduce的应用代码，框架的目的就是为了更好的服务与应用，所以提供应用代码是不可或缺的

第三部分是mapreduce的测试代码，这部分可以直接使用脚本语言进行实现，这样更为简单，还可以编写专门用于测试的插件以及mapreduce的串行化实现来进行搭配。由于并行带来的偶然性很高，所以严格的测试是必不可缺的。

Methodology / Approach

项目中参考为论文《MapReduce: Simplified Data Processing on Large Clusters》，简化了其中的部分及机制，实现了一个简单可用的MapReduce框架。

Technologies Used

利用goroutine和chan的简单搭配可以在同样工作量的情况下得到更高的并行性能。

Comments (0)

You have disabled JavaScript

We are sorry, but without JavaScript we are currently unable to display the latest activity feed. Please, enable Javascript in your browser.

Mapreduce

hx x

Overview / Usage

Methodology / Approach

Technologies Used

Login to continue

This action requires you to be logged in.

Thanks for voting. Please leave a comment.

Mapreduce

hx x

Overview / Usage

Methodology / Approach

Technologies Used

Login to continue

This action requires you to be logged in.