hadoop之mapreduce快速上手

需求描述

将每一行文本数据变成<单词,1>这样的k，v数据
将相同单词的一组k，v数据进行聚合：累加所有的v

例如

可以创建多个文件，内容格式如下

hello java
hello python
。。。。

经过分析计算生成结果:

hello 2
java 1
python 1

前期准备

数据准备：

a.txt
hello java
hello python
hello hadoop
hello spark

b.txt c.txt
hello hadoop
hello python
hello python
hello python

c.txt
hello hadoop
word hadoop
hello spark
hello spark

启动hadoop（我这里namenode和datanode都在localhost上）

hadoop-daemon.sh start namenode dataname

启动yarn（也是在localhost启动）

start-yarn.sh

在hadoop中创建目录，并将a.txt b.txt c.txt上传

hadoop fs -mkdir -p /wordcount/input
hadoop fs -put *txt /wordcount/input

处理maptask的类，每读取一行调用一次，主要是将一行：hello java，转化为：（hello,1）（java,1）（hello,1）

import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
public class WordcountMapper extends Mapper{
@Override
protected void map(LongWritable key, Text value, Context context)
throws IOException, InterruptedException {
String line = value.toString();
String[] words = line.split(" ");
for(String word:words){
context.write(new Text(word), new IntWritable(1));
}
}
}

执行reducetask类，处理maptask返回结果，进行聚合处理

import java.io.IOException;
import java.util.Iterator;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
public class WordcountReducer extends Reducer{
@Override
protected void reduce(Text key, Iterable values,Context context) throws IOException, InterruptedException {
int count = 0;
Iterator iterator = values.iterator();
while(iterator.hasNext()){
IntWritable value = iterator.next();
count += value.get();
}
context.write(key, new IntWritable(count));
}
}

调度程序，将job进行执行在local上（local为hadoop本地虚拟出来的）

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
public class JobSubmitterLinuxToYarn {
public static void main(String[] args) throws Exception {
Configuration conf = new Configuration();
 # conf.set("mapreduce.framework.name", "yarn"); # 设置job提交到yarn运行，默认local
Job job = Job.getInstance(conf);
job.setJarByClass(JobSubmitterLinuxToYarn.class);
job.setMapperClass(WordcountMapper.class);
job.setReducerClass(WordcountReducer.class);
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(IntWritable.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
FileInputFormat.setInputPaths(job, new Path("/wordcount/input"));
FileOutputFormat.setOutputPath(job, new Path("/wordcount/output"));
job.setNumReduceTasks(3);
boolean res = job.waitForCompletion(true);
System.exit(res?0:1);
}
}

在linux上进行编译打包.java

1.1将代码上传至服务器

1.2开始进行编译打包

[root@node1 java_jar]# javac *.java -cp $(hadoop classpath)

[root@node1 java_jar]# vi MANIFEST.MF
#添加
Main-Class: JobSubmitterLinuxToYarn

[root@node1 java_jar]# jar -cvfm mr.jar MANIFEST.MF *.class
[root@node1 java_jar]# ls

开始执行任务

[root@node1 java_jar]# hadoop jar mr.jar JobSubmitterLinuxToYarn

控制台输出

查看hadoop目录

[root@node1 java_jar]# hadoop fs -ls /wordcount/output
[root@node1 java_jar]# hadoop fs -cat /wordcount/output/par*

如果你是在yarn上调度，可以打开 http://node1:8088/cluster

控制台输出

展开阅读全文

页面更新：2024-04-10

标签：控制台上手单词文本需求快速上传代码格式服务器目录数据

1 2 3 4 5

配RTX4080，直连功耗175W，惠普暗影精灵9 Plus值得考虑吗？

自从英特尔在酷睿13主推HX系列处理器，似乎格局就已经注定了，今年的RTX4080、RTX4070显卡都注定会搭配HX系列处理器，只是13500HX、13700HX、13900HX的选择问题了（当然AMD也有HX系列）。而这次，我们看到惠普已经推出了暗影精灵

苹果单季营收1172亿美元：iPhone销量降8% Mac拖后腿

雷递网雷建平 2月5日苹果日前发布财报。财报显示，苹果2022年第四季度营收1171.54亿美元，较上年同期的1239.45亿美元跌5.5%。苹果业绩罕见地低于分析师的预期。整体来看，苹果在全球各个区域的收入均同比出现不同程度下滑

MySQL事物

事务是一组操作的集合，它是一个不可分割的工作单位，事务会把所有的操作作为一个整体一起向系统提交或撤销操作请求，即这些操作要么同时成功，要么同时失败。SELECT @@autocommit ;SET @@autocommit = 0 ;创建表没问题 cre

苹果客服回应iPhone微信转账语音播报出错：确有异常，会跟进此事

Tech星球2月4日消息，有媒体报道苹果手机微信转账语音播报出错，引发网友关注。经测试，苹果手机在转账128元、158元时仅播报120元和150元，100元播报正常，而测试华为手机显示收款播报正常。对此，苹果中国官方客服回应：出现读错

看完这八点还买Apple TV，我服你-说清Apple TV的缺点

只要花1000元就能得到一个高清电影播放器，一个高清全球电视台，一个顺滑的苹果无线投屏解决方案...但是入手还要三思，了解清楚的Apple TV的另一面再决定是否入手也不迟，我来说说它的缺点：一、需要有一部iOS的设备。iPhone，iP

注意！这些微信红包别抢！

新年发红包、抢红包想必也是大家的必选动作又到了“拼手速”的时候但是，有不法分子却从中捣乱制造了一些假红包企图骗取钱财小编提醒你这些微信红包千万别领！1需输密码的红包微信好友发来一个红包，点开时却提醒需要输入

科技与智能加持的机器宠物狗

今天在网上看到一个智能机器宠物狗，深深地吸引了我，它的主打标签就是“宠物、机器人、朋友”。可以说这是一款集科技与智能于一体的多功能宠物机器狗。我们来看一下它都集成了哪些科技（1）灵性交互作为一个机器宠物，当你四

上班族必看的电脑技能，解决你的尴尬

如果你在工作中遇见了这些电脑问题，不知道如何解决时，一定要把这份上班中用的电脑技能，收藏起来!!!内容极其珍贵，赶紧文末领取

目前4款“高性价比”的手机，售价均不超过2000元，适合送给父母

如果您喜欢，可以点击上面的 “关注” 二字。后续会为您提供更多有价值的内容。今天分享，目前4款“高性价比”的手机，售价均不超过2000元，适合送给父母。第一款：红米Note 11T Pro参考价格：1939元（12+256GB）红米系列手机是出名

8套“小西装”搭配示例，2023早春这么穿才叫高级，优雅又知性

随着温度上升，即将迎来一年之中最美的春节。在冬季，因为天气比较寒冷，恨不得把自己裹上一条被褥。早春一到，温度上升到二十几度，就可以让臃肿的衣服进衣橱了。对于女人来说，一件好看且干练的小西装，必将成为这个2023年春季的

“迎战韩流，收复失地”！中国明星又要走出国门“杀回”时装周！

时装周向来都是明星们“争奇斗艳”的名利场，中国明星更是四大国际时装周的常客。最近网上就传出即将有一大拨儿明星又要走出国门“杀回”时装周！图片来源网络，侵删就网传名单来看，肖战、刘亦菲、迪丽热巴、蔡徐坤… …都

蒋雯丽和老公同框显魁梧，穿粉色裙温柔优雅，夫妻十指紧扣感情好

#今天穿什么#身材高挑的蒋雯丽虽然已经逐渐步入中老年的年龄段，但气质和颜值并不输年轻时。和老公顾长卫同框，她的身高优势更明显，而且还颇有些许魁梧。身穿粉色连衣裙温柔优雅，笑起来恬静又温和，夫妻十指紧扣感情好。造型

有一种丰腴美叫郝蕾，独有的韵味和气质无人能比

多年来，郝蕾一直以这种微胖的形象出现在公众面前，珠圆玉润，丰腴迷人，是娱乐圈一道独特而又靓丽的风景。郝蕾的“丰腴美”真惊艳！昔日她在出席活动时，一袭大红色一字肩礼服裙闪耀全场，成为焦点。她皮肤白皙，五官精致，一双圆溜

经常“染发”会致癌，是真的还是假的？医生告诉答案，涨知识了

46岁的徐女士一直有染发的习惯，尤其是年龄大了之后，白头发越来越多，所以染黑的次数开始增加，有时候一个月要染两次。上星期，徐女士去理发店染发，染完发回家之后不到两个小时，许女士就感觉头晕，头痛，恶心，乏力，而且过了两三天之后

为什么K-pop统治了时装周

本月早些时候，在米兰的普拉达男装秀场外，街道上挤满了尖叫的粉丝，其中大部分人似乎是为了参加活动的韩国流行组合Enhypen而来。崇拜者们有时会破口大骂，吟唱这支男团的歌曲。"这些意大利孩子居然在学习韩语！"完美》杂志主

上滑加载更多 ↓

hadoop之mapreduce快速上手

需求描述

前期准备

在hadoop中创建目录，并将a.txt b.txt c.txt上传

处理maptask的类，每读取一行调用一次，主要是将一行：hello java，转化为：（hello,1）（java,1）（hello,1）

执行reducetask类，处理maptask返回结果，进行聚合处理

调度程序，将job进行执行在local上（local为hadoop本地虚拟出来的）

在linux上进行编译打包.java

开始执行任务

控制台输出

查看hadoop目录

配RTX4080，直连功耗175W，惠普暗影精灵9 Plus值得考虑吗？

苹果单季营收1172亿美元：iPhone销量降8% Mac拖后腿

MySQL事物

苹果客服回应iPhone微信转账语音播报出错：确有异常，会跟进此事

看完这八点还买Apple TV，我服你-说清Apple TV的缺点

注意！这些微信红包别抢！

科技与智能加持的机器宠物狗

上班族必看的电脑技能，解决你的尴尬

目前4款“高性价比”的手机，售价均不超过2000元，适合送给父母

8套“小西装”搭配示例，2023早春这么穿才叫高级，优雅又知性

“迎战韩流，收复失地”！中国明星又要走出国门“杀回”时装周！

蒋雯丽和老公同框显魁梧，穿粉色裙温柔优雅，夫妻十指紧扣感情好

有一种丰腴美叫郝蕾，独有的韵味和气质无人能比

经常“染发”会致癌，是真的还是假的？医生告诉答案，涨知识了

为什么K-pop统治了时装周

中国数据中心一年耗电量，超过三峡大坝发电量，需降温黑科

马蒂普全场数据：自摆乌龙&防守数据多项挂蛋，6分全场

宇宙中第一批恒星存在被证实！中科院新成果，数据来自韦布

ToolJet 是一个开源低代码应用程序构建器，希望帮助公司

火影忍者手游：如何快速获得S忍A忍？（新手向教程）

不会用数据和AI，今天再牛的投资人也没有未来

2022广东省各地市GDP数据出炉！这项增速，惠州全省第一！

20万个细胞图像的数据库产生了新的数学框架探索人类

安卓版谷歌Chrome浏览器即将允许删除过去15分钟的浏览

数据不说谎：传播能力最强的XBB1.5，致死力可能跟我们想的