educoder-当HBase遇上MapReduce

博主：微风
发布时间：2021 年 04 月 19 日
15771 次浏览
13 条评论
6733字数
分类：大数据

注意，我们首页需要在命令行中启动Hbase(start-hbase.sh)。

不要直接复制，最好手敲一遍哦！可以加深一下印象哈。

第一关: HBase的MapReduce快速入门

package com.processdata;

import java.io.IOException;
import java.util.List;
import java.util.Scanner;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.client.Connection;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.client.Result;
import org.apache.hadoop.hbase.client.Scan;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;
import org.apache.hadoop.hbase.mapreduce.TableMapper;
import org.apache.hadoop.hbase.mapreduce.TableReducer;
import org.apache.hadoop.hbase.util.Bytes;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;
import org.apdplat.word.WordSegmenter;
import org.apdplat.word.segmentation.Word;
import com.util.HBaseUtil;
import com.vdurmont.emoji.EmojiParser;

/**
 * 词频统计
 *
 */
public class WorldCountMapReduce extends Configured implements Tool {

    private static class MyMapper extends TableMapper<Text, IntWritable> {
        private static byte[] family = "comment_info".getBytes();
        private static byte[] column = "content".getBytes();

        @Override
        protected void map(ImmutableBytesWritable rowKey, Result result, Context context) {
            try {
                byte[] value = result.getValue(family, column);
                String content = new String(value, "utf-8");
                String[] split = content.split(" ");
                for (String str : split) {
                    Text text = new Text(str);
                    IntWritable v = new IntWritable(1);
                    context.write(text, v);
                }
            } catch (Exception e) {
                e.printStackTrace();
            }
        }
    }

    private static class MyReducer extends TableReducer<Text, IntWritable, ImmutableBytesWritable> {
        private static byte[] family = "word_info".getBytes();
        private static byte[] column = "count".getBytes();

        @Override
        public void reduce(Text key, Iterable<IntWritable> values, Context context) {

            int sum = 0;
            for (IntWritable value : values) {
                sum += value.get();
            }
            Put put = new Put(Bytes.toBytes(key.toString()));
            put.addColumn(family, column, Bytes.toBytes(sum));
            try {
                context.write(null, put);
            } catch (IOException e) {
                // TODO Auto-generated catch block
                e.printStackTrace();
            } catch (InterruptedException e) {
                // TODO Auto-generated catch block
                e.printStackTrace();
            }

        }

    }

    @Override
    public int run(String[] args) throws Exception {
        // 配置Job
        /********** Begin *********/
  
        // 创建Conf对象
        Configuration conf = HBaseConfiguration.create(getConf());
  
        String tablename = args[0]; // 表名
        String targetTable = args[1]; // 目标表
  
        // 获取到Job对象
        Job job = Job.getInstance(conf);

        // 创建Scan对象
        Scan scan = new Scan();
  
        // 通过Hbase工具类提交数据
        TableMapReduceUtil.initTableMapperJob(tablename, scan, MyMapper.class, Text.class, IntWritable.class, job);
        TableMapReduceUtil.initTableReducerJob(targetTable, MyReducer.class, job);
  
        // 开始提交数据
        job.waitForCompletion(true);
        return 0;
        /********** End *********/
    }
}

第二关：HBase的MapReduce使用

package com.processdata;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;
import org.apache.hadoop.hbase.mapreduce.TableReducer;
import org.apache.hadoop.hbase.util.Bytes;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.util.Tool;

/**
 * 词频统计
 *
 */
public class WorldCountMapReduce2 extends Configured implements Tool {

    private static class MyMapper extends Mapper<Object, Text, Text, IntWritable> {

        @Override
        public void map(Object object, Text value, Context context) throws IOException, InterruptedException {
            /********** Begin *********/
            // 根据题意,我们需要根据空格对指定数据进行拆分
            String[] split = value.toString().split(" ");
            // 循环数组，对值进行分类
            for (String str : split) {
                Text text = new Text(str.getBytes());
                IntWritable v = new IntWritable(1);
                context.write(text, v);
            }
            /********** End *********/
        }
    }

    private static class MyReducer extends TableReducer<Text, IntWritable, ImmutableBytesWritable> {
        private static byte[] family = "word_info".getBytes();
        private static byte[] column = "count".getBytes();

        @Override
        public void reduce(Text key, Iterable<IntWritable> values, Context context)
                throws IOException, InterruptedException {

            /********** Begin *********/
            int sum = 0; // 用于统计

            // 循环Map中分类的值，进行相加
            for (IntWritable value : values) {
                sum += value.get();
            }

            // 将key和value进行聚和
            Put put = new Put(Bytes.toBytes(key.toString()));
            put.addColumn(family, column, Bytes.toBytes(sum));

            // 通过文件方式将其输出
            context.write(null, put);
            /********** End *********/
        }

    }

    @Override
    public int run(String[] args) throws Exception {
        // 配置Job
        /********** Begin *********/

        // 配置
        Configuration conf = HBaseConfiguration.create(getConf());
        String file = args[0]; // 输入文件
        String targetTable = args[1]; // 输出表
        Job job = Job.getInstance(conf);
        // Map的Key的输入类型
        job.setMapOutputKeyClass(Text.class);
        // Map的Value的输入类型
        job.setMapOutputValueClass(IntWritable.class);
        // 需要执行的MapReduce类
        job.setJarByClass(WorldCountMapReduce2.class);
        // 文件输入格式
        FileInputFormat.addInputPath(job, new Path(file));
        // 设置Mapper类
        job.setMapperClass(MyMapper.class);
        // 开始执行任务
        TableMapReduceUtil.initTableReducerJob(targetTable, MyReducer.class, job);
        job.waitForCompletion(true);
        return 0;
        /********** End *********/
    }
}

最后修改：2021 年 07 月 01 日

如果觉得我的文章对你有用，请随意赞赏

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

评论 *

私密评论

名称 *

🎲

邮箱 *

地址

13 条评论

H0meV 6 Google Chrome 100.0.4896.127 Mac OS X 10.15.7 中国北京
2022 年 04 月 17 日

回复
阿斯嘉德二公主 Google Chrome 86.0.4240.198 Windows 10 中国广东深圳
2021 年 04 月 19 日

一起加油哦

回复
1. 是微风吖 Google Chrome 89.0.4389.128 Mac OS X 11.2.2 中国广东深圳
  2021 年 04 月 19 日
  
  @阿斯嘉德二公主
  
  要得，要得φ(￣∇￣o)
  
  回复
2. 微风 Google Chrome 89.0.4389.128 Mac OS X 11.2.2 中国广东深圳
  2021 年 04 月 19 日
  
  @阿斯嘉德二公主
  
  这是哪个大佬哦，我怎么没看见过这个头像。哈哈
  
  回复
小菜 QQ浏览器 10.7.4313.400 Windows 10 中国广东深圳
2021 年 04 月 19 日

该评论仅登录用户及评论双方可见

回复
1. 微风 2 Google Chrome 89.0.4389.128 Mac OS X 11.2.2 中国广东深圳
  2021 年 04 月 19 日
  
  @小菜
  
  别别别，我可承受不起。
  
  回复
何佳俊 Google Chrome 89.0.4389.128 Windows 10 中国广东深圳
2021 年 04 月 19 日

建议博主增加木马课堂上的作业

回复
1. 微风 Safari 604.1 iPhone 14.4 中国广东深圳
  2021 年 04 月 19 日
  
  @何佳俊
  
  哈哈，建议好好学习哦。
  
  回复
牛白 Google Chrome 88.0.4324.190 Windows 10 中国广东深圳
2021 年 04 月 19 日

谢谢楼主的代码，粘贴复制可快乐了

回复
1. 宋科成 Google Chrome 89.0.4389.82 Windows 10 中国广东深圳
  2021 年 04 月 19 日
  
  @牛白
  
  不知道偷偷复制啊说出来干什么 ୧(๑•̀⌄•́๑)૭
  
  回复
2. 微风 Safari 604.1 iPhone 14.4 中国广东深圳
  2021 年 04 月 19 日
  
  @牛白
  
  不要复制粘贴呀。再这样，我以后就继续用图片了
  
  回复
就这啊 Google Chrome 88.0.4324.190 Windows 10 中国广东深圳
2021 年 04 月 19 日

哇~ 好厉害呀~

回复
1. 微风 Safari 604.1 iPhone 14.4 中国广东深圳
  2021 年 04 月 19 日
  
  @就这啊
  
  低调呀。嘘
  
  回复

今日已经过去小时

这周已经过去天

本月已经过去天

今年已经过去个月

educoder-当HBase遇上MapReduce

微风 • 2021 年 04 月 19 日

<p>注意，我们首页需要在命令行中启动Hbase(<code>start-hbase.sh</code>)。</p><p><strong>不要直接复制，最好手敲一遍哦！可以加深一下印象哈。</strong></p><h2>第一关: HBase的MapReduce快速入门</h2><pre><code class="lang-java">package com.processdata;

import java.io.IOException;
import java.util.List;
import java.util.Scanner;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.client.Connection;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.client.Result;
import org.apache.hadoop.hbase.client.Scan;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;
import org.apache.hadoop.hbase.mapreduce.TableMapper;
import org.apache.hadoop.hbase.mapreduce.TableReducer;
import org.apache.hadoop.hbase.util.Bytes;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;
import org.apdplat.word.WordSegmenter;
import org.apdplat.word.segmentation.Word;
import com.util.HBaseUtil;
import com.vdurmont.emoji.EmojiParser;

/**
 * 词频统计
 *
 */
public class WorldCountMapReduce extends Configured implements Tool {

private static class MyMapper extends TableMapper&lt;Text, IntWritable&gt; {
        private static byte[] family = &quot;comment_info&quot;.getBytes();
        private static byte[] column = &quot;content&quot;.getBytes();

@Override
        protected void map(ImmutableBytesWritable rowKey, Result result, Context context) {
            try {
                byte[] value = result.getValue(family, column);
                String content = new String(value, &quot;utf-8&quot;);
                String[] split = content.split(&quot; &quot;);
                for (String str : split) {
                    Text text = new Text(str);
                    IntWritable v = new IntWritable(1);
                    context.write(text, v);
                }
            } catch (Exception e) {
                e.printStackTrace();
            }
        }
    }

private static class MyReducer extends TableReducer&lt;Text, IntWritable, ImmutableBytesWritable&gt; {
        private static byte[] family = &quot;word_info&quot;.getBytes();
        private static byte[] column = &quot;count&quot;.getBytes();

@Override
        public void reduce(Text key, Iterable&lt;IntWritable&gt; values, Context context) {

int sum = 0;
            for (IntWritable value : values) {
                sum += value.get();
            }
            Put put = new Put(Bytes.toBytes(key.toString()));
            put.addColumn(family, column, Bytes.toBytes(sum));
            try {
                context.write(null, put);
            } catch (IOException e) {
                // TODO Auto-generated catch block
                e.printStackTrace();
            } catch (InterruptedException e) {
                // TODO Auto-generated catch block
                e.printStackTrace();
            }

}

@Override
    public int run(String[] args) throws Exception {
        // 配置Job
        /********** Begin *********/
  
        // 创建Conf对象
        Configuration conf = HBaseConfiguration.create(getConf());
  
        String tablename = args[0]; // 表名
        String targetTable = args[1]; // 目标表
  
        // 获取到Job对象
        Job job = Job.getInstance(conf);

// 创建Scan对象
        Scan scan = new Scan();
  
        // 通过Hbase工具类提交数据
        TableMapReduceUtil.initTableMapperJob(tablename, scan, MyMapper.class, Text.class, IntWritable.class, job);
        TableMapReduceUtil.initTableReducerJob(targetTable, MyReducer.class, job);
  
        // 开始提交数据
        job.waitForCompletion(true);
        return 0;
        /********** End *********/
    }
}</code></pre><hr><h2>第二关：HBase的MapReduce使用</h2><pre><code class="lang-java">package com.processdata;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;
import org.apache.hadoop.hbase.mapreduce.TableReducer;
import org.apache.hadoop.hbase.util.Bytes;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.util.Tool;

/**
 * 词频统计
 *
 */
public class WorldCountMapReduce2 extends Configured implements Tool {

private static class MyMapper extends Mapper&lt;Object, Text, Text, IntWritable&gt; {

@Override
        public void map(Object object, Text value, Context context) throws IOException, InterruptedException {
            /********** Begin *********/
            // 根据题意,我们需要根据空格对指定数据进行拆分
            String[] split = value.toString().split(&quot; &quot;);
            // 循环数组，对值进行分类
            for (String str : split) {
                Text text = new Text(str.getBytes());
                IntWritable v = new IntWritable(1);
                context.write(text, v);
            }
            /********** End *********/
        }
    }

@Override
        public void reduce(Text key, Iterable&lt;IntWritable&gt; values, Context context)
                throws IOException, InterruptedException {

/********** Begin *********/
            int sum = 0; // 用于统计

// 循环Map中分类的值，进行相加
            for (IntWritable value : values) {
                sum += value.get();
            }

// 将key和value进行聚和
            Put put = new Put(Bytes.toBytes(key.toString()));
            put.addColumn(family, column, Bytes.toBytes(sum));

// 通过文件方式将其输出
            context.write(null, put);
            /********** End *********/
        }

}

@Override
    public int run(String[] args) throws Exception {
        // 配置Job
        /********** Begin *********/

// 配置
        Configuration conf = HBaseConfiguration.create(getConf());
        String file = args[0]; // 输入文件
        String targetTable = args[1]; // 输出表
        Job job = Job.getInstance(conf);
        // Map的Key的输入类型
        job.setMapOutputKeyClass(Text.class);
        // Map的Value的输入类型
        job.setMapOutputValueClass(IntWritable.class);
        // 需要执行的MapReduce类
        job.setJarByClass(WorldCountMapReduce2.class);
        // 文件输入格式
        FileInputFormat.addInputPath(job, new Path(file));
        // 设置Mapper类
        job.setMapperClass(MyMapper.class);
        // 开始执行任务
        TableMapReduceUtil.initTableReducerJob(targetTable, MyReducer.class, job);
        job.waitForCompletion(true);
        return 0;
        /********** End *********/
    }
}

</code></pre>

educoder-当HBase遇上MapReduce

第一关: HBase的MapReduce快速入门

第二关：HBase的MapReduce使用

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

13 条评论

educoder-Spark机器学习

educoder-当HBase遇上MapReduce

educoder-集成学习

educoder-Hbase开发批量操作

educoder-Flink SQL基础

2.Vue学习-条件学习[ v-if ]

Mac使用configure时报错解决方法

历史Maven3所有版本

2.虚拟DOM两种创建方式

Redis学习笔记-基本知识说明

educoder-当HBase遇上MapReduce

第一关: HBase的MapReduce快速入门

第二关：HBase的MapReduce使用

发表评论 取消回复 使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

13 条评论

educoder-当HBase遇上MapReduce

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款