Hive自定义分区器流程

使用Hive自定义分区器，可以解决一些情况下产生的数据倾斜，下边给出自定义分区器流程，可做参考。

1、环境说明

当前环境采用Hadoop3.1.3以及Hive3.1.2版本。

2、自定义类

自定义类实现org.apache.hadoop.mapred.Partitioner(必须为这个,Hive中使用的是老的API)接口，这里只是做测试，所以所有数据我现在全部发送至0号分区，注意分区器中Key和Value类型！！

具体代码实现如下：

package com.wh;


import org.apache.hadoop.hive.ql.io.HiveKey;
import org.apache.hadoop.io.BytesWritable;
import org.apache.hadoop.mapred.JobConf;
import org.apache.hadoop.mapred.Partitioner;


public class MyPartitioner implements Partitioner {


  //实现每条数据的分区逻辑(这里选择将所有数据发送至0号分区)
    @Override
    public int getPartition(HiveKey s, BytesWritable s2, int numPartitions) {
        return 0;
    }


    //读取配置信息的方法
    @Override
    public void configure(JobConf job) {
    }
}

3、打包到集群/opt/hive/lib目录下

将写好的代码打包上传至集群，放置在Hive的安装路径下的lib目录即可

4、在Hive中进行测试

（1）添加jar包

进入Hive的客户端执行以下命令

hive (default)> add jar /opt/hive/lib/partition.jar;

（2）设置Hive中使用自定义分区器

hive (default)> set hive.mapred.partitioner = com.wh.MyPartitioner;

（3）修改Reducer数量

hive (default)> set mapreduce.job.reduces=3;

（4）执行SQL进行测试

测试数据展示：

hive (default)> select empno from emp;OK
empno
7369
7499
7521
7566
7654
7698
7782
7788
7839
7844
7876
7900
7902
7934

使用自定义分区器对empno字段进行分区处理

hive (default)> insert overwrite local directory '/opt/data/distribute-result' select * from emp distribute by deptno sort by empno desc;

（5）查看结果

-rw-r--r--. 1 atguigu atguigu 707 11月  1 13:13 000000_0
-rw-r--r--. 1 atguigu atguigu   0 11月  1 13:13 000001_0
-rw-r--r--. 1 atguigu atguigu   0 11月  1 13:13 000002_0

发现只有0号分区有数据，自定义Hive分区器完成！！！

了解更多内容：

推荐算法！基于隐语义模型的协同过滤推荐之用户商品推荐列表

推荐算法！基于隐语义模型的协同过滤推荐之商品相似度矩阵

任务调度系统的后起之秀——DolphinScheduler（二）

任务调度系统的后起之秀——DolphinScheduler（三）

任务调度系统的后起之秀——DolphinSchedular（一）

展开阅读全文

页面更新：2024-06-11

标签：分区隐语后起之秀矩阵字段集群算法路径客户端模型流程代码环境商品数据系统科技

面向对象基本特征继承

1. 继承的概念一个类从另外一个类继承所有成员, 包括属性和方法, 但是不包括构造器和语句块从现有类创建子类, 现有类就称为父类, 基类, 超类.为描述和处理个人信息，定义类Person:public class Person { public String

面向对象高级特性native关键字

1 native含义native表示本地的意思, 可以修饰方法, 被native修饰的方法没有方法体, 所谓本地就是代码是和当前操作系统密切相关的. 方法没有java代码的方法体, 但是一定是使用了C/C++等编写成的, 并且封装在操作系统

面向对象高级特性final关键字

final关键字的含义1. final的作用在Java中声明类、属性和方法时，可使用关键字final来修饰,表示“最终”。final标记的类不能被继承。提高安全性，提高程序的可读性。比如：String类、System类、StringBuffer类final标记的

super关键字

super关键字含义1. super关键字作用：在Java类中使用super来调用父类中的指定操作：super可用于访问父类中定义的属性super可用于调用父类中定义的成员方法super可用于在子类构造方法中调用父类的构造器注意：尤其当子父类

面向对象高级特性Object类

Object类的特点Object类是所有类的根父类, 也就是说如果一个类没有显式声明父类, 那么这个类的父类就是Object类, 所以, Object类中的属性和方法会被所有类继承, 都可以直接调用.类中的典型方法1. toString()public

AngularJS四大特征

AngularJS的设计思想与jquery完全不同,前者操作的是变量$scope $http,后者操作的DOM1, MVC 模式Angular遵循软件工程的M(数据)V(视图)C(控制器)模式,并鼓励展现，数据，和逻辑组件之间的松耦合.通过依赖注入（dependency in

任务调度系统的后起之秀——DolphinScheduler（三）

Apache DolphinScheduler是一个分布式去中心化，易扩展的可视化DAG工作流任务调度系统。致力于解决数据处理流程中错综复杂的依赖关系，使调度系统在数据处理流程中开箱即用。SQL节点测试sql节点，简单做个测试创建一张表并

安装docker全步骤

1. 安装Docker我们可以在Centos或者Ubuntu下安装docker，要注意的是，centos6对docker支持得不好，使用docker建议升级到centos7。docker官方建议使用Ubuntu系统，兼容性更好一些。所以，我们使用Ubuntu系统来学习docker。Ubunt

秋招谈薪怎么谈？Get三个关键点，谈出一个好薪情

千里做工只为求财，一番你来我往的面试博弈之后，就到了图穷匕见的谈薪环节，接下来能发生点故事，还是会演变成事故，成败在此一举。本文为你剖析谈薪的三个关键点：定价、报价、砍价。一、随行就市的定价大学生谈薪常犯的错误：生

推荐算法！基于隐语义模型的协同过滤推荐之商品相似度矩阵

项目采用ALS作为协同过滤算法，根据MongoDB中的用户评分表计算离线的用户商品推荐列表以及商品相似度矩阵。通过ALS计算商品相似度矩阵，该矩阵用于查询当前商品的相似商品并为实时推荐系统服务。离线计算的ALS 算法，算法

java技术Docker容器

1、介绍容器是Docker的另一个核心概念。简单地说，容器是镜像的一个运行实例，所不同的是，它带有额外的可写文件层。如果认为虚拟机是模拟运行的一整套操作系统(提供了运行态环境和其他系统外境)和跑在上面的应用。那么Doc

玩转java技术Docker镜像

1、介绍2、获取镜像获取镜像通过命令，docker pull 完成：案例：获取Redis 3.0.0的镜像。第一步，需要到远程的仓库进行搜索：https://hub.docker.com/点击查看详情，查看tag：找到我们想要的3.0.0，最新的tag可以用latest标识：执行命

前端面试高频点之闭包

前言对于前端开发工程师来讲，闭包是一个很难弄懂而且十分难征服的一个概念！因为闭包的生成不仅仅与变量的作用域相关而且与变[1] 量的生命周期也有着密切的关系。最后我可以肯定地告诉你，闭包在实际开发的过程中应用十分

面向对象高级特性static关键字

static关键字含义1. 为什么要使用static有一些数据不必要隶属于每个对象, 例如Chinese类的country属性就应该是China,并且所有对象都应该是相同的, 这样的数据就可以声明成static的, 这样的数据就隶属于类, 通过类就

任务调度系统的后起之秀——DolphinScheduler（二）

Apache DolphinScheduler是一个分布式去中心化，易扩展的可视化DAG工作流任务调度系统。致力于解决数据处理流程中错综复杂的依赖关系，使调度系统在数据处理流程中开箱即用。一、快速上手1、使用admin用户登录，密码是doph

上滑加载更多 ↓

推荐阅读：

任务调度系统的后起之秀——DolphinScheduler（三）

推荐算法！基于隐语义模型的协同过滤推荐之商品相似度矩

任务调度系统的后起之秀——DolphinScheduler（二）

面向对象高级特性代码块

尚硅谷大数据教程监控告警系统发布

简单好用DataV——快速搭建数据可视化页面

闻泰科技进入半导体设备领域，成立独立半导体设备公司IT

大基金、中微公司加持！国内唯一PECVD供应商：拓荆科技成

安路科技科创板IPO获通过：FPGA年出货突破两千万颗，国内

OPPO首款自研芯片曝光：携手翱捷科技打造，与小米澎湃C1类

友情链接：

更多：

本站资料均由网友自行发布提供，仅用于学习交流。如有版权问题，请与我联系，QQ：4156828

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top