Hive数据去重的两种方式?(distinct和group?by)

 更新时间:2023年01月03日 09:50:17   作者:zzhangyuhang  
数据库中表存在重复数据,需要清理重复数据,下面这篇文章主要给大家介绍了关于Hive数据去重的两种方式,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
(福利推荐:【腾讯云】服务器最新限时优惠活动,云服务器1核2G仅99元/年、2核4G仅768元/3年,立即抢购>>>:9i0i.cn/qcloud

(福利推荐:你还在原价购买阿里云服务器?现在阿里云0.8折限时抢购活动来啦!4核8G企业云服务器仅2998元/3年,立即抢购>>>:9i0i.cn/aliyun

实现数据去重有两种方式 :distinct 和 group by

1.distinct消除重复行

distinct支持单列、多列的去重方式。

单列去重的方式简明易懂,即相同值只保留1个。

多列的去重则是根据指定的去重的列信息来进行,即只有所有指定的列信息都相同,才会被认为是重复的信息。

(1)作用于单列

  select distinct name from A    //对A表的name去重然后显示

(2)作用于多列

  select distinct id,name from A   //对A表的id和name去重然后显示

注意,distinct作用于多列的时候只在开头加上即可,并不用每个字段都加上。

     distinct必须在开头,在中间是不可以的,会报错。

  select id,distinct name from A   //错误

(3)配合count使用

  select count(distinct name) from A  //对A表的不同的name进行计数

2.group by 分组语句

    select name from A group by name   //跟上述等价,对name分组,相当于去重。

    在使用group by的时候,前边一般会有聚合语句,例如sum,一些没有聚合的字段必须要加到group by 后边。

   select a,sum(b) from A group by a   //后边必须要有a,否则报错  

3.区别

 其实二者没有什么可比性,但是对于不包含聚集函数的GROUP BY操作来说,和DISTINCT操作是等价的。不过虽然二者的结果是一样的,但是二者的执行计划并不相同。

 distinct只是将重复的行从结果中出去; 

 group by是按指定的列分组,一般这时在select中会用到聚合函数。

 distinct是把不同的记录显示出来。 

 group by是在查询时先把纪录按照类别分出来再查询。

 group by 必须在查询结果中包含一个聚集函数,而distinct不用。

总结

到此这篇关于Hive数据去重的两种方式的文章就介绍到这了,更多相关Hive数据去重内容请搜索程序员之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持程序员之家!

您可能感兴趣的文章:

相关文章

  • 大数据时代的数据库选择:SQL还是NoSQL?

    大数据时代的数据库选择:SQL还是NoSQL?

    执行大数据项目的企业面对的关键决策之一是使用哪个数据库,SQL还是NoSQL?SQL有着骄人的业绩,庞大的安装基础;而NoSQL正在获得可观的收益,且有很多支持者。我们来看看两位专家对这个问题的看法
    2014-03-03
  • 200行代码轻松实现一个简单的区块链

    200行代码轻松实现一个简单的区块链

    这篇文章主要为大家详细介绍了200行代码轻松实现一个简单的区块链,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-01-01
  • 关于hive中SQL的执行原理解析

    关于hive中SQL的执行原理解析

    这篇文章主要介绍了关于hive中SQL的执行原理解析,Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能,需要的朋友可以参考下
    2023-07-07
  • Sql Server 和 Access 操作数据库结构Sql语句小结

    Sql Server 和 Access 操作数据库结构Sql语句小结

    Sql Server 和 Access 操作数据库结构Sql语句小结...
    2007-06-06
  • mssql注入躲避IDS的方法

    mssql注入躲避IDS的方法

    可能这个技巧早有人已经会了,就是利用openrowset发送本地命令。通常我们的用法是(包括MSDN的列子)
    2008-06-06
  • 存储过程返回数组对象示例代码

    存储过程返回数组对象示例代码

    存储过程返回数组对象其实就相当于返回List里面放的对象数据,下面与大家分享是例子,感兴趣的朋友可以学习下
    2013-07-07
  • 一个提升PostgreSQL性能的小技巧

    一个提升PostgreSQL性能的小技巧

    这篇文章主要介绍了一个提升Postgres性能的小技巧,通过修改很少的代码来优化查询,需要的朋友可以参考下
    2015-04-04
  • pentaho工具将数据库数据导入导出为Excel图文步骤

    pentaho工具将数据库数据导入导出为Excel图文步骤

    本篇博客讲述的是如何使用pentaho工具快速的将数据库数据导出为Excel文件,以及如何将Excel文件数据导入数据库,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步早日升职加薪
    2022-03-03
  • 将sqlite3中数据导入到mysql中的实战教程

    将sqlite3中数据导入到mysql中的实战教程

    最近因为工作的需求,需要将sqlite3中的数据导入到mysql中去,发现网上的一些教程都不够详细,索性自己写一篇,下面这篇文章主要给大家介绍了关于将sqlite3数据库中的数据导入到mysql数据库中的相关资料,需要的朋友可以参考下。
    2017-07-07
  • 一条慢SQL导致购物车服务无法使用的解决方案

    一条慢SQL导致购物车服务无法使用的解决方案

    今天小编就为大家分享一篇关于一条慢SQL导致购物车服务无法使用的解决方案,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧
    2018-12-12

最新评论

?


http://www.vxiaotou.com