Apache Hive 数据仓库软件有助于查询和管理位于分布式存储中的大型数据集。对于 ETL 而言,Hive 是一个强大的工具,而对于 Hadoop,它既是数据仓库,也是 Hadoop 的数据库。不过,相对于传统的数据库,它是相对缓慢的。它没有提供所有的 SQL 特性,甚至没有提供与传统的数据库相同的数据库特性。但它支持 SQL,它的确像一个数据库那样工作,它让更多的人(即使那些不是程序员的人)可以获得 Hadoop 技术。它提供了一种将非结构化和半结构化数据转化为基于模式的可用数据的方法。要建立一个主数据管理系统?您可以利用 Hive。要建立一个数据仓库?您也可以利用 Hive,但您需要学习一些技巧,使 Hive 成为一个强大的 ETL 工具。
相对于 Apache Pig 和 MapReduce,Hive 让传统的 RDBMS 数据库开发人员或了解 SQL 的其他人可以更容易访问和转换 Hadoop 中的数据。然而,Pig 不太容易理解,对于那些没有软件开发背景的人来说道,学习曲线是陡峭的。MapReduce 是 Java™、C ++ 和 Python 程序员可以相对迅速学会的技术。但是,如果没有一项技术(如 Java)基础,几乎不可能学会 MapReduce。因此,如果您知道 SQL,那么学习和使用 Hive 就会比较容易。
相关推荐
Hive表生成工具,Hive表生成工具Hive表生成工具
hive执行计划可视化工具
hive连接工具waterdrop4.2免认证
apache-hive-1.2.1-bin.tar.gz mysql-connector-java-5.1.6-bin 用于安装Hive并使用MySQL作为元数据库
Hive远程连接工具,SQuirreL SQ Client客户端工具;以及远程连接Hive所需要的所有jar包,很全面
1 Hive 概念与连接使用: 2 2 Hive支持的数据类型: 2 2.1原子数据类型: 2 2.2复杂数据类型: 2 2.3 Hive类型转换: 3 3 Hive创建/删除数据库 3 3.1创建数据库: 3 3.2 删除数据库: 3 4 Hive 表相关语句 3 4.1 Hive ...
HIVE可视化工具DbVisualizer12.1.1的安装配置与使用文档
一、Hive的概述; 二、Hive的体系架构; 三、探讨Hadoop全家(生态圈); 四、Hive与传统数据库相比; 五、Hive的数据模型(自主学习); 六、搭建Haoop 2.7.6结合hive2.3.3实现数据仓库管理;
个人认为DBeaver还是很强大,很好用的,它支持多种数据库的连接。该资源为DBeaver连接hive的jar包驱动,只要hive配置文件已配置完成,编辑添加此驱动,即可成功连接...通过界面工具查看分析hive里的数据要方便的多哦!
使用beeline工具连接Hive
hive sql 解析工具类,传入sql(支持多段sql,以";"隔开),返回map 获取表get("tables")获取sql语句 get("sqls")
// 测试用例如下 // 设置元数据服务 Delegate.getDelegate().setMetaColumnService(new IMetaColumnService() { @Override public List<String> queryMetaColumn(String dbName, String tableName) { ...
Spark不能使用hive自定义函数
对数据仓库工具Hive进行基本介绍和认识,通过Hive进行数据建模
使用hive3.1.2和spark3.0.0配置hive on spark的时候,发现官方下载的hive3.1.2和spark3.0.0不兼容,hive3.1.2对应的版本是spark2.3.0,而spark3.0.0对应的hadoop版本是hadoop2.6或hadoop2.7。 所以,如果想要使用高...
IDEA工具 连接CDH集群里面的hive组件 亲自测试通过 可以连接使用
使用dbeaver或者其他数据库管理工具连接hive时使用到的驱动
大数据工具之HIVE外键及多表关联的介绍.zip
hive hive hive hive hive hive hive hive hive hive hive hive