数据加载的妙招解析
admin
2023-05-28 20:41:26
0


  大数据中怎么来加载数据呢?数据加载应该注意哪些问题呢?关系型数据库和Impala、Hive加载数据有哪些区别呢?

在了解加载数据之前必须明确一个概念“数据验证”, Impala和Hive与其他关系型数据库不一样,关系型数据库是在写的时候进行校验,比如我们创建一个表,当去给它加载数据的时候,它会去验证数据以及数据类型是不是符合要求,如果不符合,数据就加载不了。

在Hive和Impala中,它在读的时候进行校验。为什么会这样设计呢?主要是为了提升写的速度和加载的效率。那么,这样检验数据会不会出错呢?当然不会,如果你查询不到这个数据,它会以“null”来表达。如果要对查询可靠性进行保证,保证每个数据都能查到和匹配,可以通过其它的工程语言在前端进行一个保证。

一、从HDFS加载数据

(1)为了加载数据,可以简单地添加文件到HDFS的表目录,这个直接使用hdfs dfs命令完成

示例:从HDFS加载数据到sales表

数据加载的妙招解析

(2)使用LOAD DATA INPATH命令,在Hive或者Impala里完成。这个操作将在HDFS内移动数据,就像前面的命令一样,数据源可以是文件或目录。

数据加载的妙招解析

二、覆盖数据

(1)添加OVERWRITE关键字在导入之前删除所有记录。就是在表目录内移除所有文件,然后把新文件移动到那个目录。

数据加载的妙招解析

三、追加选择的记录到表中

(1)通过查询插入数据

1、使用INSERT INTO来添加结果到已存在的Hive表中

数据加载的妙招解析

2、指定WHERE条件来控制哪些记录将被追加

数据加载的妙招解析

四、使用元数据库管理器加载数据

(1)元数据管理器提供了两种方法来加载数据

数据加载的妙招解析

五、从关系型数据库加载数据

Sqoop内嵌支持导入数据到Hive和Impala,可以添加--hive-import选项到Sqoop命令,在Hive元数据库中创建表,从RDBMS导入数据到HDFS表目录。

数据加载的妙招解析

注意--hive-import创建的表在Hive和Impala中都可以访问


有问题,随时来,还有同行共欢聚,大家一起聊!

欢迎关注微信公众号“大数据cn”。

 


上一篇:postgresql数据库基础

下一篇:iptable详解

相关内容

热门资讯

重新定义信号与频谱分析仪:罗德... 全球测试测量专家罗德与施瓦茨(以下简称“R&S”)宣布,将于6月23日举办 “新一代多通道信号与频谱...
美媒:伊朗军方重建速度远超预期 据美国有线电视新闻网(CNN)报道,两名熟悉美国情报评估的消息人士透露,伊朗已在今年4月初开始的六周...
泰国取消60天免签,是想防着谁... 【文/观察者网专栏作者 岳汉】最近,泰国缩短免签这个事,在国内还引起了挺大关注。很多中国朋友都不解:...
170次要变1万次,马斯克“太... 【文/观察者网 王一】美国企业家马斯克为其旗下太空探索技术公司(SpaceX)制定了一个宏大的目标—...
现在是中国军工进入海湾的新契机... 【文/观察者网专栏作者 晨枫】美以伊战事的走向和终局仍扑朔迷离。长期依赖美国保护伞的海湾国家,其“石...
商务部:中美双方应为双向农产品... 新华社北京5月21日电(记者谢希瑶、何晓)商务部新闻发言人何亚东21日在例行新闻发布会上,回答有关中...
红墙藏旧韵,老厂焕新潮|郑州合... 当城市更新的浪潮邂逅珍贵工业遗存,斑驳红砖墙不再只剩岁月沉淀,更悄然生长出潮流时尚与市井烟火。坐落于...
河南继续雨雨雨模式,警惕持续降... 天气回顾昨天(20日)白天到夜里,河南大部雨水暂歇,仅北部和南部地区出现了分散性阵雨、雷阵雨;不过由...
韩国警方:金秀贤“与未成年人交... 据报道,韩国警方一份记录披露,此前韩国著名演员金秀贤“与未成年交往”系不实消息。韩国首尔江南警察厅已...
海关总署发布支持大湾区建设若干... 今天(21日),海关总署举行新闻发布会,就近日出台的《海关支持粤港澳大湾区建设若干措施》进行解读,从...