解压parquet格式文件到text - - ITeye博客

`

x10232

浏览: 55541 次
来自: 北京

最近访客更多访客>>

grylls

suixiang2017

chengzhang2017

商人shang

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

x10232： 3+3+4+4
impala学习总结
x10232：一个房子里有椅子，椅子有腿和背，房子与椅子是什么关系，椅子与腿 ...
关联、组合、聚合、依赖关系比较

解压parquet格式文件到text

博客分类：

parquet

阅读更多

方法一：spark python实现

import sys
from pyspark import SparkConf, SparkContext
from pyspark.sql import SQLContext

inputpath=sys.argv[1]
outputpath=sys.argv[2]
sc = SparkContext(appName="Transform Pq to Csv")
sqlContext = SQLContext(sc)
df = sqlContext.read.parquet(inputpath)
df.select('*').save(outputpath,"com.databricks.spark.csv",delimiter='\001')

run：spark-submit --packages com.databricks:spark-csv_2.10:1.2.0 --master yarn-client read_pq.py /tmp/xing/20161115/1049 /tmp/xing/20161115/text/1049

方法二：如果是parquet表里的数据，可以通过hql查询得到数据

insert overwrite (local) inpath outputpath

select * from table1_parquet;

分享到：

数据存储text转parquet及引发的OOM问题 | Hive中小表与大表关联(join)的性能分析

2016-11-15 13:30
浏览 3243
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

datax支持读取parquet格式文件，支持写入parquet格式文件，修复读取orc读取数据丢失问题: 新增支持读取parquet格式文件，支持写入parquet格式文件，修复读取orc读取数据丢失问题，重新打包后的jar文件。

datax hdfswriter改造，支持写入parquet格式文件: datax hdfswriter改造，支持写入parquet格式文件

无需python查看parquet文件: 无需ppython查看parquet文件内容。源码下载地址： https://github.com/apache/parquet-mr 编译： cd parquet-tools && mvn clean package -Plocal 使用方式：（1）查看schema java -jar parquet-tools-1.8.2.jar ...

C++ 读写 parquet 文件 Demo: 项目使用vs2015，使用的git上的三方开源框架，进行了裁剪，基于C++创建，读写parquet文件。

sqoop从mysql中导入数据到parquet格式的hive中: sqoop导入数据到hive

FlinkParquet:使用Parquet文件格式（使用Avro）通过Apache Flink处理数据: *.avsc ）进行了任何更改，则应重新生成模型类 ./compile_schemas.sh###步骤1：将CSV数据文件转换为木地板格式以下命令将resources/下的CSV文件转换为Parquet格式并将其写入/tmp/business ， /tmp/violations和/tmp/...

使用pyspark将csv文件转为parquet文件: 使用spark将csv文件转为parquet文件

parquet-tools.jar: 查看parquet文件工具使用方式：java -jar xxx.jar usage: parquet-tools cat [option...] where option is one of: --debug Enable debug output -h,--help Show this help string -j,--json Show records in ...

Python-fastparquet是parquet格式的python实现旨在集成到基于python的大数据工作流: fastparquet是parquet格式的python实现，旨在集成到基于python的大数据工作流

21、MapReduce读写SequenceFile、MapFile、ORCFile和ParquetFile文件: 21、MapReduce读写SequenceFile、MapFile、ORCFile和ParquetFile文件网址：https://blog.csdn.net/chenwewi520feng/article/details/130455817 本文介绍使用MapReduce读写文件，包括：读写SequenceFile、MapFile、...

1、通过亿级数据量在hive和impala中查询比较text、orc和parquet性能表现（一）: 本文通过在hdfs中三种不同数据格式文件存储相同数量的数据，通过hive和impala两种客户端查询进行比较。本文前提：熟悉hadoop、hive和impala、kafka、flink等，并且其环境都可正常使用。（在后续的专栏中都会将对应...

parquet-tools-1.6.0rc3-SNAPSHOT.jar: 查看hive中parquet格式文件的工具包,

1、通过亿级数据量在hive和impala中查询比较text、orc和parquet性能表现（二）: 本文通过在hdfs中三种不同数据格式文件存储相同数量的数据，通过hive和impala两种客户端查询进行比较。本文前提：熟悉hadoop、hive和impala、kafka、flink等，并且其环境都可正常使用。（在后续的专栏中都会将对应...

datax hdfsreader修改，支持 hive Parquet格式,支持读取hive Long,Int类型: datax hdfsreader修改，支持 hive Parquet格式,支持读取hive Long,Int类型

Parquet.jl：Parquet柱状文件格式阅读器的Julia实现: Parquet.jl：Parquet柱状文件格式阅读器的Julia实现

parquetjs:Parquet文件格式的完全异步，纯JavaScript实现: Parquet文件格式的完全异步，纯node.js实现该软件包包含文件格式的完全异步纯JavaScript实现。该实现符合，并经过测试与Apache的Java兼容。什么是实木复合地板？：Parquet是一种面向列的文件格式；它使您...

parquet-go:纯golang库，用于读写镶木地板文件: parquet-go是读写Parquet格式文件的纯粹的实现。支持读/写嵌套/平面拼花文件使用简单高性能安装将parquet-go库添加到$ GOPATH / src并安装依赖项： go get github.com/xitongsys/parquet-go 例子 example/...

parquet-tools,查看hdfs中parquet文件: parquet-tools,查看hdfs中parquet文件

python读取hdfs上的parquet文件方式: 从hdfs上使用python获取parquet格式数据的方法(当然也可以先把文件拉到本地再读取也可以)： 1、安装anaconda环境。 2、安装hdfs3。 conda install hdfs3 3、安装fastparquet。 conda install fastparquet 4、...

parquet-format-2.3.1-API文档-中英对照版.zip: 赠送Maven依赖信息文件：parquet-format-2.3.1.pom；包含翻译后的API文档：parquet-format-2.3.1-javadoc-API文档-中文(简体)-英语-对照版.zip； Maven坐标：org.apache.parquet:parquet-format:2.3.1；标签：...

Global site tag (gtag.js) - Google Analytics