admin

SSIS在实木复合地板文件中将源Oledb数据发送到S3存储桶

sql

我的来源是SQL Server,我正在使用SSIS将数据导出到S3存储桶,但是现在我的要求是将文件发送为镶木地板文件格式。

你们能提供一些有关如何实现这一目标的线索吗?

谢谢,文


阅读 76

收藏
2021-07-01

共1个答案

admin

对于绊倒这个答案的人们来说,Apache
Parquet
是一个项目,它指定Hadoop和其他Apache项目采用的列式文件格式。

除非找到自定义组件或编写一些.NET代码来执行此操作,否则您将无法将数据从SQL
Server导出到Parquet文件中。金斯威软件(KingswaySoft)的SSIS大数据组件可能提供一种这样的自定义组件,但是我并不熟悉。

如果要导出到Azure,则有两种选择:

  1. 使用灵活文件目标组件(Azure功能包的一部分),该组件可导出到Azure Blob或Data Lake Gen2存储中托管的Parquet文件。

  2. 利用PolyBase,一种SQL Server功能。它使您可以通过外部表功能将其导出到Parquet文件。但是,该文件必须托管在此处提到的位置。不幸的是,S3不是一个选择。

如果是我,我会将数据作为CSV文件移动到S3,然后使用Athena将CSV文件转换为Pqrquet。这里有一篇很漂亮的文章,讲述了雅典娜的那篇文章:

https://www.cloudforecast.io/blog/Athena-to-transform-CSV-to-
Parquet/

网络,您将需要花一些钱,发挥创意,切换到Azure或在AWS中进行转换。

2021-07-01