博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
.NET for Apache Spark 1.0 版本发布
阅读量:4034 次
发布时间:2019-05-24

本文共 1375 字,大约阅读时间需要 4 分钟。

.NET for Apache Spark 1.0 现已发布,这是一个用于 Spark 大数据的 .NET 框架,可以让 .NET 开发者轻松地使用 Apache Spark。

该软件包由微软和 .NET Foundation 牵头,经过大约两年的开发。在 2019 年的 Spark + AI 峰会上,微软曾宣布推出 .NET for Apache Spark,并发布了首个预览版本 v0.1.0。

1.0 版本包括以下内容:

  • 支持面向 .NET Standard 2.0 的 .NET 应用程序(建议使用 .NET Core 3.1 或更高版本)。

  • 支持 Apache Spark 2.4/3.0 DataFrame API,包括编写 Spark SQL 的功能。例如:

var spark = SparkSession.Builder().GetOrCreate();var tweets = spark.Read().Schema("date STRING, time STRING, author STRING, tweet STRING").Format("csv").Load(inputfile);tweets = tweets.GroupBy(Lower(Col("author")).As("author"))               .Agg(Count("tweet").As("tweetcount"))               .OrderBy(Desc("tweetcount"));tweets.Write().SaveAsTable("tweetcount");spark.Sql(@"SELECT * FROM tweetcount").show();
  • 能够使用 .NET 用户自定义函数(UDF)编 写Apache Spark 应用程序。例如:

// Define and register UDFvar concat = Udf
((age, name)=>name+age);// Use UDFdf.Filter(df["age"] > 21).Select(concat(df["age"], df["name"]).Show();
  • 提供 API 扩展框架以添加对其他 Spark 库的支持。当前包括对 Linux foundation Delta Lake、Microsoft OSS Hyperspace、ML.NET、以及对 Apache Spark’s MLLib functionality 的支持。

  • 在 Spark 运行时和 .NET UDFs 之间移动数据的性能工作和改进 pickling interop 以及对 Apache Arrow 的支持。

  • 竞争优势:没有使用 UDF 的 .NET for Apache Spark 程序与基于 Scala 和 PySpark 的非 UDF Spark 应用程序显示出相同的速度。如果应用程序包含UDF,.NET for Apache Spark 程序的速度至少和 PySpark 程序一样快,一般来说更快。 

下载地址:https://www.nuget.org/packages/Microsoft.Spark

转载地址:http://rskdi.baihongyu.com/

你可能感兴趣的文章
/etc/resolv.conf
查看>>
container_of()传入结构体中的成员,返回该结构体的首地址
查看>>
linux sfdisk partition
查看>>
ipconfig,ifconfig,iwconfig
查看>>
opensuse12.2 PL2303 minicom
查看>>
电平触发方式和边沿触发的区别
查看>>
网络视频服务器移植
查看>>
Encoding Schemes
查看>>
移植QT
查看>>
如此调用
查看>>
计算机的发展史
查看>>
带WiringPi库的交叉编译如何处理一
查看>>
带WiringPi库的交叉笔译如何处理二之软链接概念
查看>>
Spring事务的七种传播行为
查看>>
ES写入找不到主节点问题排查
查看>>
Java8 HashMap集合解析
查看>>
ArrayList集合解析
查看>>
欢迎使用CSDN-markdown编辑器
查看>>
Android计算器实现源码分析
查看>>
Android系统构架
查看>>