近日,微软宣布Visual Studio Code支持SQL Server 2019大数据群集PySpark开发和查询。它为Azure Data Studio提供了补充功能,可供数据工程师在数据科学家的数据探索和试验以后编写和生产PySpark做业。Visual Studio Code Apache Spark和Hive扩展使您能够享受跨平台和加强的轻量级Python编辑功能,它涵盖了有关Python编写、调试、Jupyter Notebook集成以及相似于交互式查询的笔记型计算机的场景。编程
经过Visual Studio Code扩展,您能够享受本机Python编程体验,好比linting、调试支持、语言服务等。您能够为PY文件运行当前行、运行选定的代码行或所有运行,能够导入和导出一个.ipynb笔记本,并执行相似于“运行单元格”、“在上方运行”或“在下方运行”的查询笔记本,能够享受像笔记本电脑同样的交互式体验,其中包括您的源代码和标记注释以及运行结果和输出,能够在交互式结果窗口中删除不须要的部分、输入注释或键入其余代码。此外,您还能够经过matplotlib(如Jupyter Notebook)以图形格式可视化结果。 与SQL Server 2019大数据集群的集成使您可以快速向大数据集群提交PySpark批处理做业并监视做业进度。服务器
主要功能亮点ide
一、您能够连接到SQL Server。该工具包使您能够链接PySpark做业并将其提交到SQL Server 2019大数据群集。工具
二、Python编辑。开发具备本地Python创做支持(例如IntelliSense、自动格式、错误检查等)的PySpark应用程序。大数据
三、Jupyter Notebook集成。导入和导出.ipynb文件。spa
四、PySpark交互式。运行选定的代码行,或运行诸如PySpark单元格之类的笔记本,以及交互式可视化。调试
五、PySpark批处理将PySpark应用程序提交到SQL Server 2019大数据群集。orm
六、PySpark监视。与Apache Spark历史记录服务器集成以查看做业历史记录、调试和诊断Spark做业。ip
如何安装或更新开发
首先,安装Visual Studio Code,而后下载适用于Linux或Mac的Mono4.2.x。而后转到Visual Studio Code扩展存储库或Visual Studio Code市场并搜索Spark,获取最新的Apache Spark和Hive工具。