该用Python还是SQL?4个案例教你节省时间
admin
2023-01-21 08:40:03
0

在数据分析行业,对数据提出的每一个问题都可以用多种潜在的语言和工具包来回答。每种语言都有其优势,它们之间也存在着不同的区别。不能否认的是,有些操作用Python执行起来要比SQL更加高效。这篇文章分享了4个能够节省时间的案例,在这几个案例中,Python在探索和分析数据集方面远远优于SQL。

描述性统计

假设你正在探索新的数据集,可以使用许多不同的方法来统计描述这些数据,并得到总体感知。例如:

· 计数

· 平均值

· 标准偏差

· 最小值

· 第一四分位数

· 第二四分位数(中位数)

· 第三四分位数

· 最大值

要想在SQL中得到以上信息,你需要输入:


该用Python还是SQL?4个案例教你节省时间

但也许你并不想输入以上所有代码。你可以使用pandas的DataFrame.describe()函数来得出基础数据集的基本描述性统计信息。

datasets['Python Input'].describe().round(1)

查看此报告并仿照该报告自行探索描述性统计。

移动平均值

假设你现在想计算移动平均值,以便于在输入不断变化的情况下得到其明确的平均值。移动平均值有助于消除数据骤降和峰值的影响,从而使长期趋势更加显而易见。

在SQL中,你可以输入这样的查询(query):


该用Python还是SQL?4个案例教你节省时间

在Python中,只需以下代码便可快速得到相同的两周移动平均值:


该用Python还是SQL?4个案例教你节省时间

另外,Python能够进一步实现可视化。

枢轴

要想重新排列数据与枢轴以绘制图表或是演示文稿格式,在SQL中需要几个步骤才能实现。在这个案例中,需要将Mode Public Warehouse中大学橄榄球运动员的数据集从行枢轴转换到列枢轴。

首先,要汇总每年、每场比赛的运动员的信息来准备数据。


该用Python还是SQL?4个案例教你节省时间

转换数据之后,需要将查询(query)嵌入子查询(subquery)中。


该用Python还是SQL?4个案例教你节省时间

接下来,如果你想将结果按照年份分成几列,可以用SELECT语句为每个项单独创建列。


该用Python还是SQL?4个案例教你节省时间

虽然这能使你很好地控制查询和进程,但是用Python操作实则要更加轻松。当你从年份和比赛中SELECT大学橄榄球运动员后,可以跳转到Notebook并运行DataFrame.pivot。你能根据列值重塑数据,因而可以重新排列结果集。

DataFrame.pivot

自连接

在很多情况下,你可能想要将一个表与其自身连接起来。要想创建自连接(self join),需要先输入此查询,以便为同一张表创建不同的引用名称。


该用Python还是SQL?4个案例教你节省时间

在pandas中,我们可以这样实现:


该用Python还是SQL?4个案例教你节省时间

想自己尝试建立自连接吗?仿照这篇报告来撰写你的个人Mode报告吧!


相关内容

热门资讯

【第一财经】“新道游拼三张.怎... 有 亲,根据资深记者爆料新道游拼三张是可以开挂的,确实有挂(咨询软件无需...
终于了解“微乐四川麻将.辅助开... 您好:微乐四川麻将这款游戏可以开挂,确实是有挂的,需要了解加客服微信【4282891】很多玩家在这款...
【第一资讯】“同城游跑胡子.怎... 【第一资讯】“同城游跑胡子.怎么开挂?”详细开挂教程您好,同城游跑胡子这个游戏其实有挂的,确实是有挂...
今日重磅消息“金满地.可以开挂... 今日重磅消息“金满地.可以开挂吗?”原来真的有挂您好,金满地这个游戏其实有挂的,确实是有挂的,需要了...
【今日要闻】“衣兆丰悦.可以开... 有 亲,根据资深记者爆料衣兆丰悦是可以开挂的,确实有挂(咨询软件无需打开...
今日重磅消息“酉阳大贰.究竟有... 有 亲,根据资深记者爆料酉阳大贰是可以开挂的,确实有挂(咨询软件无需打开...
今日重大通报“三鑫联盟.开挂器... 有 亲,根据资深记者爆料三鑫联盟是可以开挂的,确实有挂(咨询软件无需打开...
今日重大发现“数独大赛.到底是... 有 亲,根据资深记者爆料数独大赛是可以开挂的,确实有挂(咨询软件无需打开...
【今日要闻】“掌中乐游戏中心.... 【今日要闻】“掌中乐游戏中心.是不是有挂?”透视曝光猫腻您好,掌中乐游戏中心这个游戏其实有挂的,确实...
今日重大消息“新大圣牛牛.辅助... 您好:新大圣牛牛这款游戏可以开挂,确实是有挂的,需要了解加客服微信【4282891】很多玩家在这款游...