利用Seaborn实现高级统计图表—python可视化

👽发现宝藏

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。【点击进入巨牛的人工智能学习网站】。

利用 Seaborn 实现高级统计图表

在数据可视化领域,Seaborn 是 Python 中一个备受欢迎的库。它建立在 Matplotlib 之上,提供了一种更简单的方式来创建漂亮的统计图表。Seaborn 不仅可以绘制常见的统计图表,还支持许多高级功能,如分布图、热图、聚类图等。本文将介绍如何利用 Seaborn 实现一些高级统计图表,并附上代码实例。

安装 Seaborn

首先,确保你已经安装了 Seaborn。如果没有,可以通过 pip 安装:

pip install seaborn

导入 Seaborn 和其他必要的库

在开始之前,让我们先导入 Seaborn 和其他需要的库:

import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np

1. 分布图

分布图是显示单变量分布情况的有效方式。Seaborn 提供了多种方式来绘制分布图,其中之一是 displot 函数。让我们通过一个例子来演示如何绘制一个正态分布的直方图和密度图:

data = np.random.normal(loc=0, scale=1, size=1000)
sns.displot(data, kind="hist", kde=True)
plt.title("Normal Distribution")
plt.show()

2. 热图

热图是一种用颜色编码矩阵数值的图表类型,通常用于显示相关性矩阵或者二维数据集。Seaborn 中的 heatmap 函数可以轻松地创建热图。下面是一个简单的示例,展示了一个相关性矩阵的热图:

data = np.random.rand(10, 10)
sns.heatmap(data, annot=True, cmap="YlGnBu")
plt.title("Correlation Heatmap")
plt.show()

3. 聚类图

聚类图是一种将数据点按照它们的相似性分组的图表类型。Seaborn 中的 clustermap 函数可以帮助我们创建聚类图。下面是一个简单的例子,展示了如何绘制一个聚类图:

data = np.random.rand(10, 10)
sns.clustermap(data, cmap="viridis")
plt.title("Cluster Map")
plt.show()

4. 箱线图和小提琴图

箱线图和小提琴图都是用于展示数据分布的有效方式。箱线图显示了数据的中位数、上下四分位数和异常值,而小提琴图则以核密度估计为基础,展示了数据的分布情况。Seaborn 提供了 boxplotviolinplot 函数来绘制这两种图表。以下是一个比较箱线图和小提琴图的示例:

# 创建示例数据
data = np.random.normal(loc=0, scale=1, size=100)

# 绘制箱线图
sns.boxplot(data=data, color='skyblue')
plt.title("Box Plot")
plt.show()

# 绘制小提琴图
sns.violinplot(data=data, color='lightgreen')
plt.title("Violin Plot")
plt.show()

5. 联合分布图

联合分布图用于可视化两个变量之间的关系,并显示它们的单变量分布情况。Seaborn 提供了 jointplot 函数来创建联合分布图,支持不同的绘图风格,如散点图、核密度估计图等。以下是一个简单的例子:

# 创建示例数据
x = np.random.normal(loc=0, scale=1, size=1000)
y = np.random.normal(loc=0, scale=1, size=1000)

# 绘制联合分布图
sns.jointplot(x=x, y=y, kind='hex', color='purple')
plt.title("Joint Distribution Plot")
plt.show()

6. 点图

点图用于显示一个分类变量对另一个连续变量的影响,通常用于比较不同组之间的差异。Seaborn 中的 pointplot 函数可以帮助我们绘制点图。以下是一个简单的示例,展示了不同性别在某个连续变量上的差异:

# 创建示例数据
import pandas as pd
data = pd.DataFrame({
    'Gender': ['Male', 'Male', 'Female', 'Female'],
    'Value': [10, 15, 12, 17]
})

# 绘制点图
sns.pointplot(x='Gender', y='Value', data=data, ci=None, color='orange')
plt.title("Point Plot")
plt.show()

7. 多变量分布图

多变量分布图用于同时可视化多个变量之间的关系,可以帮助我们发现变量之间的复杂关系和模式。Seaborn 中的 pairplot 函数是一个强大的工具,可以绘制数据集中所有变量两两之间的关系。以下是一个简单的例子:

# 创建示例数据集
import pandas as pd
data = pd.DataFrame({
    'A': np.random.randn(100),
    'B': np.random.randn(100),
    'C': np.random.randn(100)
})

# 绘制多变量分布图
sns.pairplot(data)
plt.suptitle("Pair Plot")
plt.show()

8. 线性关系图

线性关系图用于可视化两个变量之间的线性关系,并可以帮助我们观察到它们之间的趋势和相关性。Seaborn 中的 lmplot 函数可以绘制线性关系图,并且支持拟合线性回归模型。以下是一个简单的示例:

# 创建示例数据
x = np.random.randn(100)
y = 2 * x + np.random.randn(100)

# 绘制线性关系图
sns.lmplot(x='x', y='y', data=pd.DataFrame({'x': x, 'y': y}), scatter_kws={'color': 'blue'}, line_kws={'color': 'red'})
plt.title("Linear Relationship Plot")
plt.show()

9. 树地图

树地图是一种用于可视化层次结构数据的图表类型,它通过矩形的面积来表示不同层次的数据量。Seaborn 中没有直接支持树地图的函数,但我们可以使用 Matplotlib 来绘制。以下是一个简单的示例:

import matplotlib.pyplot as plt
import squarify    # pip install squarify

# 创建示例数据
sizes = [15, 30, 45, 10]
labels = ['A', 'B', 'C', 'D']

# 绘制树地图
plt.figure(figsize=(6, 6))
squarify.plot(sizes=sizes, label=labels, color=['red', 'green', 'blue', 'yellow'], alpha=0.7)
plt.title("Tree Map")
plt.axis('off')
plt.show()

10. 时间序列图

时间序列图是一种用于显示时间序列数据的图表类型,通常用于观察数据随时间变化的趋势和周期性。Seaborn 中的 lineplot 函数可以用于绘制时间序列图。以下是一个简单的示例:

# 创建示例时间序列数据
import pandas as pd

dates = pd.date_range(start='2024-01-01', end='2024-01-10')
values = np.random.randn(len(dates))

# 将数据转换为 DataFrame
data = pd.DataFrame({'Date': dates, 'Value': values})

# 绘制时间序列图
sns.lineplot(x='Date', y='Value', data=data, marker='o', color='green')
plt.title("Time Series Plot")
plt.xticks(rotation=45)  # 旋转 x 轴标签
plt.show()

11. 分面绘图

分面绘图是一种用于同时可视化多个子数据集的图表类型,通常用于比较不同类别或条件下的数据分布和关系。Seaborn 中的 FacetGrid 类可以用于创建分面绘图,支持按照不同的变量分割数据,并在每个子数据集上绘制相同类型的图表。以下是一个简单的示例:

# 创建示例数据集
import pandas as pd

data = pd.DataFrame({
    'Category': ['A', 'A', 'B', 'B', 'C', 'C'],
    'Value': [10, 15, 20, 25, 30, 35]
})

# 创建 FacetGrid 对象并绘制分面绘图
g = sns.FacetGrid(data, col='Category', col_wrap=2)
g.map(sns.histplot, 'Value', color='skyblue', bins=5)
plt.suptitle("Facet Grid Plot")
plt.show()

12. 分类数据图

分类数据图用于可视化分类变量之间的关系,通常用于比较不同类别之间的差异和分布。Seaborn 中的 catplot 函数可以用于绘制分类数据图,支持多种不同类型的图表,如柱状图、箱线图等。以下是一个简单的示例:

# 创建示例数据集
import pandas as pd

data = pd.DataFrame({
    'Category': ['A', 'A', 'B', 'B', 'C', 'C'],
    'Value': [10, 15, 20, 25, 30, 35]
})

# 绘制分类数据图(柱状图)
sns.catplot(x='Category', y='Value', data=data, kind='bar', palette='Set2')
plt.title("Categorical Plot")
plt.show()

13. 分布对比图

分布对比图是一种用于比较不同组之间分布情况的图表类型,可以帮助我们观察到不同组之间的差异和相似性。Seaborn 中的 histplot 函数可以用于绘制分布对比图,支持在同一个图表中同时显示多个组的分布情况。以下是一个简单的示例:

# 创建示例数据集
import pandas as pd

data = pd.DataFrame({
    'Group': ['A'] * 100 + ['B'] * 100,
    'Value': np.concatenate([np.random.normal(loc=0, scale=1, size=100),
                             np.random.normal(loc=1, scale=1, size=100)])
})

# 绘制分布对比图
sns.histplot(data=data, x='Value', hue='Group', multiple='stack', kde=True, palette='husl')
plt.title("Distribution Comparison Plot")
plt.show()

14. 简单多变量图

简单多变量图是一种用于同时可视化多个变量之间关系的图表类型,通常用于观察变量之间的相关性和分布情况。Seaborn 中的 pairplot 函数可以绘制简单多变量图,支持在同一个图表中显示变量之间的散点图和单变量分布图。以下是一个简单的示例:

# 创建示例数据集
import pandas as pd

data = pd.DataFrame({
    'A': np.random.randn(100),
    'B': np.random.randn(100),
    'C': np.random.randn(100)
})

# 绘制简单多变量图
sns.pairplot(data)
plt.suptitle("Simple Multivariate Plot")
plt.show()

15. 气泡图

气泡图是一种用于显示三维数据的图表类型,通常用于展示两个变量之间的关系,并以第三个变量的大小来表示数值大小。Seaborn 中虽然没有直接支持气泡图的函数,但我们可以结合 scatterplot 函数来绘制。以下是一个简单的示例:

# 创建示例数据集
import pandas as pd

data = pd.DataFrame({
    'X': np.random.rand(50),
    'Y': np.random.rand(50),
    'Size': np.random.rand(50) * 1000  # 设置气泡大小
})

# 绘制气泡图
sns.scatterplot(data=data, x='X', y='Y', size='Size', sizes=(50, 500), legend=False)
plt.title("Bubble Plot")
plt.show()

16. 统计关系图

统计关系图是一种用于可视化两个变量之间的关系,并显示其统计摘要信息的图表类型。Seaborn 中的 jointplot 函数可以绘制统计关系图,支持不同的绘图风格,如散点图、核密度估计图等。以下是一个简单的示例:

# 创建示例数据
import pandas as pd

data = pd.DataFrame({
    'X': np.random.randn(100),
    'Y': np.random.randn(100)
})

# 绘制统计关系图
sns.jointplot(x='X', y='Y', data=data, kind='scatter', color='purple')
plt.suptitle("Statistical Relationship Plot")
plt.show()

17. 成对关系图

成对关系图是一种用于可视化数据集中多个变量之间的关系的图表类型,通常用于观察变量之间的相关性和分布情况。Seaborn 中的 pairplot 函数可以绘制成对关系图,支持在同一个图表中显示变量之间的散点图和单变量分布图。以下是一个简单的示例:

# 创建示例数据集
import pandas as pd

data = pd.DataFrame({
    'A': np.random.randn(100),
    'B': np.random.randn(100),
    'C': np.random.randn(100)
})

# 绘制成对关系图
sns.pairplot(data)
plt.suptitle("Pairwise Relationship Plot")
plt.show()

18. 网格图

网格图是一种用于可视化多个变量之间的关系的图表类型,通常用于观察变量之间的复杂关系和模式。Seaborn 中的 PairGrid 类可以用于创建网格图,支持在每个子数据集上绘制不同类型的图表。以下是一个简单的示例:

# 创建示例数据集
import pandas as pd

data = pd.DataFrame({
    'A': np.random.randn(100),
    'B': np.random.randn(100),
    'C': np.random.randn(100)
})

# 创建 PairGrid 对象并绘制网格图
g = sns.PairGrid(data)
g.map_upper(sns.scatterplot, color='blue')
g.map_lower(sns.kdeplot, color='green')
g.map_diag(sns.histplot, color='red')
plt.suptitle("Grid Plot")
plt.show()

总结

在本文中,我们深入探讨了如何利用 Seaborn 实现各种高级统计图表,涵盖了从基本的分布图到复杂的多变量图表。通过示例代码和详细说明,我们学习了如何使用 Seaborn 来绘制不同类型的图表,包括:

  1. 分布图:展示单变量分布情况的直方图和密度图。
  2. 热图:用颜色编码矩阵数值的图表类型,通常用于显示相关性矩阵或二维数据集。
  3. 聚类图:用于将数据点按其相似性分组的图表类型。
  4. 箱线图和小提琴图:用于展示数据分布情况的有效方式。
  5. 联合分布图:可视化两个变量之间的关系,并显示其单变量分布情况。
  6. 线性关系图:展示两个变量之间的线性关系,并支持拟合线性回归模型。
  7. 树地图:用于可视化层次结构数据的图表类型。
  8. 时间序列图:展示时间序列数据变化趋势的图表类型。
  9. 分面绘图:用于同时可视化多个子数据集的图表类型。
  10. 分类数据图:用于可视化分类变量之间关系的图表类型。
  11. 分布对比图:用于比较不同组之间分布情况的图表类型。
  12. 简单多变量图:用于同时可视化多个变量之间关系的图表类型。
  13. 气泡图:用于显示三维数据的图表类型。

这些图表类型丰富了我们的数据可视化工具箱,帮助我们更全面地探索数据,发现其中的模式和规律。通过掌握 Seaborn 的使用技巧,并将其应用到实际的数据分析和可视化工作中,我们能够更好地理解和解释数据,从而为决策提供更有力的支持。 Seaborn 的强大功能和易用性使其成为数据科学领域不可或缺的工具之一。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/584074.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

ArcGIS小技巧—坐标系匹配

坐标系:(Coordinate System):在一些书籍和软件中也叫做空间参考,简单来说,有了坐标系,我们才能够用一个或多个“坐标值”来表达和确定空间位置。没有坐标系,坐标值就无从谈起&#x…

c#数据库:1.c#创建并连接数据库

安装软件:SQL Server Management Studio Management Studio Visual Studio 2022 启动服务: 打开SQL Server Management Studio Management Studio ,连接到服务器(GUANZU是我的计算机名) 新建数据库,随便起个名字叫aq: c#代码: using System; using System.Collections.Gener…

Detla lake with Java--在spark集群上运行程序

昨天写了第一篇入门,今天看见有人收藏,继续努力学习下去。今天要实现的内容是如何将昨天的HelloDetlaLake 在spark集群上运行,。具体步骤如下 1、安装spark,我使用的是 spark-3.5.1-bin-hadoop3-scala2.13,去官网下载&#xff0c…

C++ 如何实现原子性

1.操作系统如何实现原子性 在单处理器,单核,运行多线程的情况下,我们不使用线程同步工具, 我们会出现,线程之间会互相抢夺,临界区的资源,造成数据不符合我们预期的结果, 后面再说解决办法,那么我们怎么帮助实现原子性 1 屏蔽中断,不让线程之间切换,让它完成再切换 2 底层硬…

Android CalendarView助你打造精美的Android日历应用

Android CalendarView助你打造精美的Android日历应用 1. 引言 移动应用中的日历功能对于用户来说至关重要,它不仅是时间管理的工具,还能帮助用户记录重要事件和安排活动。因此,一个高效、易用的日历控件对于移动应用的成功至关重要。 传统…

PaddlePaddle与OpenMMLab

产品全景_飞桨产品-飞桨PaddlePaddle OpenMMLab算法应用平台

windows平台安装labelme

之前写过一篇文章也是关于在windows平台安装labelme的:《windows平台python版labelme安装与使用_labelme下载-CSDN博客》,随着软件与工具的更新换代,按照同样的方法最近在使用的时候出现了错误,出现创建虚拟环境失败,具…

运维的利器–监控–zabbix–第二步:建设–部署zabbix agent--windows server系统--agent客户端安装部署

第一步:下载windows agent软件 第一点:zabbix官网针对linux和window系统有两种不同的安装方式,其中:windows为tar压缩包,根据你zabbix server安装的版本,在官网下载同样版本的agent软件。 amd64&#xff…

漂亮自适应APP下载页源码

漂亮自适应APP下载页源码,源码由HTMLCSSJS组成,记事本打开源码文件可以进行内容文字之类的修改,双击html文件可以本地运行效果,也可以上传到服务器里面 漂亮自适应APP下载页源码

公链系统开发全指南: 从规划到实施

在区块链技术的迅速发展和应用推广下,公链系统的开发成为了当前数字资产领域的热门话题。从规划到实施,公链系统的开发过程需要经历多个步骤,下文将详细介绍每个步骤。 第一步: 规划和设计 市场调研: 分析市场需求和竞争情况,确定…

preg_match详解(反向引用和捕获组)

在讲preg_match函数之前,我们先了解一下什么是php可变变量 php可变变量 在PHP中双引号包裹的字符串中可以解析变量,而单引号则不行 也就是在php中,双引号里面如果包含有变量,php解释器会将其替换为变量解释后的结果&#xff1b…

数据结构-链表练习(面试题)

1,翻转一个单链表 建立变量cur指向第二个节点,curN指向cur.next,将第二个节点的next改为head,headcur这样实现,前两个节点顺序的翻转,第二个节点指向了第一个节点,之后cur向后移(cu…

Git中单独的功能特性分支是什么含义

在Git中,一个"功能特性分支"(通常简称为“特性分支”)是指从主开发分支(比如main或master)独立出来的分支,专门用于开发一个新功能、修复一个bug,或者进行实验性的尝试。使用特性分支…

多用户商城思维导图

订单优惠逻辑计算 以上是下面功能结构图中的部分流程:

Qt QLCDNumber详解

1.简介 它提供了一个显示数字的显示屏控件,效果类似于现实世界中的液晶显示屏。它可以显示任何大小的数字。它可以显示十进制、十六进制、八进制或二进制数字。可以用setMode更改基数,用setSmallDecimalPoint更改小数点。 2.常用方法 以下是一些常用的…

Rust HashMap

一、HashMap是什么,怎么用 1、HashMap是什么 HashMap 也是 Rust 标准库中提供的集合类型,但是又与动态数组不同,HashMap 中存储的是一一映射的 KV 键值对,并提供了平均时间复杂度为 O(1) 的查询方法。 2、HashMap怎么用 &…

Verdin AM62 LVGL 移植

By Toradex胡珊逢 简介 LVGL 是一个免费、开源的图形库,能够在嵌入式设备如上使用 C/C 语言轻松绘制图形。由于这是一轻量级图形库,最初广泛被 MCU 处理器使用。随着功能完善,在性能和资源更充裕的 MPU 上也逐渐被使用。文章将介绍如何在 V…

币圈Cryptosquare论坛

Cryptosquare综合性资讯论坛汇集了币圈新闻、空投信息、社会热点以及与Web3相关的工作信息。让我们一起解锁加密世界的种种可能性,探索Cryptosquare论坛带来的精彩! 币圈新闻板块: Cryptosquare论坛的币圈新闻板块是用户获取最新加密货币行业…

人工 VS AGV无人搬运机器人,AGV赋能中国智能制造

agv 机器人作为智能制造的重要抓手,正在渗透到各个传统行业,成为我国制造业转型升级的焦点。未来,智能AGV将不仅仅是简单的把货物搬运到指定的位置,而是要把5G技术、大数据、物联网、云计算等贯穿于产品的设计中,让智能…

【Java EE】日志框架(SLF4J)与门面模式

文章目录 🍀SLF4j🌳门面模式(外观模式)🌸门面模式的定义🌸门面模式的模拟实现🌸门面模式的优点 🌲关于SLF4J框架🌸引入日志门面 ⭕总结 🍀SLF4j SLF4J不同于其他⽇志框架,它不是⼀个…
最新文章