EDA探索性数据分析
EDA或探索性数据分析是一种使用可视化,汇总统计和数据转换等多种技术来抽象其核心特征来检查和理解数据的方法
在当今数据驱动的世界中,有效分析数据的能力是许多企业成功的关键因素。通过利用数据分析工具和技术,企业可以获得洞察力,识别趋势,并根据数据自信地做出明智的决策,从而提高效率并在竞争激烈的商业环境中获得优势。探索性数据分析(EDA)是在进行任何正式建模或假设测试之前用于解释数据的初步方法,是数据分析中涉及的最关键程序之一。
EDA 是详细说明数据集关键特征的过程,通常采用可视化技术,它需要探索和分析数据,以了解其基本模式、联系和趋势。EDA 很重要,因为它有助于识别数据中可能影响后续分析可靠性的任何问题或异常。许多行业都受益于EDA,包括金融,医疗保健,零售和营销,因为它是数据分析的基础,查明数据中的潜在缺陷,并提供对客户行为,市场趋势和业务绩效的深刻分析。
在数据分析中,EDA可以帮助数据分析师识别可能影响数据统计分析的缺失或不完整的数据,异常值和不一致之处。进行EDA还可以帮助确定哪些变量对于解释结果变量至关重要,哪些变量可以排除。因此,EDA 通常是开发数据模型的第一步,因为它提供了对数据特征的见解。
EDA是什么?
EDA或探索性数据分析是一种使用可视化,汇总统计和数据转换等多种技术来抽象其核心特征来检查和理解数据的方法。EDA是为了了解数据并发现任何潜在的问题或需要解决的问题,通常在正式建模或假设测试之前执行。它旨在识别数据中的模式、关系和趋势,并使用这些信息来促进进一步的分析或决策。可以使用EDA分析不同类型的数据,包括数字,分类和文本。通常在数据分析之前完成,以识别和纠正数据中的错误,并可视化数据的关键属性。
EDA 是了解数据存储的科学方法。数据科学家可以使用它来发现模式、发现异常、测试假设或通过有效操纵数据源来验证假设。
EDA在数据科学中的重要性
探索性数据分析是数据科学过程中的一个重要阶段,因为它使数据科学家能够在更深层次上理解他们正在使用的数据。让我们通过定义EDA的目标来找出为什么EDA在数据科学中很重要:
执行 EDA 可以确认收集的数据在手头业务问题的背景下是否可行。如果没有,则需要更改数据分析师采用的数据或策略。
它可以揭示和解决数据质量问题,例如重复、丢失数据、不正确的值以及数据类型和异常。
探索性数据分析通过揭示关键统计度量(如平均值、中位数和标准偏差)在从数据中提取有意义的见解方面发挥着至关重要的作用。
通常,某些值与标准值集有很大偏差;这些是在分析数据之前必须验证的异常情况。如果不选中,它们可能会在分析中造成严重破坏,从而导致计算错误。因此,EDA 的目标之一是定位数据中的异常值和异常值。
EDA 揭示了变量组合在一起时的行为,通过可视化和分析数据来帮助数据科学家找到这些变量之间的模式、相关性和交互。此信息有助于创建 AI 模型。
EDA 有助于查找和删除不需要的列并派生新变量。因此,它可以帮助确定哪些特征对于预测目标变量最关键,从而有助于选择要包含在建模中的特征。
根据数据的特征,EDA可以帮助确定适当的建模技术。
EDA 方法和技术
EDA 中使用的一些常用技术和方法包括:
数据可视化
数据可视化涉及使用图形、图表和其他图形技术生成数据的可视化表示。数据可视化可以快速轻松地理解数据中的模式和关系。可视化技术包括散点图、直方图、热图和箱形图。
相关性分析
使用相关性分析,可以分析变量对之间的关系,以确定它们之间的任何相关性或依赖关系。相关性分析有助于特征选择和构建预测模型。常见的相关技术包括皮尔逊相关系数、斯皮尔曼秩相关系数和肯德尔 tau 相关系数。
数据降维
在降维中,主成分分析 (PCA) 和线性判别分析 (LDA) 等技术用于减少数据中的变量数量,同时保留尽可能多的细节。
描述统计学
它涉及计算汇总统计量,例如平均值、中位数、模式、标准差和方差,以深入了解数据的分布。平均值是数据集的平均值,提供了数据集中趋势的概念。中位数是排序值列表中的中间值,并提供集中趋势的另一种度量。模式是数据集中最常见的值。
聚类分析
聚类分析技术(如 K 均值聚类分析、分层聚类分析和 DBSCAN 聚类分析)根据特征将相似的数据点分组在一起,从而帮助识别数据集中的模式和关系。
异常值检测
异常值是与其他数据差异或偏离显著的数据点,可能对模型的准确性产生至关重要的影响。使用 Z 分数、四分位数间距 (IQR) 和箱形图方法等方法识别和删除数据中的异常值有助于提高数据质量和模型的准确性。
EDA 技术的类型
可以使用几种类型的探索性数据分析技术来深入了解数据。一些常见的 EDA 类型包括:
单变量非图形
单变量非图形探索性数据分析是一种简单而基本的信息检查方法,包括仅利用一个变量来分析数据。单变量非图形EDA侧重于找出数据中的潜在分布或模式,并提及有关总体的客观事实。该程序包括检查种群分布的属性,包括分布,中心趋势,偏度和峰度。
分布的平均值或中间值称为集中趋势。集中趋势的常见度量是平均值,其次是中位数和众数。作为集中趋势的度量,如果分布偏斜或对异常值提出担忧,则中位数可能是首选。
扩散显示信息值与中心趋势的距离。标准差和方差是点差的两个有价值的比例。方差是各个差的平方的平均值,标准差是方差的基础。
偏度和峰度是分布的两个更有用的单变量描述符。偏度是分布不对称性的度量,而峰度是分布峰值与普通离散对比的比例。
异常值检测在单变量非图形 EDA 中也很重要,因为异常值会显著影响分布并扭曲统计分析结果。
多变量非图形
多变量非图形EDA是一种用于通过交叉制表或统计来探索两个或多个变量之间关系的技术。它对于识别变量之间的模式和关系很有用。当数据集中存在多个变量并且您希望查看它们之间的关系时,此分析特别有用。
交叉制表是分类数据制表的有用扩展。当涉及两个变量时,最好使用交叉制表。为此,请创建一个双向表,其中列标题对应于一个变量的数量,行标题对应于其他两个变量的数量。接下来,用同一对级别填充所有科目的计数。
我们为每个分类变量的每个级别和一个定量变量单独生成定量变量的统计数据,然后比较所有分类变量的统计数据。多变量非图形 EDA 的目的是识别变量之间的关系并了解它们之间的关系。检查变量之间的关系可以发现模式和趋势,这些模式和趋势可能不是孤立地检查单个变量时立即显而易见的。
单变量图形
单变量图形 EDA 技术使用各种图形来深入了解单个变量的分布。这些图形技术使我们能够快速了解我们正在研究的数据的形状、中心趋势、点差、模态、偏度和异常值。以下是一些最常用的单变量图形 EDA 技术:
直方图:这是 EDA 中使用的最基本的图形之一。直方图是一个条形图,用于显示变量值的多个区间(箱)中每个个案的频率或比例。每个条形的高度表示落在每个区间内的观测值的计数或比例。直方图提供了分布的形状和分布以及任何异常值的直观感觉。
茎叶图:茎叶图是直方图的替代方法,直方图显示每个数据值及其量级。在茎叶图中,每个数据值被拆分为茎和叶,茎表示前导数字,叶子表示尾随数字。这种类型的绘图提供了数据分布的可视化表示,并且可以突出显示对称性和偏度等特征。
箱线图:箱线图,也称为箱须图,提供分布中心趋势、散布和异常值的直观摘要。箱线图中的框表示数据的四分位距 (IQR),框中的中线位于框内。晶须从盒子延伸到最小和最大的观察值,其 IQR 是盒子的 IQR 的 1.5 倍。晶须之外的数据点被视为异常值。
分位数正态图:分位数正态图(也称为 Q-Q 图)通过将观测值与正态分布中的预期值进行比较来评估数据分布。在 Q-Q 图中,观测数据与正态分布的分位数作图。如果数据呈正态分布,则点应沿直线分布。如果数据偏离正态性,则图将显示任何偏度、峰度或异常值。
多变量图形
多变量图形 EDA 使用图形显示两个或多个数据集之间的关系。在检查两个以上的变量之间的关系时,此技术用于更全面地了解数据。分组条形图是最常用的多变量图形技术之一,每组表示一个变量的一个级别,每个条形表示其数量。
多元图形也可以用散点图、运行图、热图、多元图和气泡图表示。
散点图是显示两个定量/数值变量之间关系的图形表示。它包括在 x 轴上绘制一个变量,在 y 轴上绘制另一个变量。在图上,每个点表示一个观测值。散点图可以识别数据中的异常值或模式,以及任意两个变量之间关系的方向和强度。
运行图是显示数据如何随时间变化的折线图。它是一个简单但功能强大的工具,用于跟踪数据变化和监控趋势。运行图可用于检测流程中随时间推移的趋势、周期或偏移。
多变量图表说明了因子和响应之间的关系。它是一种散点图,可同时描述多个变量之间的关系。多变量图表描述变量之间的关系,并标识数据中的模式或聚类。
气泡图是一种数据可视化,可在二维图中显示多个圆圈(气泡)。每个圆圈的大小表示第三个变量的值。气泡图通常用于比较具有三个变量的数据集,因为它们提供了一种可视化这些变量之间关系的简单方法。
EDA 中的可视化技术
可视化技术在EDA中起着至关重要的作用,使我们能够直观地探索和理解复杂的数据结构和关系。EDA 中使用的一些常见可视化技术包括:
直方图:直方图是显示数值变量分布的图形表示。它们通过可视化频率分布来帮助了解数据的集中趋势和分布。
箱线图:箱线图是显示数值变量分布的图形。这种可视化技术有助于识别任何异常值,并通过可视化其四分位数来了解数据的分布。
热图:它们是数据的图形表示形式,其中颜色表示值。它们通常用于显示复杂的数据集,提供了一种快速简便的方法来可视化大量数据中的模式和趋势。
条形图:条形图是显示分类变量分布的图形。它用于可视化数据的频率分布,这有助于了解每个类别的相对频率。
折线图:折线图是显示数值变量随时间变化趋势的图形。它用于可视化数据随时间的变化,并识别任何模式或趋势。
饼图:饼图是显示分类变量比例的图形。它用于可视化每个类别的相对比例并了解数据分布。
探索性数据分析工具
电子表格软件
由于其简单性,熟悉的界面和基本的统计分析功能,电子表格软件(如Microsoft Excel,Google Sheets或LibreOffice Calc)通常用于EDA。使用它们,用户可以对数据进行排序、过滤、操作并执行基本的统计分析,例如计算平均值、中位数和标准偏差。
统计软件
R或Python等专用统计软件及其各种库和包提供了更高级的统计分析工具,包括回归分析,假设检验和时间序列分析。该软件允许用户编写自定义函数并对大型数据集执行复杂的统计分析。
数据可视化软件
Tableau、Power BI 或 QlikView 等可视化软件使用户能够创建交互式和动态数据可视化。这些工具可帮助用户识别数据中的模式和关系,从而做出更明智的决策。它们还提供各种类型的图表和图形,以及创建仪表板和报告的功能。该软件允许轻松共享和发布数据,使其可用于协作项目或演示。
编程语言
R,Python,Julia和MATLAB等编程语言提供了强大的数值计算能力,并提供对各种统计分析工具的访问。这些语言可用于编写针对特定分析需求的自定义函数,在处理大型数据集时特别有用。除了在数据处理和操作方面带来灵活性外,它们还可以实现重复性任务的自动化。
商业智能 (BI) 工具
SAP BusinessObjects、IBM Cognos 或 Oracle BI 等 BI 工具提供一系列功能,包括数据探索、仪表板和报告。它们允许用户可视化和分析来自各种来源的数据,包括数据库和电子表格。它们提供可在业务环境中使用的数据准备工具和质量管理工具,以帮助组织做出数据驱动的决策。
数据挖掘工具
KNIME、RapidMiner或Weka等数据挖掘工具提供了一系列功能,包括数据预处理、聚类、分类和关联规则挖掘。这些工具对于识别大型数据集中的模式和关系以及构建预测模型特别有用。数据挖掘工具用于各个行业,包括金融、医疗保健和零售。
基于云的工具
Google Cloud、Amazon Web Services (AWS) 和 Microsoft Azure 等基于云的平台为数据分析提供了一系列工具和服务。它们为存储和处理数据提供了可扩展且灵活的基础架构,并提供了一系列数据分析和可视化工具。基于云的工具对于处理大型和复杂的数据集特别有用,因为它们提供高性能的计算资源,并且能够根据项目的需求进行扩展或缩减。
文本分析工具
RapidMiner和SAS文本分析等文本分析工具用于分析非结构化数据,例如文本文档或社交媒体帖子。他们使用自然语言处理 (NLP) 技术从文本数据中提取见解,例如情感分析、实体识别和主题建模。文本分析工具用于一系列行业,包括营销、客户服务和政治分析。
地理信息系统 (GIS) 工具
ArcGIS 和 QGIS 等 GIS 工具用于分析和可视化地理空间数据。它们允许用户绘制数据地图并执行空间分析,例如识别地理数据中的模式和趋势或执行空间查询。GIS 工具用于一系列行业,包括城市规划、环境管理和运输。
总结
探索性数据分析(EDA)是在进行数据分析之前必须执行的重要步骤。它可以帮助数据科学家和分析师了解并深入了解他们正在处理的数据。它有助于发现可能导致最终分析中偏差或错误的缺失或错误数据。分析师可以通过在EDA过程中对数据进行清洗和预处理来保证用于分析的数据准确可靠。EDA 方法还可以促进特征选择,识别要包含在机器学习模型中的重要特征并提高模型性能。总体而言,EDA允许检测数据中的异常,模式和关系,这可以帮助企业做出明智的决策,并在快速发展的技术领域获得竞争优势。