什么是数据分析?


编辑导语:数据分析就是通过管理和分析数据来指导决策。数据分析是一门专注于从数据中提取洞察力的学科,包括数据的分析、收集、组织和存储,以及关联的工具和技术。

什么是数据分析?

数据分析是一门专注于从数据中获取洞察力(问题本质)的学科。它包括数据分析和数据管理的过程、工具和技术,比如数据的收集、组织和存储等。数据分析的主要目的是对数据进行统计分析来发现发展趋势和解决问题。作为分析和塑造业务流程以及改进决策方式和业务成果的一种手段,数据分析正在企业中变得越来越重要。

数据分析从一系列学科(包括计算机编程、数学和统计学)中汲取知识,对数据进行分析,以描述、预测和提高能力。为了确保进行稳健的分析,数据分析团队利用了一系列数据管理技术,包括数据挖掘、数据清理、数据转换、数据建模等。

数据分析的四种类型是什么?

数据分析大致分为四种类型:

  1. 描述性分析,它试图描述在特定时间点发生的事情;
  2. 诊断分析,用于评估发生某件事情的原因;
  3. 预测分析,确定未来发生某件事情的可能性;
  4. 规范性分析,它提供了为实现预期结果而采取的建议措施。

进一步来说:

描述性分析通过识别趋势和模式,使用来自多个来源的历史和当前数据来描述当前状态或指定的历史状态。在业务分析中,这是商业智能 (BI)的范围。

诊断分析是使用数据(通常通过描述性分析生成)来发现过去导致某件事情发生的因素或原因。

预测分析将统计建模、预测和机器学习等技术应用于描述性和诊断分析的输出,以预测未来的结果。预测分析通常被认为是一种“高级分析”,并且经常依赖于机器学习和/或深度学习。

规范性分析是一种高级分析,涉及应用测试和其他技术来推荐可实现预期结果的特定解决方案。在商业中,预测分析使用机器学习、商业规则和算法。

数据分析方法和技术

数据分析师可以使用多种方法和技术来分析数据。根据CIOBOK的统计,最受欢迎的七个数据分析方法包括:

回归分析:回归分析是一组统计过程,用于估计变量之间的关系,以确定一个或多个变量的变化如何影响另一个变量。例如,社交媒体支出如何影响销售?

蒙特卡罗模拟:蒙特卡罗模拟用于模拟由于随机变量的干预而无法轻易预测的过程中不同结果的概率。它经常用于风险分析。

因子分析:因子分析是一种统计方法,用于获取海量数据集并将其缩减为更小、更易于管理的数据集。这具有经常发现隐藏模式的额外好处。在商业环境中,因子分析通常用于探索客户忠诚度等问题。

群组分析:群组分析用于将数据集分解为具有共同特征的组或群组,以进行分析。这通常用于了解客户细分。

聚类分析: 聚类分析为“用于将对象或案例分类为称为聚类的相关组的一类技术”。它可以用来揭示数据中的结构——例如,保险公司可能会使用聚类分析来调查为什么某些地点与特定的保险索赔相关联。

时间序列分析:时间序列分析定义为“一种处理时间序列数据或趋势分析的统计技术。时间序列数据意味着数据处于一系列特定的时间段或间隔中。” 时间序列分析可用于识别随时间推移的趋势和周期,例如每周销售数字。它经常用于经济和销售预测。

情感分析: 情感分析使用自然语言处理、文本分析、计算语言学等工具来理解数据中表达的情感。前六种方法旨在分析定量数据(可测量的数据),而情绪分析旨在通过将定性数据组织成主题来对其进行解释和分类。它通常用于了解客户对品牌、产品或服务的感受。

数据分析工具

数据分析师和其他从事分析工作的人使用一系列工具来帮助他们发挥作用。以下是一些最受欢迎的:

Apache Spark:一个用于处理大数据和创建集群计算引擎的开源数据科学平台

Excel:微软的电子表格软件可能是使用最广泛的分析工具,尤其是用于数学分析和表格报告

Looker:谷歌的数据分析和商业智能平台

Power BI: Microsoft 用于创建和分发报告和仪表板的数据可视化和分析工具

Python:一种帮助用户提取、总结和可视化数据的开源编程语言

Qlik:一套数据分析、数据集成和编程平台,用于探索数据和创建数据可视化

QuickSight:来自亚马逊的 BI 和分析云服务,旨在与云数据源集成

R:用于统计分析和图形建模的开源数据分析工具

RapidMiner:一个包含可视化工作流设计器的数据科学平台

SAS:用于商业智能和数据挖掘的分析平台

Sisense:流行的自助式商业智能平台

Tableau:来自 Salesforce 的数据分析软件,用于从数据创建仪表板、地图和可视化

Talend:数据工程师、数据架构师、分析师和开发人员使用的大数据文件转换和加载平台

数据分析与数据科学

数据分析和数据科学密切相关。数据分析是数据科学的一个组成部分,用于了解组织的数据是什么样的。通常,数据分析的输出是可视化的报告。数据科学利用分析的输出来研究和解决问题。

对于时间的差异通常被视为是数据分析和数据科学之间的主要差异。数据分析描述现实的当前或历史状态,而数据科学使用该数据来预测和/或理解未来。

数据分析与业务分析

业务分析是数据分析的另一个子集。业务分析使用数据分析技术(包括数据挖掘、统计分析和预测建模)来推动更好的业务决策。Gartner 将业务分析定义为“用于构建分析模型和模拟以创建场景、了解现实和预测未来状态的解决方案”。

数据分析示例

所有行业的组织都利用数据分析来改善运营、增加收入并促进数字化转型。

以下是三个例子:

UPS 通过预测分析提供弹性和灵活性:跨国航运公司 UPS 创建了统一企业分析工具 (HEAT),以帮助其捕获和分析客户数据、运营数据和计划数据,以跟踪每个包裹的实时状态在其网络中移动。该工具帮助它跟踪每天交付的大约 2100 万个包裹。

预测分析帮助开发涡轮叶片:制造商 Owens Corning 在其卓越分析中心的帮助下,使用预测分析来简化测试用于制造风力涡轮叶片玻璃织物的粘合剂的过程。分析帮助公司将任何给定新材料的测试时间从 10 天减少到大约两个小时。

Kaiser Permanente 通过分析减少等待时间:自 2015 年以来,Kaiser Permanente 一直在使用分析、机器学习和 AI 的组合来全面检查其在美国的 39 家医院和 700 多个医疗办公室的数据操作。它使用分析来更好地预测并解决潜在的瓶颈,使其能够在提高日常运营效率的同时提供更好的患者护理。


最近更新于 2022-06-25 孜孜不倦2022-06-24 发布, 已阅 22 次。