如何处理所有这些数据

大数据和数据分析为了解消费者的购物习惯和睡眠方式提供了机会,但是一些公司在弄清所有信息的含义时遇到了麻烦。该入门知识可以帮助简化流程

近年来,大数据和数据分析这些术语已成为流行的流行语。虽然这些术语让人联想到市场无所不能的概念,但却建立在数字时代每一刻产生的不可理解的数据量的基础上,许多使用这些术语的人并没有真正理解它们的含义。它们的功能和局限性是或如何使用它们

在本文中,我们将对大数据的概念以及更实际的数据分析概念进行基本介绍。我们还将提出大数据,而并非每个数据分析项目都需要强大工具的论点。人们在数据分析中遇到的一些常见陷阱最后,我们将逐步介绍如何构建成功的数据分析过程的基本过程,从而避免这些陷阱,同时获取最多的可用数据资源

什么是大数据

在进入数据分析的最佳实践之前,重要的是要对一些术语有深刻的了解,大数据是可以根据您要求的对象而产生不同定义的术语类型,但广泛的定义来自马里兰州的盖瑟斯堡总部设在美国国家标准技术研究院的大数据由大量数据集组成,这些数据集主要具有容量变化速度和/或可变性的特征,这些特征需要可扩展的架构来进行有效的存储操作和分析

大数据由大量数据集组成,这些数据集主要具有卷变化速度和/或可变性的特征,这些特征需要可扩展的架构来进行有效的存储操作和分析

国立标准技术研究所

NIST指出,以上定义包含数据特征与能够以足够水平的性能速度和成本效率进行处理的需求之间的固有相互作用,即架构元素

体系结构元素并不是讨论开发数据分析过程的基础,但是数据分析中可能涉及的大量数据需要使用功能强大的计算机来管理集合存储以及对这些数据的垂直扩展或数据分布的分析。在许多集成的个人计算机之间进行收集存储和处理水平缩放

统计的作用

梅里亚姆·韦伯斯特(Merriam Webster)将统计定义为数学的一个分支,用于处理集合分析的解释和大量数值数据的表示统计是大数据和数据分析核心的关键概念。该思想是使用整体数据的子集来得出有关该数据范围的结论例如,您可能会收集一些人的体重测量值,以估计所有人的平均体重。正如我们将看到的那样,根据数据的特性,这个看似简单的示例变得更加复杂

数据特征

大数据定义的另一个元素侧重于数据的特征这些特征将确定是否以及如何在数据分析项目中使用某些数据NIST列出了四个主要特征,即基于北卡罗来纳州卡里市的数据分析的体积速度变化和可变性SAS公司增加了第五个准确性

一家拥有预算并且只有一名全职员工分配给数据分析试点项目的公司实际上无法期望预测明年美国消费者偏好的趋势

  • 体积这指的是数据点的数量,这既是福也是祸,访问似乎无限的数据点可能意味着能够以令人难以置信的准确性识别消费者特征和可能的行为,但是处理这些数据的架构成本却增加了与音量
  • 速度与体积速度密切相关的是考虑数据收集或收集速度
  • 品种数据有多种形式,例如,可以通过审查跟踪在线搜索或跟踪购买决策的消费者调查来衡量消费者的偏好
  • 变化性可变性是指数据随时间的变化。这些变化可以包括数据流过数据的速率或数据本身的速率
  • 真实性来自不同来源的数据或多或少是可靠的,例如,消费者可能会在实践中报告与他们的购买行为不匹配的偏好,某些来源的销售数据可能不正确,甚至是有意遗漏的准确性。准确性是指数据的质量

什么是数据分析

数据分析从字面上意味着分析可用数据根据所要解决的问题,它可以采用多种形式

  • 描述性发生了什么
  • 诊断为什么会发生
  • 可预测的会发生什么
  • 规范性的应该做什么

这些类型的数据分析从描述性到描述性的复杂性增加,其中描述性是企业的最终目标。描述性数据分析的问题可能是:加利福尼亚消费者每年平均在汽车维护上花费多少钱。有关消费习惯和答案的数据在一定程度上很有用,因为它有助于确定可用市场的规模,但它本身并不一定足以帮助决策

相关的诊断问题可能是:为什么消费者要在汽车维修上花这么多钱?为什么不或多或少地花这笔钱呢?这需要更仔细地查看数据并建立一些联系,例如某些人口群体的收入习惯或地理区域的消费者的消费习惯考虑到更广泛的经济或季节性条件,或者某些类型的汽车维修的支出习惯,或者某些公司与其他公司的支出,支出习惯的变化。预测性跟进将是加利福尼亚消费者在汽车维护方面的支出习惯是什么样的?未来五年

最后,说明性问题给出了我们认为当前和将来的市场状况,我们应该怎么做。在我们的假设中,加利福尼亚一家汽车维修业务公司面临这个问题,可能会决定在该领域的特定领域加大投资行业更直接地瞄准某些细分市场基准并遵循特定竞争对手的最佳做法,甚至完全离开行业

数据分析是否需要大数据

有了对大数据和数据分析目标的深刻理解,我们可以问一个问题:数据分析是否需要大数据?让我们再次看一下NIST对大数据的定义,这次我们强调了几个关键的定义由组成广泛的数据集主要表现在体积变化速度或变异性的特征上需要可扩展的架构以进行有效的存储操作和分析

将大数据与更通用的数据样本概念区分开来的是,管理所有数据的大小和复杂性大数据按定义包含大量数据,这些数据需要大量计算能力才能有效使用

企业是否需要大数据来有效地进行数据分析不一定但要取决于分析结果随着数据集规模的增加,统计数据变得更加准确,而随着基础统计结论的准确性变得更加准确,准确回答复杂问题也变得更加容易。过去三年来查看其床垫制造过程的缺陷率的公司可能不需要利用大数据,但是一家公司希望对进入东南亚市场的高端床垫业务计划进行业务描述分析五年期间可能需要大数据以确保其估计和预测足够准确,以保证其计划的行动方案

通用数据分析陷阱

希望利用数据分析的公司面临许多潜在的陷阱,并且公司可以通过多种方式将大量时间和其他资源花费在数据分析项目上,而几乎没有收益,甚至没有收益,甚至更糟,最终会做出错误的决定。经常犯的一些常见错误

企业是否需要大数据才能有效地进行数据分析?不一定,但这取决于分析

  • 没有明确的目标公司经常将诸如大数据和数据分析之类的术语视为灵丹妙药或奇迹般的解决方案,并认为如果我们只有数据,答案就会变得清晰起来。吸引数十亿个数据点,并通过一些黑匣子散发出有价值的见解并不是数据分析的工作原理没有明确目标进入流程的公司很可能会花费大量资源而没有明显的利益
  • 咬一口几乎没有目标就是一个过于雄心勃勃的公司,而在定义数据分析目标之前,公司必须考虑其资源和能力,而实际上只有预算和一名全职员工分配给数据分析试点项目的公司实际上可以我们预计明年不会预测美国消费者的偏好趋势,但它有可能成功地确定其一家工厂的生产时间最多和最少的工作时间
  • 根据错误数据做出决策如上所述,数据分析的最终目标是在给定当前和预期的未来事务状态的情况下确定适当的行动方案。如果对正确的行动方案的决策是基于对当前和未来事务状态的不正确评估,则这些决策可能最终造成灾难性的后果。这就是为什么说明性分析需要投资必要的资源以确保准确的说明性诊断和预测分析

构建有效的数据分析项目

知道可能出问题的地方后,让我们考虑如何使数据分析项目成功,并考虑构建有效数据分析项目的一些步骤。

  • 设定明确的目标我们在陷阱部分讨论了此问题,希望利用数据分析的公司需要清楚地了解他们希望从其主动行动中获得什么,包括分析是描述性的诊断性预测性还是规定性的
  • 提出明确的问题无论是估计当前的市场状况还是确定明年公司的定位,重要的是要提出明确的基本问题,例如要知道为什么消费者偏爱某个床垫品牌公司,首先需要找出他们更喜欢哪些品牌。这些品牌的特征是消费者对其他品牌的重视程度等
  • 制定回答这些问题的策略您如何回答有关消费者偏好的问题?它可能包括进行调查,以分析在线搜索数据并与消费者专家进行交流,或者将这些策略与其他策略结合使用
  • 收集数据数据收集步骤实质上是执行上一步中确定的策略的步骤,该策略进行调查以收集有关购买或在线搜索的数据
  • 分析根据执行的数据分析的类型,这可能是一个极其复杂的步骤。如果分析仅是描述性的,则它可能像进行计数或计算平均值一样简单。涉及到得出有关数据中关系的结论和有关预测的更复杂的事情。未来显然涉及更多
  • 重复与任何事情一样,您不太可能会在第一次尝试时就进行数据分析。数据源可能缺乏准确性,或者大量的结论可能是基于数据之间的不正确关联等,但是通过重复从错误中学习的过程并进行必要的调整,公司可以获得随着时间的流逝在数据分析方面的显着能力

企业可以利用各种资源来获取利润,这些资源可以包括有形资产,例如员工的原材料,建筑物和设备。它们还可以包括无形资产,例如知识产权和数据。有关棘手的知识产权和研究数据的更多信息,请滚动至页脚故事数据可能是许多公司刚刚开始了解的宝贵资产

大数据和数据分析听起来像是复杂的概念,除了最复杂的公司以外,其他所有公司都无法达到,但实际上,它们只是像您选择的那样复杂。如果您了解这些概念,则可以狭义而精确地定义一个概念。数据分析目标并获得有意义和强大的结果关键是不要被数据量淹没或对感知的功能和预期结果过分雄心勃勃,并清楚地制定出数据分析项目计划


有关数据收集的法律和监管问题

数据分析本身可能非常复杂,但是公司还需要意识到与数据收集和使用有关的各种法律和法规问题。我们将简要介绍一些问题,并鼓励公司就可能存在的任何担忧与法律顾问进行交谈关于这些以及其他潜在的法律和法规问题

同样,公司应寻求法律建议,以解决此方面的任何问题

  • 数据隐私法包括美国一半州在内的全球各国政府越来越关注何时以及如何收集有关人员的数据以及如何处理数据两个主要的例子是欧盟的《通用数据保护条例》和《加州消费者隐私法》,这两个法律的作用都超过了GDPR分别保护欧盟公民在其居住和居住的地方,无论其在何处收集数据,并且CCPA均可对在加利福尼亚开展业务的任何公司强制执行
  • 数据安全即使公司可以收集和使用消费者数据,许多州仍要求确保数据不被盗窃和无意泄露,这不仅包括信用卡,还包括住家和电子邮件地址以及其他个人身份信息
  • 知识产权公司还需要了解有关谁拥有数据分析项目中正在使用的数据的法律,这是数据的主题吗?收集者和编制者,谁可以出售和使用这些数据,这些问题是数据中知识产权的主题。管理

并非所有的数据收集和分析都会引起法律和法规方面的问题,但是公司需要意识到可能出现的问题的类型并将其暴露于潜在的责任中。

相关文章

您如何帮助ISPA定位有用数据

有想法爱数字和有用的数据告诉

ISPA推出消费者分析计划

新的市场情报有助于床上用品行业增长

寻找床垫行业数据

ISPA统计委员会免费提供有用的行业数据