2020年值得关注的4个大数据走向
发布时间:2021-06-04 13:59:06 所属栏目:大数据 来源:互联网
导读:在过去的几年中,我们在Redpoint投资了超过15家数据公司,并部署了超过2.5亿美元的资本。我们是数据/机器学习基础设施和分析市场的长期信奉者,并没有放缓。根据IDC的数据,全球大数据和业务分析市场在2019年达到约189B美元,预计到2022年将急剧增长至$ 274B
|
在过去的几年中,我们在Redpoint投资了超过15家数据公司,并部署了超过2.5亿美元的资本。我们是数据/机器学习基础设施和分析市场的长期信奉者,并没有放缓。根据IDC的数据,全球大数据和业务分析市场在2019年达到约189B美元,预计到2022年将急剧增长至$ 274B,在此期间的复合年增长率约为13%。
这是一个令人难以置信的动态类别,我非常热衷于分析和评估接下来的工作(例如此处的数据安全性或此处的综合数据)。 我的研究旨在挖掘开创性的见解,最终帮助推动该领域的发展。 以下是我们对2020年主要四大趋势的看法:1)数据质量; 2)数据目录; 3)KPI的可观察性; 和4)流式传输。
1.数据质量
数据质量管理确保数据适合消费并满足数据使用者的需求。为了获得高质量,数据必须是一致且明确的。您可以通过包括准确性,完整性,一致性,完整性,合理性,时间表,唯一性,有效性和可访问性在内的维度来衡量数据质量。数据质量问题通常是数据库合并或系统/云集成过程的结果,在这些过程中,应兼容的数据字段不是由于架构或格式不一致引起的。不高质量的数据可以进行数据清理以提高其质量。
当前,大多数公司没有识别"脏数据"的过程或技术。通常,必须有人发现错误。然后,数据平台或工程团队必须手动识别错误并进行修复。这是一项耗时且乏味的工作(占用了数据科学家80%的时间),这也是数据科学家最抱怨的问题。
高质量的数据对于公司能否依赖它至关重要,而且不良数据的风险也很大。 尽管苛刻的观察结果"垃圾填入,垃圾填埋"困扰了几代人的分析和决策,但它对机器学习(ML)提出了特殊警告,因为开发模型所花费的时间很长。 如果ML工程师花费时间培训并提供使用不良数据构建的ML模型,则错误的ML模型将在生产中无效,并且可能对用户体验和收入产生负面的间接影响。 O'Reilly的一项调查发现,那些拥有成熟AI实践(通过生产模型的时间来衡量)的人将"缺乏数据或数据质量问题"作为阻碍进一步采用ML的主要瓶颈。
数据质量是业务人员和机器决策的基础。 脏数据可能会导致仪表板和执行人员简介中的值不正确。 此外,我们听说过糟糕的数据会导致产品开发决策,从而导致企业在工程上损失数百万美元。 基于不良数据的机器决策可能导致有偏见或不正确的行动。
2020年值得关注的4个大数据趋势
> https://profisee.com/data-quality-what-why-how-who/
有一些提供数据质量解决方案的早期创业公司和开源项目。一些供应商包括Soda Data,Toro Data和Monte Carlo。
2020年值得关注的4个大数据趋势
2.数据目录
根据Alation的说法,数据目录是"元数据的集合,结合了数据管理和搜索工具,可以帮助分析师和其他数据用户找到所需的数据,充当可用数据的清单,并提供评估信息。预期用途的适用性数据。"目录捕获有关数据的丰富信息,包括其应用程序上下文,行为和更改。我们对数据目录感兴趣,因为它们支持自助数据访问,从而使个人和团队受益。借助数据目录,分析师可以避免与IT部门合作来接收数据的缓慢过程,并且可以自行发现相关数据,从而提高了生产率。此外,数据目录可以通过收集有关数据使用,数据访问和PII的信息来帮助实现合规性。
![]() (编辑:钦州站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |


