什么是数据治理以及为什么需要它?
数据治理是当今瞬息万变且竞争激烈的企业环境中的一项要求。既然组织有机会捕获大量不同的内部和外部数据,他们需要一个纪律来最大化其价值、管理风险并降低成本。
什么是数据治理?
数据治理是流程、角色、政策、标准和指标的集合,可确保有效和高效地使用信息,使组织能够实现其目标。它建立了流程和职责,以确保整个企业或组织中使用的数据的质量和安全性。数据治理定义了谁可以对什么数据、在什么情况下、使用什么方法采取什么行动。
精心设计的数据治理策略对于任何处理大数据的组织来说都是基础,它将解释您的业务如何从一致、通用的流程和职责中受益。业务驱动因素强调在您的数据治理策略中需要谨慎控制哪些数据以及从这项工作中获得的预期收益。此策略将成为您的数据治理框架的基础。
例如,如果您的数据治理策略的业务驱动因素是确保医疗保健相关数据的隐私,则需要在患者数据流经您的业务时对其进行安全管理。将定义保留要求(例如,谁更改了哪些信息以及何时更改的历史记录)以确保符合相关政府要求,例如GDPR。
数据治理可确保明确定义与数据相关的角色,并在整个企业内就责任和问责制达成一致。精心规划的数据治理框架涵盖战略、战术和运营角色和职责。
数据治理不是什么
数据治理经常与其他密切相关的术语和概念混淆,包括数据管理和主数据管理。
数据治理不是数据管理
数据管理是指对组织全数据生命周期需求的管理。数据治理是数据管理的核心组成部分,将其他九个学科联系在一起,例如数据质量、参考和主数据管理、数据安全、数据库操作、元数据管理和数据仓库。
数据治理不是主数据管理
主数据管理 (MDM) 侧重于识别组织的关键实体,然后提高这些数据的质量。它确保您拥有有关客户、供应商、医疗服务提供者等关键实体的最完整和准确的可用信息。由于这些实体在整个组织中共享,因此主数据管理是将这些实体的碎片化视图整合到一个视图中——超越数据治理的纪律。
但是,没有适当的治理就没有成功的 MDM。例如,数据治理计划将定义主数据模型(客户、产品等的定义是什么),详细说明数据的保留策略,并定义数据创作、数据管理和访问的角色和职责.
数据治理不是数据管理
数据治理可确保为合适的人员分配合适的数据职责。数据管理是指为确保数据准确、可控且易于被相关方发现和处理的必要活动。数据治理主要是关于战略、角色、组织和政策,而数据管理则是关于执行和运营。
数据管理员负责数据资产,确保实际数据与数据治理计划一致,与其他数据资产相关联,并在数据质量、合规性或安全性方面受到控制。
数据治理的好处
有效的数据治理策略可为组织带来许多好处,包括:
- 对数据的共同理解——数据治理为数据提供了一致的视图和通用术语,同时各个业务部门保留了适当的灵活性。
- 提高数据质量——数据治理创建了一个确保数据准确性、完整性和一致性的计划。
- 数据地图——数据治理提供了一种高级能力来了解与关键实体相关的所有数据的位置,这对于. 就像 GPS 可以代表物理景观并帮助人们在未知景观中找到方向一样,数据治理使数据资产变得可用并且更容易与业务成果联系起来。
- 每个客户和其他业务实体的360 度视图——数据治理建立了一个框架,以便组织可以就关键业务实体的“单一版本真相”达成一致,并在实体和业务活动之间建立适当的一致性级别。
- 一致的合规性— 数据治理提供了一个平台来满足政府法规的要求,例如欧盟通用数据保护条例 (GDPR)、美国 HIPAA(健康保险流通与责任法案)和行业要求,例如 PCI DSS(支付卡行业数据安全标准)。
- 改进数据管理——数据治理将人的维度带入高度自动化、数据驱动的世界。它建立了数据管理的行为准则和最佳实践,确保传统数据和技术领域(包括法律、安全和合规等领域)以外的问题和需求得到一致解决。
云数据治理
随着越来越多的企业和组织意识到将其部分或全部数据存储和流程迁移到云集成战略和iPaaS的好处,对有效数据治理的需求也在不断增加。
迁移到云就是将某些任务委托给第三方,例如基础架构管理、应用程序开发、安全等。云还涉及技术资源的虚拟化,这可能会带来数据主权挑战——例如强制要求数据的法规居住在某个地方或国家。此外,云优先策略通常鼓励去中心化,允许业务线或工作组独立推出自己的系统,这可能会导致不受控制的数据蔓延。
这就是治理的位置。首先,战略数据治理计划对于将内容迁移到云至关重要。无论组织是转向混合还是完全云数据模型,数据迁移过程都将享受整体数据治理计划的所有相同好处,并且迁移本身将更加高效和安全。
此外,将数据流程移至云端会增加安全性和访问方面的复杂性。虽然完全内部部署的数据解决方案仍然需要强大的数据治理策略,但当数据通过云移动时,利益相关者尤其欣赏数据治理的价值。
数据治理工具
为了为您的组织找到正确的数据治理方法,请寻找可以快速、经济地与组织现有环境集成的开源、可扩展工具。
此外,基于云的平台将使您能够快速插入经济高效且易于使用的强大功能。基于云的解决方案还避免了本地服务器所需的开销。
当您开始比较和选择数据治理工具时,请专注于选择能够帮助您实现数据治理策略中列出的业务收益的工具。
这些工具应该可以帮助您:
- 通过发现、分析和基准测试工具和功能来捕获和理解您的数据。例如,正确的工具可以自动检测新数据集中的个人数据(如社会保险号)并触发警报。
- 通过验证、数据清理和数据丰富来提高数据质量。
- 使用元数据驱动的ETL和ELT以及数据集成应用程序管理您的数据,因此可以使用端到端数据沿袭来跟踪和跟踪数据管道。
- 使用积极审查和监控的工具控制您的数据。
- 记录您的数据,以便可以通过元数据对其进行扩充,以提高其相关性、可搜索性、可访问性、可链接性和合规性。
- 使最了解数据的人能够通过自助服务工具为数据管理任务做出贡献。
Talend 了解数据治理并提供有用的基于云的工具,可以帮助任何规模的组织从不受监管的数据转变为主动数据治理。Talend 的数据质量、数据和元数据管理以及数据管理工具功能强大且易于使用,可让您快速有效地满足您的数据治理需求。
数据治理不是可选的
今天的组织拥有大量关于客户、客户、供应商、患者、员工等的数据。当这些信息被正确地用于更好地了解市场和您的目标受众时,一个组织将更加成功。相同的数据治理还将确保这些数据在您的组织内可信、有据可查、易于查找和访问,并确保其安全、合规和保密。
确保您的组织能够最大限度地提高数据治理投资并最大限度地降低数据泄露风险。当您准备好开始时,请查看我们的数据治理解决方案。
什么是数据准备?
良好的数据准备可以进行有效的分析,限制处理过程中数据可能出现的错误和不准确,并使用户更容易访问所有处理过的数据。借助新工具,任何用户都可以自行清理和验证数据,这也变得更加容易。
什么是数据准备?
数据准备是在处理和分析之前清理和转换原始数据的过程。这是处理之前的一个重要步骤,通常涉及重新格式化数据、更正数据以及组合数据集以丰富数据。
对于数据专业人士或业务用户而言,数据准备通常是一项漫长的工作,但将数据置于上下文中以将其转化为洞察力并消除因数据质量不佳而导致的偏见,这是必不可少的先决条件。
例如,数据准备过程通常包括标准化数据格式、丰富源数据和/或去除异常值。
数据准备 + 云的优势
76% 的数据科学家表示,数据准备是他们工作中最糟糕的部分,但只有使用干净的数据才能做出高效、准确的业务决策。数据准备有助于:
- 快速修复错误——数据准备有助于在处理之前发现错误。在数据从其原始来源中删除后,这些错误变得更加难以理解和纠正。
- 生成高质量的数据— 清理和重新格式化数据集可确保分析中使用的所有数据都是高质量的。
- 做出更好的业务决策——可以更快、更有效地处理和分析更高质量的数据,从而做出更及时、更高效和高质量的业务决策。
此外,随着数据和数据流程迁移到云,数据准备也随之迁移,以获得更大的好处,例如:
- 卓越的可扩展性——云数据准备可以随着业务的发展而增长。企业不必担心底层基础架构或试图预测它们的演变。
- 面向未来— 云数据准备自动升级,以便新功能或问题修复一经发布即可启用。这使组织能够在创新曲线上保持领先,而不会出现延误和增加成本。
- 加速数据使用和协作——在云中进行数据准备意味着它始终处于开启状态,不需要任何技术安装,并让团队在工作中进行协作以获得更快的结果。
此外,一个好的云原生数据准备工具将提供其他好处(如直观且易于使用的 GUI),以便更轻松、更高效地进行准备。
数据准备步骤
数据准备过程的细节因行业、组织和需求而异,但框架基本保持不变。
1. 收集数据
数据准备过程从找到正确的数据开始。这可以来自现有的数据目录,也可以临时添加。
2. 发现和评估数据
收集数据后,发现每个数据集很重要。此步骤是关于了解数据并了解在数据在特定上下文中变得有用之前必须完成的工作。
发现是一项艰巨的任务,但Talend 的数据准备平台提供了可视化工具,可帮助用户分析和浏览他们的数据。
3. 清理和验证数据
清理数据传统上是数据准备过程中最耗时的部分,但它对于删除错误数据和填补空白至关重要。这里的重要任务包括:
- 去除无关数据和异常值。
- 填补缺失值。
- 使数据符合标准化模式。
- 屏蔽私人或敏感数据条目。
数据清理完毕后,必须通过测试数据准备过程中的错误来验证数据。很多时候,系统中的错误会在此步骤中变得明显,需要在继续之前解决。
4. 转换和丰富数据
转换数据是更新格式或值条目的过程,以达到明确定义的结果,或者让更广泛的受众更容易理解数据。丰富数据是指添加数据并将其与其他相关信息连接起来,以提供更深入的见解。
5. 存储数据
准备好后,数据可以存储或导入第三方应用程序(例如商业智能工具),从而为处理和分析扫清障碍。
了解 Talend 的受控自助服务应用程序如何通过结合直观的自助服务数据准备、数据管理和企业级数据集成来解决常见挑战:
自助数据准备工具
数据准备是一个非常重要的过程,但它也需要大量的资源投入。数据科学家和数据分析师报告说,他们 80% 的时间都花在了数据准备上,而不是分析上。
您的数据团队是否有时间进行彻底的数据准备?根本没有数据科学家或数据分析师团队的组织呢?
这就是Talend Data Preparation等自助数据准备工具的用武之地。具有机器学习功能的云原生平台简化了数据准备过程。这意味着数据科学家和业务用户可以专注于分析数据,而不仅仅是清理数据。
但它也允许可能缺乏高级 IT 技能的业务专业人士自己运行流程。这使得数据准备更像是一项团队运动,而不是浪费宝贵的资源和 IT 团队的周期。
要从自助数据准备工具中获得最大价值,请寻找具有以下功能的平台:
- 从任何数据集访问和发现数据——从 Excel 和 CSV 文件到数据仓库、数据湖和云应用程序(如 Salesforce.com)。
- 清洁和浓缩功能。
- 自动发现、标准化、分析、智能建议和数据可视化。
- 将函数导出到文件(Excel、Cloud、Tableau 等)以及受控导出到数据仓库和企业应用程序。
- 可共享的数据准备和数据集。
- 设计和生产力功能,例如自动文档编制、版本控制和在 ETL 流程中操作。
数据准备的未来
最初专注于分析,数据准备已经发展到可以解决更广泛的用例集,并且可以被更广泛的用户使用。
尽管它提高了使用它的人的个人工作效率,但它已经发展成为一种企业工具,可以促进 IT 专业人员、数据专家和业务用户之间的协作。
数据准备入门
数据准备通过在处理之前消除错误和规范化原始数据,为分析和其他数据管理相关任务创建更高质量的数据。这很关键,但需要花费大量时间,并且可能需要特定技能。
然而,现在有了智能数据准备工具,这个过程变得更快,更广泛的用户可以访问。
什么是数据质量?定义、示例和工具
数据质量是调节数据以满足业务用户特定需求的过程。数据是您组织最宝贵的资产,基于有缺陷数据的决策可能会对业务产生不利影响。这就是为什么在与每个需要它的人共享数据之前,您必须对数据质量有信心。
数据质量差的影响
企业可以从数据中提取的洞察力与数据本身一样好。不良数据可能以多种形式来自组织的每个领域,并可能导致难以挖掘洞察力并最终导致决策失误。
数据质量是许多高管担心的问题。根据福布斯洞察和毕马威“ 2016 年全球 CEO 展望”,84% 的高管担心他们用于商业智能的数据质量。数据质量差可能代价高昂;麻省理工学院斯隆进行的一项惊人研究指出,不良数据的成本可能高达总收入的 15-25%。
好消息是,您不必让不良数据给您的公司带来更多的时间和金钱。将六个数据质量指标放在数据收集计划的最前沿将促进业务系统的最佳性能并支持用户对数据可靠性的信心。
设定数据质量期望
无论组织的规模、职能或市场如何,每个组织都需要关注数据质量,以了解其业务并做出合理的业务决策。数据的种类和来源极其众多,其质量将根据其用途和原因对业务产生不同的影响。这就是为什么您的企业需要根据您希望从数据中获得的内容,以协作方式为上述六个指标中的每一个设定独特且一致的期望。
数据的价值主要体现在它支持基于商业智能的业务流程或决策时。因此,商定的数据质量规则应考虑数据可以为组织提供的价值。如果确定数据在某个上下文中具有非常高的价值,则这可能表明在该上下文中需要更严格的数据质量规则。因此,公司必须就数据质量标准达成一致,不仅基于数据质量维度本身——当然还有数据质量必须满足的任何外部标准——而且还基于不满足这些标准的影响。
忽视数据质量的高昂代价
随着时间的推移,无所作为的成本会呈爆炸式增长。可怜的数据质量管理如果在使用之前被捕获 - 在其起源点,则可以更容易地缓解。如果您在入口点验证或标准化数据,然后再将其输入后端系统,我们可以说标准化它的成本约为 1 美元。如果您稍后清理该数据,在所有不同的地方进行匹配和清理,那么就花费的时间和精力而言,与第一美元相比,它将花费 10 美元。仅仅将那些质量不佳的数据留在您的系统中,并不断为您提供劣化信息以做出决策、发送给客户或呈现给您的公司,将花费您 100 美元,而成本为 1 美元。在其入口点处理该数据。坏数据在系统中的时间越长,成本就越大。因此,目标是
数据质量的制胜法宝
为此,您需要在公司中建立一种普遍、主动和协作的数据质量方法。数据质量必须是每个团队(不仅仅是技术团队)都必须负责的事情;它必须涵盖每个系统;并且必须制定规则和政策来阻止不良数据进入。
这听起来不可能吗?它不是。这是您开发这种方法的路线图:
- 建立跨学科团队:招募数据架构师、业务人员、数据科学家和数据保护专家作为核心数据质量团队。它应该由部署负责人管理,他应该既是团队教练又是数据质量项目的推动者。
- 从一开始就设定您的期望:为什么是数据质量?在业务人员中找到您的数据质量答案。确保您和您的团队知道您的终点线。确保您设定的目标具有很高的业务影响力。
- 预测法规变化并管理合规性:利用您的数据质量核心团队应对GDPR等短期合规性计划。然后,您将立即获得短期价值和战略可见性。
- 制定有影响力且雄心勃勃的目标:在制定数据质量计划时,不要犹豫,设定大胆的业务驱动目标。您的计划将保持董事会的注意力并扩展人们的能力。
- 仍然提供速赢:速赢始于让业务参与数据管理。示例包括载入数据、更快地将数据迁移到云或清理您的 Salesforce 数据。
- 实事求是:定义并积极使用每个人都接受和理解的可衡量的 KPI。数据质量与业务相关,因此使用业务驱动的指标(例如 ROI 或成本节约改进率)推动您的项目。
- 庆祝成功:在完成具有可衡量结果的项目时,请确保您花时间使其在主要利益相关者中可见。专业知识很好。最好有良好的沟通技巧。
管理整个企业的数据
主动的数据质量方法使您可以在数据真正进入您的核心系统之前检查和衡量该质量水平。跨内部、云、Web 和移动应用程序访问和监控这些数据是一项艰巨的任务。在所有这些系统中扩展这种监控的唯一方法是通过数据集成。因此,有必要实时控制数据质量。
当然,通过在数据集成过程中插入控制规则来避免错误数据的传播是关键。使用正确的数据质量工具和集成数据,您可以创建举报人,以检测整体数据质量问题的一些根本原因。然后,您将需要在您的应用程序和系统环境中跟踪数据。这使您可以实时解析、标准化和匹配数据。您可以随时组织活动以检查正确的数据。
不良数据质量的成本可以计入失去的机会、错误的决策以及寻找、清理和纠正不良错误所需的时间。协作数据管理以及在源点纠正错误的工具是确保每个需要它的人的数据质量的明确方法。了解Talend Data Fabric提供的众多应用程序,以帮助实现这两个目标。
什么是数据安全?
数字数据是当今企业的支点,预计到 2027 年大数据市场将达到 1030 亿美元。
与此同时,数据泄露的数量也相应增加。在美国,数据泄露事件的数量从 2005 年的 157 起增加到 2018 年的 1244 起——暴露了 4.465 亿条记录,并引起了试图保护其数据的公司的极大关注。
随着数据安全成为前所未有的中心,让我们了解它的含义、重要性以及如何保护数据免受可能的攻击。
什么是数据安全?
数据安全是为防止数据损坏而采取的措施的集合。它结合了系统、流程和程序的使用,使可能以有害或意外方式使用数据的个人无法访问数据。数据安全漏洞可能很小且易于控制,也可能很大并造成重大损害。
数据安全适用于个人和组织。对于个人而言,可能的违规行为可能涉及身份盗用或信用卡详细信息等个人信息。
在组织级别,发生违规的方式有很多种。示例包括勒索软件案例(黑客期望获得金钱回报)和普通恶意软件案例(黑客旨在破坏业务)。
当今大多数公司面临的挑战涉及跨多个系统和平台的碎片化数据。大规模迁移到云和使用 SaaS 应用程序在效率和成本方面具有巨大的优势,但这也意味着将安全控制权交给第三方提供商。
这意味着黑客有多个切入点,即使在看似微不足道的情况下对机密数据进行冷酷无情的管理也可能危及公司及其客户的数据。
数据安全的重要性
数据泄露的众多途径可能会给公司带来客户、声誉和金钱方面的重大损失。据报道,如果数据丢失,近60% 的中小型企业将在六个月内关闭。
这在书签共享网站Ma.gnolia的案例中很明显,该网站在导致公司数据库服务器宕机的崩溃中丢失了所有用户数据。即使 Mag.gnolia 有备份,损坏的文件也会与备份同步,使它们无法使用。仅仅发生了一起可怕的事件,该公司就从一个引人入胜且用户友好的网站变成了一个不存在的网站。
大公司也有他们的违规行为。例如,雅虎在 2013 年遭遇了数据盗窃。虽然最初估计影响不那么严重,但到 2017 年,很明显雅虎的30 亿用户帐户实际上已全部被盗。这产生了影响,当时准备收购雅虎的威瑞森大幅降低了最初的报价。
撇开声誉和财务影响不谈,数据安全对于确保遵守GDPR(针对欧盟用户相关数据)、HIPAA(针对医疗保健数据)、萨班斯奥克斯利法案(针对金融行业)和 PCI等法规至关重要-DSS(用于信用卡和支付数据)。不遵守规定可能会导致向政府支付巨额罚款以及业务损失。
5种数据安全
现在我们已经确定了安全性的“为什么”方面,让我们看看“如何”。如何实施数据安全的范围很广,因此单一的方法无法堵住所有可能的漏洞。
这就是为什么我们依靠多种技术来解决这个问题。让我们来看看几种常见的数据安全类型。
- 网络层:作为第一级保护,组织需要保护其 TCP/IP 层,以确保只有合适的人员才能访问其网络。电子邮件网关、无线网络、移动设备和 VPN 层的保护属于网络安全的范围。防火墙、访问控制层、网络分段和防病毒程序是帮助实现这一目标的一些方法。使用带有底层密码算法的 IPSec 协议加密数据包是屏蔽网络的另一个例子。
- 应用程序安全性:安装在您的移动设备上的非安全应用程序可能会暴露存储在设备上的所有私人详细信息。同样,存在漏洞的应用程序可能成为攻击者访问公司其余数据的入口点。例如,源存储库中的硬编码密码比人们想象的更常见。 许多公司使用开源代码和大量第三方应用程序。在将它们纳入公司的保护伞之前,评估这些工具和应用程序是否没有任何风险至关重要。
- 数据屏蔽:必须关注数据如何在系统之间持久化或传递。机密数据始终需要混淆或加密,以免怀有恶意的人滥用它。部分地屏蔽和存储数据可确保虽然数据在内部有意义,但它对黑客来说仍然是匿名的。
- 数据删除:系统中存在大量杂散和不必要的数据,使其维护具有挑战性。为了顺利进行数据治理,需要经常清理数据,确保其完整性。例如,如果银行客户终止其帐户,则清理工作应删除对客户可能拥有的所有服务的访问权限。GDPR 等法规强制要求公司及其供应商执行此操作。
- 恢复丢失的数据:在灾难和盗窃期间防止数据丢失对于业务连续性至关重要。全球数据中心的多样化有助于在发生事故时更改主要位置。即使有数据丢失,也需要有备份和恢复机制来使业务重新站稳脚跟。
在导致数据丢失的网络攻击的情况下,此类数据检索方法可以显着降低相关公司的风险。
数据安全解决方案:关键功能和特性
保护数据的传统方法是使用解决孤立问题的各种工具。然而,在当今复杂的数据环境中,具有数据集成功能的云原生解决方案是一个小时的需要。
目标是拥有一个单一平台或工具来整合来自多个来源的数据并实施适当的验证和治理策略。这种方法避免了数据质量问题,例如最终可能使公司面临风险的冗余和孤立数据。此外,确保数据完整性的措施有助于客户获得对其数据的完全信任。
此外,这样的工具应该能够扩展到不断增长的数量并促进与大多数组织用来运行其日常业务的各种基于云的应用程序的兼容性。
最重要的是,它应该是最先进的安全解决方案,可自动提供对各种法规(如 GDPR 或 HIPAA)的合规性。例如,检查 PII 字段是否加密。
云和数据安全的未来
大多数组织已经或正在将大部分数据迁移到云端。有些人甚至选择了多云环境。利用 IaaS、PaaS 和 SaaS 解决方案的组合,应用程序、硬件和数据库驻留在云上。为了增加复杂性,这些正在与本地系统结合使用。近年来,这使得保护数据及其基础设施变得更具挑战性。
人们似乎在将完全控制权交给云解决方案或对云安全性抱有极端怀疑之间摇摆不定。相反,在云时代实施安全需要更平衡的视角。
云集成是不可避免的,但它需要适应新环境并对数据安全解决方案进行适当的更改。
首先,公司需要在信任之前对云解决方案进行全面评估。提出以下问题有助于确保云解决方案不仅仅是一个黑匣子:
- 供应商承诺多少数据可用性或停机时间?
- 提供什么样的备份解决方案?
- 隐私政策是什么?敏感数据是否加密?数据是与第三方共享还是有严格的限制?
- 解决方案对合规性法规的遵守情况如何?
- 数据中心位于哪些位置?什么样的法规适用于这些地区?
其次,公司需要一种解决方案来监控其数据的完整性。数据完整性(包括数据安全性和质量)对于确保数据的准确性和一致性至关重要。此外,数据完整性有助于保护数据免受外部威胁。它确认只有合适的人或系统才能操作数据,并且没有硬件或数据因任何漏洞而受到损害。
基于云的技术的持续增长将需要数据安全解决方案来制定相应的战略。他们需要构建可以从每个来源提取数据、合并、清理和管理它们的连接器,以便组织能够保护他们的数据并做出关键决策。
数据安全入门
数据安全可能是一个古老的问题。但是,数据来源的多个点以及越来越多的外部和内部攻击需要现代的、基于云的方法。
Talend Data Fabric提供了一套用于数据集成和完整性的自助服务应用程序。用户可以跨系统收集数据,对其进行管理以正确使用,将其转换为新格式并提高质量,并与内部和外部利益相关者共享。
通过这样做,Talend Data Fabric 通过解决数据价值链中一些最复杂的方面来缩短获得可信数据的时间。从本质上讲,它解决了可能危及数据安全的根本问题。立即开始使用 Talend Data Fabric。



