解决方案

AI大数据应用管理

方案概述

相关产品

人工智能正在悄无声息地改进数据管理,包括提高数据质量、可访问性和安全性。然而,随着数据量的不断增长,数据管理变得越来越关键。

对于创建一个能在整个组织范围内发挥作用的数据环境来说,数据管理至关重要。高效的数据管理能够尽可能降低不良数据所导致的问题,如增加阻力、预测失准,甚至简单的数据不可访问性,最好在这些问题发生之前加以解决。

数据管理是一项劳动密集的过程,包括清洗、抽取、整合、编目、标记和组织数据,同时还需要定义和执行许多与数据相关的任务,这些任务通常会让数据专家和员工感到沮丧他们标题中的“数据”。

人工智能已经在数千个领域取得了成功应用,但其中一个较为低调且不太显眼的应用是优化数据管理。我们认为人工智能在五个常见的数据管理领域发挥着关键作用:

分类:泛指从文件、照片、手写内容和其他媒介中搜集、抽取和构建数据

编目:有助于找到数据。

质量:降低数据中的误差。

安全性:保护数据免受不良行为者的侵害,并确保根据相关法律、政策和习俗使用数据。

数据集成:协助创建数据的“主清单”,包括通过列表合并操作。

接下来,我们将逐一探讨这些领域。同时,我们也将阐述供应商格局以及人类在数据管理中不可或缺的方法。

 

人工智能对数据管理的影响

仅依赖技术无法替代优秀的数据管理流程,例如主动提升数据质量、确保每个成员明确自己的角色与责任、建立数据供应链等组织架构以及制定关键词汇的统一定义,但人工智能仍然是一项宝贵的资源,能够显著提高生产效率和企业从数据中获取价值的能力。以下是五个领域,在这些领域中,人工智能可以对组织内的高效数据管理产生最大的影响:

数据分类:数据分类和提取是一个广阔的领域,随着越来越多的媒体被数字化以及社交媒体越来越以图像和视频为中心,它的规模还在不断扩大。在当今的在线环境中,如果没有人工智能,就不可能大规模地审核内容以识别不当帖子(尽管许多人仍在该领域工作)。我们在这个领域包括分类(这是仇恨言论吗?),身份/实体解析(这是人还是机器人,如果是人,是哪一个?),匹配(数据库 A 中的 Jane Doe 是否与数据库 B 中的 JE Doe?),数据提取(此司法备案中最重要的数据是什么?),等等。

多年来,人工智能的原始形式一直用于光学字符识别 (OCR),以从银行支票或写有地址的信封等物品中提取重要数据。OCR 变得如此普遍,以至于我们不再考虑 AI 等功能。较新的 AI 系统已通过深度学习模型扩展了 OCR,这些模型现在能够准确读取人类笔迹。

重要数据通常使用固定的文档格式,例如传真、PDF和冗长的文字处理文档,这些数据必须先被提取才能访问、分析或回答相关问题。例如,在医疗保健领域,数据仍然通过传真传递,因此需要大量的人力才能访问它。为了解决这个问题,一家电子病历公司开发了一个人工智能程序,可以从传真中提取数据并将其直接输入到电子病历系统中,从而节省了大量时间和人力资源。此外,人工智能程序还可以从合同中识别和提取重要条款,这对于律师和审计员等专业人员非常有用。

数据编目:人工智能可以自动搜索各种数据存储库,并自动创建目录,以便更轻松地管理数据。此外,通过使用人工智能系统,可以捕获系统文档中存在的任何元数据,使其更加容易访问和理解。另外,人工智能还能够描述数据的流程,包括数据来源、创建者、修改方式以及当前位置等信息,以便更好地跟踪和管理数据的流向和使用情况。

尽管使用人工智能技术可以更方便地创建数据目录和管理数据传承信息,但是目前许多公司在处理数据时面临着一些混乱的问题。有些公司不想使用传统的劳动密集型方法来创建目录,因为这可能暴露出数据结构混乱的程度,或者他们希望等待数据组织更好、质量更高后再进行大量工作。但是,利用人工智能技术轻松创建和更新目录可以使公司更轻松地访问信息并持续改进数据流程。

数据质量:数据质量工具本质上是实施控制,通常使用业务规则来定义允许数据值的域。考虑一个由一天和一个月组成的日期。允许值的组合只有 366 种。因此,“Jebruary”不是允许的月份,“35”不是允许的日期,“February 31”不是允许的组合。定义、编码和更新业务规则尤其繁重,而我们在基于机器学习的 AI 中看到了巨大的好处。

AI工具可以自动扫描数据以检测不允许的值,一些错误的值可以自动进行纠正,而其他值则需要分配给某个人或组进行手动更正。一些供应商已经宣称他们的工具使用机器学习技术来实现这一目的。

AI还可以实现其他与数据质量相关的功能,如使用来自内部或外部数据库的额外信息(在匹配过程之后)来扩展数据、预测如何填补缺失的数据、以及删除重复或很少使用的数据。换句话说,这些功能利用AI技术自动完成数据质量方面的任务,包括数据的扩充、缺失值的填补和无用数据的清除等。

对于供应商来说,支持更主动的数据质量管理方法非常重要,这可以通过改进他们的工具来实现——一种专注于预防数据错误而不是发现和修复错误的方法。为此,应该在最接近数据创建点的位置应用控件来确保数据质量。此外,工具应该能够将数据质量测量与业务影响密切相关,并支持统计过程控制和质量改进。

最先进的解决方案利用机器学习技术,跨多个内部和外部系统自动收集安全数据,并将非结构化数据转换为结构化数据,以便评估威胁的可信度。通过人工智能系统,可以基于以往的攻击模式预测可能的攻击路径,并确定新的威胁是来自已知的攻击者还是新的未知威胁。鉴于跨多个未连接的安全系统的误报数量,决策规则和机器学习模型的组合可以对威胁进行优先排序或分类,以供人员进行调查和处理。

数据集成:人工智能在数据管理方面的一个重要改进是在数据集成领域,也称为主数据管理,它涉及创建一个主数据记录或“黄金记录”,作为组织内数据元素的最佳来源。组织可能需要数据集成的原因有多种,包括随着时间的推移,他们积累了不同版本的关键数据,想要将交易数据用于分析目的,或收购了其他公司拥有的数据库。然而,在历史上,对于大型组织来说,数据合并和主数据管理一直是一项需要多年的努力。确保不同标注员之间标注的一致性是一个挑战,需要通过培训、指导和团队协作来解决。

在过去,主数据管理是最常见的数据集成方法,其使用一系列业务规则来决定是否合并一组特定的客户或供应商记录,因为它们本质上是相同的记录。然而,创建和修改大量的规则非常复杂和昂贵,这导致许多数据集成项目在完成之前被放弃了。


哪些数据管理需要人工来做?

虽然AI在优化数据管理方面取得了成果,但仍有很多事情它无法完成。总之,高质量的数据仍然需要优秀的管理者,他们重视数据,将其视为珍贵的资产,并构建相应的管理框架。

AI 帮助不大的具体任务包括:

创建数据策略并确定哪些数据对企业最重要。

创建数据驱动的文化。

校准传感器或设备。

制定数据治理政策和结构。

定义关键业务术语或使用通用语言。

确定组织是使用正确的数据还是错误的数据来解决问题。

因此,所有组织仍然需要人们参与数据管理,包括那些创建和使用数据的普通员工以及负责构建、保护和管理数据的数据管理专家。无论是现在还是未来,高度结构化且频繁执行的数据管理任务都将不可避免地在AI的辅助下实现自动化。这对于数据管理及其用户和从业人员来说总体上是好消息,尽管一些初级数据管理专业人员的职位可能会发生重大变革,甚至消失。对于认为优质数据对当前和未来运营至关重要的组织来说,规划他们期望AI完成哪些任务、哪些活动仍应由人类执行以及如何实现二者之间的协作是非常重要的。

  • 查看移动端

  • 微信公众号

Copyright © 2023-2024 REDPA 版权所有 备案号:沪ICP备15025101号

技术支持:微动力网络