北爱尔兰专场回顾
安创芯视野北爱尔兰专场活动(二)旨在通过介绍北爱尔兰的优秀代表科技企业,带我们进一步了解北爱尔兰的创新创业与科技发展现状,助力两国科技企业的友好交流和共同发展。
此次活动邀请到了北爱尔兰优秀创新科技企业代表Datactics公司为我们分享数据质量行业的技术和发展趋势。Datactics公司的首席技术官Alex Brown、AI研发部门负责人Fiona Browne博士、以及市场及合作伙伴经理Matt Flenley三位嘉宾将从客户需求和技术的角度切入,为我们详细解读如何利用Datactics的AI加持的核心技术和解决方案帮助客户处理内部数据的混乱。
(以下是活动内容整理)
三种解决方案 全方位满足客户多阶段需求
首先,Datactics公司市场及合作伙伴经理Matt Flenley回顾了公司过去三年的快速增长的原因。他表示,Datactics公司开发的软件主要是为了帮助银行、政府以及拥有大量混乱数据的部门,去优化和管理他们的数据,使其符合数据规范以及达到某种标准。
Matt Flenley介绍到,从2008年国际金融危机开始,国际上对于金融行业的要求变得越来越严格。这就让很多拥有大量客户数据的金融机构,需要花费大量的时间才能找到最终实益拥有人。虽然很多公司已经委托第三方机构提供数据质量管理解决方案,但大多数情况下,这些解决方案并不能支持一线业务团队,这些第三方提供的服务对于业务团队来说是毫无意义的,真正有意义的服务,是能够根据实际业务需求,完成自主服务。在银行或者金融业工作的时候我们会面对大量的数据,本来这些大量的数据可以让我们更具竞争力,并且协助我们解决日常工作中遇到的一些管理问题,比如重复报表、地址搜寻等等,然而我们并不知道哪些数据可以使我们获得客户。
我们的优势在于我们能够为客户提供基于数据质量的自助服务。这一过程中,我们采用了很多尖端技术来分析和处理数据,并且能够从各种不同的内部和外部来源制造高质量的数据。
2020年是极具挑战性的一年。很多人很早就意识到,他们需要更加有效的数据来解决目前遇到的困难。新冠疫情的蔓延对我们的一些客户产生了影响,但是他们仍可以在邮件系统正常工作的情况下,通过我们软件产生优质数据与客户进行联系,这事值得庆贺的事情。我们可以在24小时内完成数据的处理,而同类公司的这类应用程序在不同时期可能需要几周时间才能搭建完成。
我们重点关注金融服务业,主要是因为监管水平不断提高,并且在过去三四十年里收集了海量数据。作为一家软件解决方案公司,Datactics本身就非常适合处理这个领域的数据管理状态。目前在数据处理领域,大家都在关注数据质量的某个方面,希望能够通过部分数据访问整个数据生命周期的所有数据。但是除非你拥有处理特定数据质量的功能,否则你在其他应用程序看到数据会与你储存的数据不一致。
Matt Flenley表示,当你的数据在组织中流动时,其质量是不可依赖的。现阶段,银行的相关部门对资料收集,配对,检测,梳理,自动操作等业务特别重视,并使用人工智能来帮助处理。在国际市场,相当多的数据管理、数据治理和数据质量主管都对我们的解决方案给予好评,并采用我们的软件来独立验证他们持有的数据的质量。这并不是说他们拆除并替换现有的数据技术应用来进行数据管理。而是与那些国际供应商一起使用我们的产品。
Matt Flenley介绍到,我们会与客户共同解决遇到的问题,并在与客户的交流中共同成长,进而解决客户面临的各类业务问题。Datactics公司主要从三个方面来满足我们客户的需求:
一、自助式数据质量处理。它围绕着数据质量管理,专门针对法规遵从性,也针对其他下游应用程序。它常是进入数据管理部门使用,首席数据官或者是数据质量治理负责人将是主要用户。
二、单一客户视图。这几乎困扰着全世界的每一家公司,但在金融服务领域尤为突出。对于一家试图了解自家公司的解决方案与另一家公司的解决方案有什么不同的时候,Datactics公司可以快速有效的发现更加优质的的个性化客户和目标定位市常除此之外,除非您对所有不同的数据孤岛和系统拥有真正全面的单一视图,否则您无法做到这一点。
三、匹配引擎。更多的是在数据匹配方面,这部分功能是为了能够理解公司之间的细微差异和广泛差异,这些数据可以是人员数据、实体级别数据,也可以是任何类型的数据,以便简化入职流程和增强实体解析。例如,这项技术可以使用在一个复杂的领域,可以将客户和实体数据与制裁名单进行匹配,以便对登机客户进行预先筛查和反洗钱。
转写技术与匹配引擎 打破地域限制
Datactics公司首席技术官Alex Brown,为我们着重介绍了Datactics公司的转写技术与匹配引擎。
Alex Brown以一份制裁名单为例介绍到,如果一份制裁名单中的名字是用非拉丁文书写的,可能是俄罗斯语、中文、日语或者其他,但现阶段你要将这些制裁名单与通常以拉丁文发布的制裁名单进行匹配。你就会遇到一个问题,就是要把非拉丁文字转换成拉丁文字。为了做到这一点,你通常会使用基于云的API翻译,比如Google Translate等。
Alex Brown认为,这会让我们遇到一个问题,就是我们无法向云服务提交数据,因为这种性质的数据可能是极其敏感的数据,我们不能使用基于云的服务。同时,如果遇到大段的文字需要翻译,那些基于云的服务实际上可能会相当慢。但是如果从匹配的领域来看,那些人名与公司名的匹配,会比单纯转写方法要高效的多。此外,它还有一个好处,可以在一个匹配的系统完成,数据不一定非要离开您的视线,无需使用任何云API服务。
在实际情况中,我们可能会遇到这样的问题。您可能是一个拥有地区性数据库的全球性组织,在英国的一个数据库里有客户的名字,在中国大陆或香港的另一个数据库里也有客户的名字,甚至这两个数据库中可能存在相同的客户,但可能是存在不同的字符集。这里会遇到一个很大的挑战,您如何知道这两个数据库中是否都存在这些客户?为了找出答案,您必须做一个转写。要做到这一点,之前的方法是需要专业领域的知识。因此,在英国,如果有人拿到各种中文、日文等字串,可能根本不会知道那是什么字串。大家不会知道这是一个人的名字,还是一个公司的名字,或者可能是某个地方有一条短信,大家认为上面写着未知或类似的东西。
通常遇到这种情况,英国办事处会将这些文字委托给中国内地、香港或日本或类似的办事处,让当地的语言主题专家自己进行这些匹配。显然,会出现效率低下的情况,比如把工作分派给不同时区和不同时区的不同团队,会出现延迟情况。
相比之下,Datactics公司尝试通过一套系统,自动完成这项工作。这套系统它将自动识别非拉丁语,自动转写,然后根据这些语言执行匹配算法。从本质上说,它所做的就是尝试用最少的精力来实现目标,使得大部分匹配可以在软件本身内自动完成。然后,如果出现难以翻译或音译的文字,所有这些边缘情况都可以委托给语言专家。至此,我们的资源得到了更有效的利用。
还有一个例子是制裁审查模块,通过Datactics自助式数据质量平台上建立一个平台来实现这一功能。在各种来源的制裁名单中,我们可以摄取的名单数量没有限制。我们可以用一天时间来执行字符集之间的所有转写,并快速执行具有各种模糊容差的各个字段之间的匹配,然后将结果返回给最终用户。这其实是一个非常简化的制裁匹配引擎架构。但Datactics并不出售制裁审查服务。我们销售的是一个通用匹配引擎,可以配置为实现跨人群数据、反数据、产品数据的匹配。这里的例子只是将其应用于制裁名单和人员数据。它还提供了一个REST接入点,允许Web应用程序与之集成。
目前我们都是在匹配过程中建立转写,让我们真正能够实现在不同的字符集和全球数据库之间进行匹配。现在我们所看到的匹配都是基于确定性匹配规则的,到目前为止,还没有展示引入机器学习的过程中的任何特点,我们要引入机器学习的地方是在确定性规则匹配发生之后的一个过程中。
通过机器学习提高数据质量
Datactics公司AI研发部门负责人Fiona Browne博士,就Datactics公司在哪些方面使用机器学习来增强现有的匹配过程为我们进行了详细介绍。
Fiona Browne博士强调,机器学习赋能现有的匹配过程,更加注重确保偏移量的数据质量,而不是匹配过程本身。在这里,机器学习真正关注的是批量匹配过程中的人工审查案例,目的是利用机器学习来减轻在阶段执行审查的专家和人工审查的负担。
Fiona Browne博士介绍到,整个匹配过程分为三步:
第一步是确保数据质量。在流程内未执行任何匹配之前,需要花费大量的时间来分析和清理数据。这是非常重要的一步,它对匹配过程的数据质量有着很大的影响。通过针对各种各样的数据源进行清理,在这一过程中也可以识别这些数据中的潜在错误。系统会做一次分析,找出拼写错误等等,并且处理数据不准确的问题。在这个阶段,我们也可以对这些集中数据执行数据应用。对于错误或不正确的数据,系统中有一个隔离区,会在那里放置损坏的数据,其实也可以当作数据质量诊所。在数据质量诊所,可以修复这里的任何损坏的数据。
第二步是匹配阶段。目前的匹配是基于确定的规则,同时也能够执行复杂的匹配规则,譬如对于非标准化失败和不同字符集之间的匹配。然后这些规则可以应用于您的数据集中的各种事物,通过使用内存和数据中的东西来形成高速匹配。在内部,我们会使用机器学习来增强这一过程。使用机器学习的目的是为了减少人工审查环节。此外,在匹配过程中,可能会出现不太丰富的置信度匹配,以及规则设置的很多阈值,这些就需要由专家手动检查,以确定是否匹配。
最后一步,我们向专家学习如何解决这些低信任度的匹配。这样做的好处是,可以在很大程度上确认预测低信任度匹配是否为真,还能够减少需要分析师手动检查的误报匹配。
而在软件运行的过程当中,都会记录人类的决策,并将其发展成我们的模型,其中透明度和可解释性在我们开发的模型中尤为重要,因为这些对于我们的客户来说非常重要。尤其是在金融和政府部门,这些部门受到高度监管,有必要在预测中提供这种可解释性和透明度。