湖北消防消毒涉疫场所110万平方米

众志成城,抗击疫情。为助力打赢疫情防控阻击战,近期,湖北省消防救援总队紧急组建疫情应急处置党员机动突击大队,在各市州下设14支党员机动突击分队,主动对接当地防疫指挥部,协助做好涉“疫”场所消杀工作。截至2月24日,全省消防救援队伍参与防疫消杀任务63起,出动车辆142辆、指战员353人,对56个居民小区、33个隔离留观点、12个城市广场、8个医护人员居住点、6家医院等重点场所进行消杀作业,累计消毒面积109.8万平方米。

哪里有危险,哪里就有消防员

而 Inductiv 引擎作为首个用于结构化数据处理的可扩展 AI 平台,则成功解决了这些挑战!

虽然人工智能的最新发展已经从非结构化数据中挖掘出了巨大价值,但对结构化数据而言,其研究和应用也是不可忽视的,因为结构化数据对于驱动企业的业务发展、营收、数据安全以及数据治理方面都有着重大意义。

然而,香港商业人士和专家学者普遍认为,纾困措施只能短期输血,长期来看,只有尽快恢复社会秩序和法治,从根本上改善香港营商环境,才能恢复投资者和消费者信心,让香港经济真正迎来转机。

随着最新一轮纾困措施正式出台,香港特区政府自8月以来已连续四次推出针对企业和市民的支援计划,涉及金额共计超过250亿港元。专家指出,纾困措施缓解了中小企业和普通市民的经济压力,效果明显,但欲扭转困局、提振本地经济,则需尽快结束社会动荡,重建稳定有序的营商环境。

自6月起,从业27年的导游温先生几乎一个旅游团也没有接待,只能靠兼职和存款维持生活。这位挺过了1998年香港金融风暴、2003年“非典”的资深从业者说,能不能熬过这次,他心里也没底。

香港中华总商会会长蔡冠深强调,纾困措施要有效发挥作用,经济增长要获得提振,前提是社会必须恢复平静,香港中华总商会支持特区政府采取一切有效措施止暴制乱,并呼吁社会各界团结一致,共同为当下困局寻找出路。

埃信华迈首席经济师预测,除非12月份出现重大复苏,否则2019年第四季度香港本地生产总值将跌逾5%,商业信心仍徘徊在历史低点,营商前景黯淡。国际货币基金组织代表团造访香港后指出,香港经济活动在2019年显著转弱,在第三季步入技术性衰退,预期香港2019年的实质本地生产总值会收缩1.2%。

有学者预计,纾困措施能够对冲香港本地生产总值1个百分点的下跌,虽然看上去比例并不大,但相较于香港以往个位数的经济增速来说,已经非常重要。

动荡之下,从出租车司机到餐厅服务员,从会展承办商到保险经纪人,广大香港市民的工作生活都受到沉重打击。

如今的商业化数据中,绝大部分重要数据都是结构化的,然而由于对数据质量的高要求,使得很多有价值的研究都望而却步。

打起十二分精神,不放过任何一个角落

我们开发了 inductiv,这是一个用于结构化数据的 AI 平台,训练模型理解数据的生成和「污染」过程。inductiv 可用于结构化数据的准备和清洗,例如错误检测、预测缺失值、错误校正、空值补齐、数据融合等。Inductiv 归属于学术开源项目 HoloClean(www.holoclean.io),该项目是我们在 2017 年与滑铁卢大学、威斯康星大学麦迪逊分校和斯坦福大学合作启动的。

埃信华迈香港特区采购经理指数11月份跌至38.5,环比下跌0.8,是2003年初“非典”以来最差水平。随着社会动荡不断升级,受访企业业务活动量更是出现1998年有调查以来最大跌幅。

图 4:Inductiv 统一推理引擎的核心组成部分

特区政府财政司司长陈茂波日前宣布,即将实施的新一轮9项纾困措施涉及金额约40亿港元,主要围绕非居民用户、企业、青年展开,包括为非居民用户减免75%的水费及排污费、提供75%的电费补贴;为资源回收企业提供一次性租金津贴;启德邮轮码头租金减半至明年5月底;协助青年投入就业市场等。

针对上文提到的挑战,如何使用很少的样本数据进行训练的问题,我们在论文中提出了解决方案。

虽然结构化数据在 AI 应用的研究中困难重重,我们还是找到了一些方法并有所进展。处理结构化数据并不仅仅依赖于数据本身的特征 (稀疏,异构,丰富的语义和领域知识),数据表集合 (列名,字段类型,域和各种完整性约束等)可以解码各数据块之间的语义和可能存在的交互的重要信息。举个例子,两个不同的城市不可能都对应相同的邮政编码,一个项目的总预算不可能超过其计划的开支。这都是可以明确提供的条件约束,这些条件约束增强了机器学习模型在结构化数据处理上的能力,而不仅仅是做统计分析。

一、将数据清洗视为一个 AI 任务

“未来两个月中,圣诞节、新年和春节等三个节假日先后到来,是香港传统销售旺季和企业全年业绩的重要组成部分。如果外来游客和本地市民消费意欲继续受到暴力活动影响,春节过后恐会出现中小企倒闭潮和大型连锁集团的收缩潮,将对就业市场乃至整个香港经济带来沉重打击。”香港岭南大学中国经济研究部副总监周文港说。

被视为香港零售业“晴雨表”的化妆品企业莎莎,在截至今年9月底的6个月中亏损3653万港元,与去年同期的2.02亿港元净利润形成鲜明对比。莎莎管理层表示,计划在未来一年内在香港关闭30家门店。截至9月底,莎莎在港澳市场共有118家门店。

防疫期间,各地纷纷采取限行措施,高速收费站出入口就成为一道极其重要的关卡,关乎着广大过往群众的安危。关键时刻,咸宁市通城县消防救援大队基层党组织主动请缨,迅速成立由12名党员组成的突击队,积极配合公安交警、卫健等相关部门,全力投入到杭瑞高速收费站车辆洗消工作中。连日来,大队共出动消防车21台次,队员们坚持24小时不间断执勤,共洗消3000余台过往车辆,受到过往群众纷纷称赞:“消防员和医护人员都是逆行者,你们同样可靠!”队员们说道:“这时候我们多做一点,人民群众就会少一分风险,前线的医生就会少一分辛苦!”

作为党员,我们不上谁上?

图 1 :「干净」的数据是按照一定的生成过程生成的。我们也观察到了脏数据的生成过程。通过建模和参数化,我们将数据清理转变为了一个推断问题

模型。数据错误的异构性和异构性带来的其他影响,导致很难找到适合的统计特征和完整性约束作为属性,来帮助区分错误值和正确值。这些属性对应着数据库的属性级、元组级和数据集级的特征,而这些特征都是用来表示数据分布的。图 2 中描述的模型学习了一个表示层,该层通过捕获这些多级特征,来学习应用于错误检测的二分类器。 数据不平衡。数据错误的种类非常多,但通常样本数据中出现的错误数据是很少的,因此机器学习算法在面对不平衡的数据集时,训练出来的结果通常不太乐观。因此,不常见的数据错误,其特征经常被识别为噪音,因此被忽略。与常见数据错误相比,不常见的数据错误其识别的错误率很高。如图 3,我们提出了应用「数据扩增强」方法,按照学习到的错误生成策略来制造许多「伪」错误,使用少量的真实数据错误来学习策略参数。当样本的错误数据有限时,这一方法可以用于增加错误数据在样本数据中的分布。

“近月来,特区政府几乎每隔一段时间便会推出新一轮纾困措施,减轻企业经营成本,避免出现裁员和结业潮,目前来看,效果还是比较明显的。”香港经济学家、丝路智谷研究院院长梁海明说。

二、构建数据错误检测的解决方案

HoloClean 利用所有已知的领域知识(例如规则)、数据中的统计信息以及其他可信任来源作为属性,来构建复杂的数据生成和错误检测模型,此模型可用于发现错误并能够提供修复建议,给出最有可能的替换值。

持续多月的暴力事件令香港经济步入寒冬,包括餐饮、零售在内的众多行业受到严重冲击。数据显示,访港旅客人次10月同比大跌43.7%,所有客源市场均见跌幅;10月零售业总销售额的临时估计数字同比下跌24.3%,跌幅破历史纪录;第三季香港餐馆总收益同比实质下跌13.6%,是自2003年“非典”爆发以来最差。

这也是为什么机器学习方法能适用于结构化数据准备和清洗的原因,最终的解决方案需要能够提取企业数据特征并且理解毫不相干的数据上下文,能够从大量数据集中训练出模型,预测数据质量,甚至能提出数据质量的修复建议。

“全市有很多重要场所需要消毒,我们人力有限,希望能够得到消防部门的帮助。”2月20日,随州市消防救援支队接到防疫指挥部电话后,立即从党员突击分队中挑选5名党员骨干,第一时间对第一批3个疑似病例隔离点、2个医疗单位和3个高危居民小区进行全面消毒。同时,他们还每间隔3天对全市重点单位和高危场所进行消毒。“防疫不忘防火,乡亲们在家里使用酒精消毒时,要远离明火,保持室内通风……”每次消毒前,他们都会向附近群众喊话,提醒在做好防疫的同时注意消防安全。连日来,他们累计为50余个重点单位场所进行消毒,消耗消毒液30余吨。(湖北日报全媒记者张卫华 通讯员鄂消宣)

图 3: 使用错误生成策略以解决训练数据不平衡问题

“看不见的敌人最危险,但消防员的天职就是救民于水火、助民于危难!”这是正在执行消毒任务的40名消防员的共同心声。近日,宜昌市消防救援支队主动响应防疫指挥部号召,积极承担起宜昌市博物馆、市规划馆、市图书馆、市体育馆、市奥体中心等5个大型文体场馆的消毒任务。消防指战员们严格按照疫情应急处置行动指南,配齐配全个人防护装备,背上近50斤重的消毒设备,对各场馆公共区域的桌面、台面、墙面、地面进行喷雾消毒,尤其是对电梯、楼梯扶手、公厕门把手等不起眼的部位不漏一处,确保洗消效果。此次消毒行动,历时4个小时,消毒面积280000平方米。

图5:基于注意力的上下文表示和多任务学习的示例架构

如果没有任何结构、领域知识和条件约束,就很难了解数据如何生成及其准确性。因此,在构建结构化数据准备和清洗的解决方案过程中,我们总结了存在的三个主要挑战:

通过采用机器学习的方法,我们可以将结构化数据的数据准备和清洗问题都视为一个统一的预测任务,不过这种方式存在着规模化,异构性,稀疏性以及复杂语义和专业领域知识的挑战。  雷锋网(公众号:雷锋网)雷锋网雷锋网

雷锋网原创文章,。详情见转载须知。

不同于非结构化数据,结构化数据的 AI 研究一直存在着一个巨大的挑战,那就是其对于数据质量的高度敏感性。对于非结构化数据而言,人们或许可以接受分辨率不高的视频,略带瑕疵的图像识别。但对于拥有大量结构化数据的大型企业来说,其核心业务数据是不容许有丝毫差错的。比如对于制药公司来说,药品的剂量、价格和数量即使出现细微的数据错误,都有可能带来巨大的灾难。

鄂州市是湖北省最小的地级市,却是全省疫情最为严重的地区之一。市消防救援支队积极为地方党委政府分忧,主动承担起部分定点防疫医院、疫情防控检查点、集中隔离点、医护人员住宿宾馆和居民小区的消毒工作,连日来,支队组织华容区、葛店经济技术开发区、临空经济区消防救援大队和葛山大道特勤消防站4支党员突击队全部参与到消毒工作中。“不能放过任何一个角落,该消毒的地方一点也不要马虎。”全方位的消毒工作繁重且枯燥,但队员们却从不抱怨。每个人都是打起十二分精神,因为他们知道,跟火灾相比,病毒看不见摸不着,一旦有疏忽,就会给病毒带来可乘之机。2月22日至23日,在两天的消毒工作中,累计消毒49000平方米。

既当“消毒员”也当“宣传员”

将这样的模型应用于数据准备和清洗中,可以解决结构化数据长期以来存在的问题——需要大量人工介入的数据准备和清洗工作。这样的解决方案有以下的要求:

Inductiv 将我们之前提到的所有研究,融合于一个统一的 AI 内核中,它可以支持多种数据准备和清洗的应用。

用于生成训练数据的Ÿ数据增强和数据编程 目标列/值建模所需要的各种上下文的表示,例如学习异构数据的嵌入空间 自我监督学习,尽可能利用所有数据。比如使用其他值来重建某些观察到的数据值 将领域知识和规则输入到模型中,扩展模型的表达能力 进行一些系统级别的优化,例如学习数据分区和本地索引,以完善模型的可拓展性,提高模型适应多种数据分布的能力。

三、inductiv 引擎:现代 AI 在结构化数据中的应用

图 4 描绘了前文提到的多种方法的核心组成部分,以处理不同的数据类型(例如量化数据的回归分析,定类数据的分类)。这些方法包括了基于注意力的上下文表示机制、分布式学习、数据切片以及多任务学习的自我监督。

研究这些核心业务数据(结构化数据)在人工智能上的应用,是具有极大价值的,但受限于数据质量的高要求,大型企业在这类研究上举步维艰。尽管人工智能在结构化数据上的应用研究已经有数十年的时间,但目前仍进展甚微。

“今天我们的任务是对病人隔离点和有确诊病例的居民小区进行消毒,这些区域都有一定风险,我们是党员,就应当冲锋在前。”这是十堰市武当山消防救援站党员突击队队长在领受任务时动员队员们说的话。2月以来,这支党员突击队已经连续对3个病人集中隔离点、11个有确诊病例的小区开展集中消毒工作。每到一处,队员们就分为两个组,每组由1名干部、1名驾驶员和1名操作员组成,利用消防水带、多功能水枪对大面积的室外场地和外墙面开展消毒作业,然后再逐一对拐弯处、出入口等细节部位进行消毒。目前,突击队已累计消毒19次,消毒面积达187000平方米。

梁海明认为,由于经济衰退正在加剧,特区政府须准备好第五、第六轮纾困措施以作备用,也需要香港商界尤其是中小企业和社会各界为提振经济出力,共同挺过当前难关。

社会各界普遍对此次措施表示肯定。香港工联会理事长黄国表示,在暴力阴霾下,打工者生计受到严重威胁,欢迎特区政府此次出台的包括增加培训津贴在内的纾困措施。

全国港澳研究会香港特邀会员朱家健建议,特区政府下一步可考虑增加赡养父母和养育子女的免税额,允许居屋业主在补足地价前出租,免去部分商业牌照的行政费等。

如何将背景知识转化为模型输入,以解决数据稀疏性和异构性带来的挑战?在预测某个列中的值时,我们如何在机器学习模型中传递关键约束、函数依赖关系、否定约束和其他复杂的完整性逻辑作为模型输入? 在训练数据有限且存在脏数据,甚至有时都没有训练数据的情况下如何学习模型呢?以识别结构化数据错误的模型为例,该模型查找各种数据错误,包括错别字、缺失值、错误值、矛盾事实、数据错位等问题。使用非常有限的可用错误样本和可用数据中存在的这些错误来训练这样的模型,就是需要克服的挑战。  模型如何拓展到大规模应用?如何能支撑上百万个的随机变量?如果把实验条件下训练出来的模型,直接应用到复杂商业环境中的结构化数据,毫无疑问,结果肯定是失败的。

图 2: 具有多级特征的错误检测模型

诸如数据准备、数据清洗、错误检测和缺失值填补之类的数据问题,都可以应用一个统一的、可规模化的推理引擎进行建模。这样的引擎要求能够对「结构化」数据的生成以及错误的产生进行建模。更重要的是,结合我们上文提到的各种挑战,这一模型还需要纳入一些现代机器学习原理:

虽然这样的模型已经帮助我们将数据清理和数据错误检测问题转变为机器学习中的推理问题,但要训练出表达力足够强,能够将应用规模化的模型,还是极有难度的。

香港贸发局主席林建岳认为,措施有助于减轻香港中小企业的财政负担,让受影响的行业可继续经营。香港经民联主席卢伟国则呼吁,一定要尽快推行有关措施,在国际贸易疲弱及香港社会事件的双重打击下,不少中小企业生意流失,已经“奄奄一息”。

数据背后的业务复杂性,基于特定规则和逻辑的系统复杂性,需要人工介入的数据清洗和准备工作的高成本,都阻碍着这一研究的发展。要在结构化数据 AI 应用上有所成果,首先需要解决人工数据清洗和准备的问题,找到极少或者没有人为干预的自动化方法,才能使得这一应用可落地可拓展。

处理结构化数据的其中一大挑战在于,结构化数据可能是异构的,同时组合了不同类型的数据结构,例如文本数据、定类数据、数字甚至图像数据。其次,数据表有可能非常稀疏。想象一个 100 列的表格,每列都有 10 到 1000 个可能值(例如制造商的类型,大小,价格等),行则有几百万行。由于只有一小部分列值的组合有意义,可以想象,这个表格可能的组合空间有多么「空」。

“明天中午,援助孝感的重庆市医疗队91名医护人员将入住天紫大酒店,请你们帮助对酒店进行消毒。”2月22日14时许,孝感市孝南区交通路消防救援站接到区防疫指挥部向119打来的求助电话。时间紧、任务重,孝南区交通路消防救援站迅速请示上级同意后,组织8名党员突击队员前往执行任务。在消毒过程中,每名队员都身着医用防护服,背负50余斤重的消毒水,穿梭于201个客房、3个厨房、2个接待大厅、11个会议室,除了中途添加药剂和清水,他们的脚步一直没有停歇,但队员们没有一个人喊苦,没有一个人喊累,他们说:“医护人员是冒着生命危险来支援我们,为他们提供安全的环境,是我们义不容辞的责任。”最终,队员们赶在医护人员入住前,圆满完成了对酒店12层楼11335平方米的消毒任务。

在 MLSys 2020 论文中,我们提出了一种基于注意力的学习架构,用于混合类型结构化数据的缺失值填补(图 5)。

我们多做一点,群众就会少一分风险

可以将业务规则在内的所有信号和上下文,函数依赖和键等约束条件以及数据的统计属性进行组合。 能够避免构建大量的规则,同时可以兼容极端情况。在许多情况下,结构化数据中的规则管理比清洗噪音数据更具挑战性,成本更高。 最终,模型所提供的预测应用于标准的数据质量测试中,能够传达一种「信心」:模型的预测能够解决大多数情况,而人工,只需要专注去处理特殊的案例。

你们来援助,我们义不容辞为你们守护