数据分析与挖掘在大数据时代的演进和变革

发布时间：2022-10-13 12:26:23 所属栏目：大数据来源：

导读：　　我们已经进入大数据时代了吗？应该是的，至少知名媒体都这么说。

　　数据分析与挖掘的价值越来越大吗？应该是的，至少大咖专家都这么说。

　　可是数据挖掘应用如何转型，以适用当今的大数据时代？

　　我们已经进入大数据时代了吗？应该是的，至少知名媒体都这么说。

　　数据分析与挖掘的价值越来越大吗？应该是的，至少大咖专家都这么说。

　　可是数据挖掘应用如何转型，以适用当今的大数据时代？

　　先回顾一下传统的模式。企业把散落在各个业务系统的数据整合到一起，放在一个叫数据仓库的平台上。BI分析人员根据业务需求做出各种分析。业务需求多围绕着客户管理（客户获取、客户营销、客户提升、客户挽留）、风险管理（风险识别、风险计量、风险防范）或者企业运营管理（财务管理、库存管理、门店网点管理）等方面。分析手段从简单的统计汇总，到复杂的建模预测，均有广泛应用。不管业务需求是什么、技术手段是什么，这类分析应用有一些共通点：

　　① 分析挖掘的数据源基于整合的、集中的数据仓库平台，可实现跨单个业务系统的分析范围。永远是“先存下来再分析”的流程。数据从业务系统产生之时已经是高度结构化的，非结构化的数据也有一部分被存储下来了，但“积灰”的多，应用的少。

　　② 分析挖掘具有明确的目标，预先知道要从数据中获取什么模式（Pattern），需要人工干预完成大量的特征工程，算法与技术只是实现这一过程的辅助手段。更形象的说，分析与挖掘只是验证并精确量化经验的过程，并不能主动发现全新的知识。

　　③ 分析过程是低频的，模型应用也是低频的：往往每个月、每个季度甚至每年收集一次数据，做一次分析。每次模型开发都是个大工程，需要业务顾问、统计算法顾问、IT架构顾问三方凑在一起，合力完成CRISP-DM的全流程（你问我CRISP-DM是什么？。。。自己查吧！）。

　　④ 分析结果并不直接嵌入自动化业务流程，向决策的转化多需要由人来实现。一个预测模型告诉企业哪些高端客户在未来可能流失，流失概率有多大。客户经理拿到这份名单后根据自身经验判断挽留哪些客户，放弃哪些客户，如何挽留，如何评估挽留效果。预测模型在这里处于次要辅助地位。

　　根据我们的经验评估，传统模式目前依然占有90%以上的数据应用市场，甚至有些企业连传统模式都没能有效开展起来。但风乍起，吹皱一池春水，数据分析挖掘的变革已经伴随大数据时代悄然到来。那么，这一领域的关键变革都有哪些？笔者用下图概括并在其后逐一解读。

　　数据：结构与非结构混合

　　结构化数据大约只占人类可获取数据的10~20%，并且随着移动和物联网等技术的普及这一比例还会继续降低。大量的半结构化数据（网页、电子邮件）与非结构化数据（文本、图像、音频、视频）尚未得到广泛应用。关于数据的结构性差异，另外一个关键但没有被充分认识的事实是：结构化与非结构化并非绝对和静态的定义，而是相对、动态和应用级别的概念，如何区分在很大程度上取决于数据后续的分析和应用方式。例如，数据结构可直接应用于分析的称为结构化数据，反之称为非结构化数据。拿到一篇评论文章，如果只是数一下包含了多少个汉字，是否包含“AlphaGo”这个关键字，它是结构化数据；如果想提取这篇文章的主要内容，想判断文章所带情感的正向负向，它是非结构化数据，需要处理才能转换为结构化信息（例如词袋模型），进而统计分析得到期望的结果。同一个非结构化数据，根据分析目标的不同，向结构化数据转换的技术手段也不同。一张照片，有时我们关注如何识别照的是一只猫还是一只狗，有时我们关注如何剔除背景只保留肖像，背后的算法有天壤之别。

　　所幸的是，非结构化数据的转化技术这几年得到了快速发展。感谢NLP技术让机器开始“理解”人类语言，而深度学习技术让机器能够“看懂”图片、“听懂”音频。但这些应用仅仅停留在搜索引擎、语音识别等领域的行业前驱公司中，距离广泛的企业应用还有很长的路要走。另一方面，大数据时代多种类型数据的整合需求也带来了新的技术挑战。以前ETL就是纯粹的数据加工脚本开发过程，规则明确，方法统一。数据来源的主体、渠道和场景广泛、数据类型混杂之后，你如何判断马宁@数据科学家.org和马宁_at_数据科学家_dot_org是同一个电子邮件？你如何判断“北京市朝阳区姚家园路95号”和“泛海国际小区”是同一个地址？你如何判断“马克 ? 扎克伯格”、“Mark Elliot Zuckerberg”或者“Facebook创始人”指的是同一个人？这些数据识别、整合过程中本身就带有很多数据挖掘、统计学习的过程。

　　平台：分析与存储统一

　　以往数据多数存储在关系型数据库（RDBMS）里，一张一张的二维表。数据库可以支持数据分析吗？可以，但功能很有限，某些厂商在数据库上提供个线性回归就很了不起了，要是写个随机森林模型，得把UDF开发人员累死。因此数据库的定位一直是“存储，并简单加工”，复杂的统计挖掘工作交给更专业的软件去做，如我们耳熟能详的SAS / SPSS / R等，于是有了下面的平台架构：

　　这种架构用了很多年，渐渐有些力不从心：数据量越来越大，要分析的内容越来越多，每次分析建模都要把数据从数据库一端迁移到分析服务器一端。使用抽样数据，难免准确性上要打折扣，况且不是所有分析过程都可以用抽样数据；使用全量数据，网络IO压力巨大，统计服务器内存磁盘压力巨大，数据一来一回这么折腾，时效性上还没有保障。

　　Hadoop / Spark这类大数据平台的出现很好的解决了这个数据搬家的问题。数据在哪里存储，就在哪里分析。存储被分散在每个节点上，分析也被分散在每个节点上。并行架构增加了分析效率，还大幅降低了数据迁移量。Hadoop上面的Mahout（时至今日，其实Mahout也都快过时了，尤其是基于MapReduce引擎的部分）、Spark上面的MLlib，都提供了大量分类、回归、聚类、关联、推荐、降维等数据挖掘常用算法，足以应付企业的日常分析需求。除此之外，GraphX提供了不少图模型分析算法，时髦的社交网络分析也不在话下！

　　算法：浅层向深层转化

　　传统的数据挖掘算法，尤其是预测类算法，需要具备行业经验的专家帮忙设计建模变量，这一过程称为特征工程（Feature Engineering）。我们希望预测的某个指标，例如银行的一项新业务的发展规模，可能跟存款总量没有直接关系，跟贷款总量也没有直接关系，但是跟存贷比相关性很强。可是数据库里只有存款总量、贷款总量这两个原始指标，如何衍生出存贷比？指望决策树、逻辑回归这些模型自动发现 ……

　　大数据教育时代来临_大数据时代_大数据金融时代

　　…… 是不可能的。只能依靠专家经验，要是专家经验也没覆盖到，预测结果可想而知。因此这类模型算法总给人一种感觉，它并不能额外发现新的信息，只是在专家经验范围内做筛选的基础上做精确量化 – 说好听了，是智能化程度不高，人民群众可能会质疑：

　　行业专家挖空心思设计特征变量之后，没准基于此自己写个预测规则公式，效果比统计模型一点都不差。

　　专家也设计不出来特征、定义不出规则怎么办？再回到识别照片是猫还是狗的案例，

　　这个识别过程对人来说太简单了，不加思考可以脱口而出，但十几年前我们却对如何教会计算机做这样的一件事一筹莫展。谁能在像素级别数据上定义猫与狗的区别并把规则写出来？恐怕没有人。当时研究者试图用神经网络模型模拟人脑的思维过程，也的确取得了一些成果，可是单层的神经网络模型可以描述的内容太简单，应用范围很窄，而技术上又不支持多层神经网络的训练（迭代次数太多大数据时代，时间性能太差）。直到近几年深度学习技术的快速发展，伴随着新的计算架构的出现（从CPU到GPU），让机器自己学习数据中的复杂模式变得可能，深度学习第一次让机器看起来会自己“思考”，在博弈游戏中甚至战胜了人类的顶级专家。媒体惊呼人工智能的魔盒已经开启，忽略其中资本炒作博眼球的成份，大数据技术带来的数据算法领域的进步是不可否认的，数据建模过程强依赖于行业专家经验的困境的确开始有所缓解。在技术本质上就是数据分析挖掘算法从浅层向深层、效用从验证向发现的进步。

　　应用：低频与实时共存

　　受制于上文提到的传统平台架构，数据分析与挖掘过程在过去多数是非常低频的，带有很大的时间延迟。企业习惯了每月初汇总一次上月数据，做一些分析探索，得到一些结论，指导下个月的工作。这个模式从技术上讲没有问题，但实际上代表了一种粗放的目标约束，明显不适用于很多数据应用。试想某银行的欺诈检测系统，能过了10几天再告诉客户信用卡被盗刷了吗？犯罪分子早已完成欺诈交易逃之夭夭了。试想某商场的基于顾客地理位置的营销应用，在顾客进入商场连上WIFI的时候只能无所事事，等到下个月初才把促销广告推送到顾客手机上吗？越来越多的数据应用要求实时性，几分钟甚至几秒钟内做不出决策，场景就失效了。

　　实时数据分析需求的广泛出现，带动了一项新技术的发展—边缘分析（Edge Analytics）。数据不再是进入了企业的统一数据中心（数据湖、数据仓库、数据集市。。。）后才被分析，那样的效率太低。在捕获流式数据的终端设备上（即所谓的边缘设备），已经被自动化、实时化分析了。传送回数据中心的可能已经是分析结果了，甚至结果都不需要，当场就消费掉。我们身边的智能手机、智能健康设备、智能家电，越来越多应用这种技术模式。

　　实时数据分析也使得数据真正变成决策的主导者，再不可能等待产出计算结果后交给业务人员一条一条人工审核，掺入他们的行业经验，才形成最终的决策。这对实时分析的准确性、可靠性、稳定性都提出了极高的要求，给具有更高“智能”水平的算法提供了广阔的舞台。

　　当然，和其他工作一样，数据处理和分析需要平衡效率、准确性和成本三要素，技术应用的目标是可用、够用，原有的低频分析模式依然有效，并且长期存在。

　　上面谈了分析挖掘在数据、平台、算法和应用四方面的变化，大数据时代带来的变革的确是清晰可见了。那么，在数据爆炸让人无所适从、数据分析挖掘技术升级扩大竞争差距的双重压力下，各行业的企业和机构如何适应时代、抓住机遇，驾驭大数据实现转型呢？笔者认为重视自身的数据服务能力建设是企业在大数据和其后的人工智能时代打造可持续竞争力的必由之路，而这一过程中最不可或缺的因素就是人才，尤其是数据科学人才。“数据科学家”不是媒体炒作出来的新职位，不是业务分析师、IT架构师或者算法工程师的时髦叫法，而是身兼这几个角色、大数据时代企业所真实需要的复合型人才。这里笔者援引Gartner（2015）对数据科学家的核心技能定义，绘制下图来说明数据科学家所需具备的文（专业领域知识）、武（IT技能）、数（数据技能）三全的能力：

　　如何才能成长为具备上述综合能力的数据科学家？企业应该如何打造数据科学家团队？数据科学家与数据工程师、业务专家、以及软件开发等人员之间又该如何配合帮助企业实现数据差异化优势？这些都是广受关注、但也是很新鲜的课题，并无成熟的结论，笔者看到，在大数据生态参与者的共同努力下，数据人才建设成为热点，原有的软件工程师群体开始向数据工程师领域迁徙，但数据科学家绝对量缺口加大和结构性稀缺的状况依然难以改变。在大数据时代，我们感受到的挑战不仅来自上述技术快速迭代变革，还有传统行业在数字化大潮下对数据分析洞察能力迅猛而紧迫的渴求，互联网“颠覆者”们我行我素只争朝夕的市场裹挟力量，以及人才市场趋利的向狭窄应用领域倾斜的隐忧。

　　尽管大数据技术带来了诸多的变化，数据分析和挖掘依然是一个相对新兴的领域，技术的变革和市场的活力都意味着这是一个最好的时代。

（编辑：均轻资讯网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

用 Spark SQL 实行结构	如何使用Google Cloud
成功进行数据转移的策	通过AI系统分级协助企