经过共同技术生成企业数据映射报表 浙江五疆开放基于大数据生成报表的数据映射方法及系统专利 (经过共同技术的英文)
专利摘要显示,本发明实施例提供一种基于大数据生成报表的数据映射方法及系统,所述方法包括:采集原始数据,依据数据范围对原始数据启动行业分类,失掉各个行业数据;对行业数据启动数据剖析,失掉行业数据的数据类型、时期戳,并基于数据类型、时期戳生成一级报表分类;基于时期戳确定业务流程时期轴,确定业务流程时期轴中不同时期段的报表偏向,基于报表偏向对一级报表分类启动调整;基于数据来源确定对应的企业数据,提取企业数据中的企业关键词,并对企业关键词启动聚类,经过聚类后的企业关键词生成二级报表分类;基于一级报表分类、二级报表分类生成企业报表,并将企业数据输入所述企业报表,失掉企业的数据映射报表。
商业智能也称作BI,是英文单词Business Intelligence的缩写。 商业智能的概念最早在1996年提出。 事先将商业智能定义为一类由数据仓库(或数据集市)、查询报表、数据剖析、数据开掘、数据备份和恢复等部分组成的、以协助企业决策为目的技术及其运行。 目前,商业智能通常被了解为将企业中现有的数据转化为知识,协助企业做出明智的业务运营决策的工具。 这里所谈的数据包括来自企业业务系统的订单、库存、买卖账目、客户和供应商等来自企业所处行业和竞争对手的数据以及来自企业所处的其他外部环境中的各种数据。 而商业智能能够辅佐的业务运营决策既可以是操作层的,也可以是战术层和战略层的决策。 为了将数据转化为知识,要求应用数据仓库、联机剖析处置(OLAP)工具和数据开掘等技术。 因此,从技术层面上讲,商业智能不是什么新技术,它只是数据仓库、OLAP和数据开掘等技术的综合运用。 BI 是一个工厂: >> BI 的原资料是海量的数据; >> BI 的产品是由数据加工而来的信息和知识; >> BI 将这些产品推送给企业决策者; >> 企业决策者应用 BI 工厂的产品做出正确的决策,促进企业的开展; 这就是 Business Intelligence,即商业智能——衔接数据与决策者,变数据为价值。 BI 运行的两大类别是信息类运行 和 知识类运行,其特征如下表所示: 信息类 BI 运行: 指由原始数据加工而来的数据查询、报表图表、多维剖析、数据可视化等运行,这些应 用的共同特点是:将数据转换为决策者可接受的信息,展现给决策者。 例如将银行买卖数据加工为银行财务报表。 仅担任提供信息,而不会主动去剖析数据。 例如,银行财务报表工具没有深化剖析客户流失和银行利率之间相关的才干,而只能靠决策者结合信息,经过人的思索,得出知识。 知识类 BI 运行: 指经过数据开掘技术和工具,将数据中隐含的相关开掘出来,应用计算机直接将数据加工为知识,展现给决策者。 会主动去数据中探查数据关联相关,开掘那些决策者人脑无法迅速开掘的隐含知识,并将其以可了解的方式呈如今决策者面前。 (3) BI 初级运行形式概览——数据查询(Querying)数据查询是最简易的 BI 运行,属于 MIS 系统遗产,虽然出身比拟老土,但是目前依然是决策者失掉信息的最直接的方法。 如今,数据查询界面曾经彻底摆脱了传统 SQL 命令行,少量的下拉菜单、输入框、列表框等元素甚至是鼠标拖拽界面将后台干苦力的 SQL 语句包装成一个妖艳无比的数据失掉系统,而实质依然没有分开数据查询的几大要素: >> 查什么 >> 从哪儿查 >> 过滤条件 >> 展现方法 目前国外比拟盛行的数据查询运行曾经完全释放了数据查询的灵敏性,如右图所示的是 Cognos ReportNet 的数据查询界面 Query Studio,支持用户经过纯阅读器界面,以鼠标拖拽操作定义数据查询要素,并以报表和图表等多种方式展现数据。 (4) BI 初级运行形式概览——报表(Reporting) 报表是国际最热衷的 BI 运行之一,这与报表在我国企事业单位中的历史位置是分不开的。 我国的报表以其格式诡异、数据集中、规则乖僻等特征著称于世,曾经让有数国外报表工具和 BI 工具捶胸顿足。 报表的两大要素是数据和格式,假设没有格式,则报表运行简直同等于数据查询运行。 可以说,报表就是将查询出来的数据依照指定的格式展现。 报表运行包括了报表展现和报表制造两大模块。 报表展现就是让决策者看到报表,并支持决策者经过条件定义来选择报表数据,例如选择报表年度、部门、机构等等;报表制造面向报表的开发人员,其格式定义灵敏性、数据映射灵敏性、计算方法的丰厚水平等均影响了 BI 报表运行的质量。 要求廓清一下的是,Microsoft Excel 不算是一个 BI 报表工具,由于 Excel 没有衔接数据源的才干,充其量是一个 Spread Sheet。 但是 Excel 弱小的格式性能让报表制造人员竟折腰,乃至到后来,简直一切 BI 厂商都提供了面向 Microsoft Excel 的插件,经过插件,Excel 可以衔接到 BI 的数据源上,摇身一变为 BI 报表工具,丑小鸭变天鹅。 5) BI 初级运行形式概览——在线剖析(OnLine Analytical Processing,OLAP) OLAP ,即联机剖析处置,是 BI 带来的一种全新的数据观察方式,是 BI 的中心技术之一。 我们知道,数据在数据库中是以数据表来存储的,比如某商店的销售数据存储在如下所示的一张数据表中: 销售时期 销售地点 产品 销售数量 销售金额 2004-11-1 北京 肥皂 10 342.00 2004-11-6 广州 桔子 30 123.00 2004-12-3 北京 香蕉 20 12.00 2004-12-13 上海 桔子 50 189.00 2005-1-8 北京 肥皂 10 342.00 2005-1-23 上海 牙刷 30 150.00 2005-2-4 广州 牙刷 20 100.00 决策者希望知道的往往是散布、占比、趋向之类的微观信息,比如下列疑问: >> 北京地域的销售数量虽时期的变化趋向? >> 哪种产品在 2005 年销售比 2004 年销售增幅最大? >> 2004 年各产品销售额的比例散布? …… 面对这种需求,必需用 SQL 语句启动少量的 SUM 操作,每得出一个疑问的结果,就要求 SQL SUM。 面对上方的 7 条记载,我们可以很容易的得出结果,但是当我们面对百万级甚至亿级的记载条数时,例如移动公司通话数据,每次 SQL SUM 都要求消耗少量的时期来计算,决策者经常是在第一天提出剖析需求,等到第二天赋能拿到计算结果,这种剖析方式是“脱机剖析”,效率很低。 为了提高数据剖析效率,OLAP 技术彻底打破以记载为单位的数据阅读方式,而将数据分别为“维度(Dimension)”和“度量(Measure)”: >> 维度是观察数据的角度,例如上方示例中的“销售时期”、“销售地点”、“产品”; >> 度量是详细调查的数量值,例如上例中的“销售数量”和“销售金额”; 这样一来,我们就可以将上方这张平版的数据列表转换为一个拥有三个维度的数据立方体( Cube ): 而探查数据的环节,就是在这个立方体中确定一个点,然后观察这个点的度量值: 当然,数据立方体并不局限于三个维度,这里采用三个维度来说明疑问,只是由于经过图形可以表现出来的极限就是三个维度。 维度可以划分层次,例如时期上可以从日向上汇总为月和年,产品可以向上汇总为食品和日用品,地点可以向上汇总为华北和华南,用户可以沿着维度的层次恣意向下钻取(Drill Down)和向上汇总(Roll Up): 经过这种方式,我们就可以摆脱 SQL SUM 对速度的制约,加快定位契合不同条件的细节数据,更可以迅速失掉某一层次的汇总数据。 OLAP 技术为决策者提供了多角度、多层次、高效率的数据探查方式,决策者的思想不再被固定的下拉菜单、查询条件所约束,而是由决策者的思想率领数据的失掉,恣意组合剖析角度和剖析目的,这种打破传统的互动性剖析和高效率使 OLAP 成为 BI 系统的中心运行。 (*) 第四喷:BI 初级运行形式 —— 数据可视化与数据开掘 (6) BI 运行形式概览——数据可视化(Visualization) 数据可视化运行努力于将信息以尽或许多的方式展现出来,目的是使决策者经过图形这种直观的表现方式迅速取得信息中蕴藏的知识,如趋向、散布、密度等要素。 值得一提的是,以 MapInfo 公司为代表的 GIS 软件商,目前也正在努力结合 BI 运行。 MapInfo 率先提出了 Location Intelligence 概念,依托于天文信息系统,展现各地域的属性值,例如人口密度,工业产值,人均医院数量等等,这种可视化运行部分与 BI 数据可视化运行重合,并构成有力补充,有时可以在一个项目中相互搭配。 上图所示的是 Cognos Visualizer 产品,这家伙用几近哗众取宠的丰厚方式展现数据和信息,包括了地图、饼图、瀑布图等近五十种展现图形,并提供了二维和三维两种展现方式。 一切的图形元素都是可活动的,例如用户可以经过点击地图上的某一个省,钻取到这个省各个城市的信息,这种可交互性是 BI 与普通图片生成软件的清楚差异。 (7) BI 运行形式概览——数据开掘(Data Mining) 数据开掘是最初级的 BI 运行,由于它能替代部分人脑性能。 数据开掘附属于知识发现(Knowledge Discovery)在结构化数据中的特例。 数据开掘的目的是经过计算机对少量数据启动剖析,找出数据之间潜藏的规律和知识,并以可了解的方式展现给用户。 数据开掘的三大要素是: >> 技术和算法:目前常用的数据开掘技术包括—— 智能类别侦测(Auto Cluster Detection) 决策树(Decision Trees) 神经网络(Neural Networks) >> 数据:由于数据开掘是一个在已知中开掘未知的环节, 因此要求少量数据的积聚作为数据源,数据积聚 量越大,数据开掘工具就会有更多的参考点。 >> 预测模型:也就是将要求启动数据开掘的业务逻辑由 计算机模拟出来,这也是数据开掘的关键义务。 与信息类 BI 运行相比,以数据开掘为代表的知识类 BI 运行目前还不成熟,但是从另一个角度来看,数据开掘可开展的空间还很大,是今后 BI 开展的重点方向,SAS,SPSS 等知识类 BI 运行厂商笼统逐渐矮小,悄然占据了新的利润增长点。 上图中是著名的 IBM Intelligent Miner 在剖析客户的消费行为。 它能对少量的客户数据启动剖析,然后智能将客户划分为若干群体(智能类别侦测),并将每个群体的消费特征显示出来,这样决策者就能了如指掌的针对不同客户的消费习气,制定促销方案或广告方案。 上述性能假设单靠信息类 BI 运行来成功,则要求决策者依据阅历启动少量的 OLAP 剖析、数据查询任务,而且还不一定能发现数据中隐藏的规律。 例如上述客户分类,关于一个拥有 400 万用户的银行来说,假设没有数据开掘工具,会把人活活累死的。 (8) BI 底座——数据仓库技术(Data Warehouse) 在末尾喷这个主题之前,让我们先看看数据仓库的官方定义: 数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳如泰山的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持控制决策。 以上是数据仓库的官方定义。 “操作型数据库”如银行里记账系统数据库,每一次性业务操作(比如你存了5元钱),都会立刻记载到这个数据库中,久而久之,满肚子积聚的都是系统的数据,这种干脏活累活还不得闲的数据库就叫“操作型数据库”,面向的是业务操作。 “数据仓库”用于决策支持,面向剖析型数据处置,不同于操作型数据库;另外,数据仓库是对多个异构的数据源有效集成,集成后依照主题启动了重组,并包括历史数据,而且寄存在数据仓库中的数据普通不再修正。 操作型数据库、数据仓库与数据库之间的相关,就像 C:、D: 与硬盘之间的相关一样,数据库是硬盘,操作型数据库是 C:,数据仓库是 D:,操作型数据库与数据仓库都存储在数据库里,只不过表结构的设计形式和用途不同。 那么为什么要在操作型数据库和 BI 之间加这么一层“数据仓库”呢? 一是由于操作型数据库日夜奔忙,以加快照应业务为关键目的,基本没精神伺候 BI 这边的数据需求,而且 BI 这边的数据需求通常是汇总型的,一个 select sum(xx) group by xx 就能让操作型数据库消耗少量资源,业务处置跟不上趟,费事就大了,比如你存了 5000 元钱,发现十分钟后钱还没到账,作何感想?一定是该银行的指导在看饼图? 二是由于企业中普通存在有多个运行,对应着多个操作型数据库,比如人力资源库、财务库、销售单据库、库存货品库等等,BI 为了提供全景的数据视图,就必需将这些分散的数据综合起来,例如为了成功一个融合销售和库存信息的 OLAP 剖析,BI 工具必需能够高效的取得两个数据库中的数据,这时最高效的方法就是将数据先整合到数据仓库中,而 BI 运行一致从数据仓库里取数。 将分散的操作型数据库中的数据整合到数据仓库中是一门大学问,催生了数据整合软件的市场。 这种整兼并不是简易的将表叠加在一同,而是必需提取出每个操作型数据库的维度,将共同的维度设定为共用维度,然后将包括详细度量值的数据库表依照主题一致成若干张大表(术语“理想表”,Fact Tables),依照维度-度量模型树立数据仓库表结构,然后启动数据抽取转换。 后续的抽取普通是在操作性数据库负载比拟小的时刻(如清晨),对新数据启动增量抽取,这样数据仓库中的数据就会构成积聚。 大少数 BI 运行并不要求失掉实时的数据,比如决策者,只要求在每周一看到上周的周报就可以了,95% 的 BI 运行都不要 务实时性,支持数据有 1 小时至 1 个月不等的滞后,这是决策支持系统的运行特点,这个滞后区间就是数据抽取工具任务的时期。 当然,BI 运行中通常还将包括极少的对实时数据的要求,这时仅需针对这些特殊需求,将 BI Querying 软件直接衔接在业务数据库上就可以了,但是必需限制负载,制止做复杂查询。 目前的数据库产品都对数据仓库提供有专门优化,例如在装置 MySQL 的高版本时,装置成序会讯问你是想让数据库实例作为 Transaction-Oriented ,还是 Decision Support ,前者就是操作型数据库,后者就是数据仓库(决策支持么,再振臂高呼一遍),针对这两种方式,数据库将提供针对性的优化。 (9) BI 花边 BI 的相关知识大致就是这样了,写一些花边作为完毕语吧。 BI 要害:BI 无法处置非结构化数据,只能处置数字信息,但是在企业中,还存在有少量像文本、流媒体、图片等非结构化的数据,这些数据相同蕴藏有少量价值,但是面对这些数据,目前的 BI 工具无能为力。 比拟靠谱的是 IBM Intelligent Miner for Text,但是它在处置中文方面似乎十分单薄。 BI 厂商和产品: 首先让我们看法一下国外小人物!数据仓库方面,有 IBM DB2,Oracle,Sybase IQ,NCR Teradata 等等;BI 运行方面,有 Cognos,Business Objects,MicroStrategy,Hyperion,IBM 等等;数据开掘方面,有 IBM,SAS,SPSS 等等。 巨无霸 Microsoft 也在 BI 范围插了一腿,推出了 SQL Server Analysis Server、Reporting Services 等 BI 相关产品抢占山头! 我们往往容量只把目光放在国外的BI大佬们而疏忽国际渐渐突起的BI新军,如今国际比拟知名的BI有奥威智动的Power-BI,尚南的BlueQuery 及润乾报表等,特别值得一提的是奥威智动的Power-BI是一款规范化BI,在国际曾经具有一定的市场占有率。 中国的 BI 市场开展: 时期段 国际 BI 运行状况 2002 年以前 少量 BI 软件被看作是能从多个数据源中抽取数据的报表任务,满眼全是报表。 一末尾,公司的销售在推销产品时都向用户引见:“我们是 BI 范围最强的……”效果不好;后来那些销售终于找到了窍门,过去就说:“我们什么报表都能做!”然后订单不时。 2002-2003 OLAP 的价值终于被某些慧眼发现,一些竞争压力大的企业为了提高竞争力,迫切要求从历史数据中开掘价值,迅速发现了 OLAP 的优势,这时销售终于不用再说“我们什么报表都能做”了。 但是国度机关、垄断型企业,依旧是报表,并且以为 BI 就是报表。 2004 随着越来越多成功 BI 项目的实施,OLAP 终于得以见天日,这时国际才构成数据查询+报表展现+OLAP剖析的合理 BI 运行结构。 一些数据可视化的需求也时常被用户提出,在一些竞争剧烈、数据量大的企业,曾经出现了数据开掘运行。 2005 信息提供曾经无法满足很多企业的要求,特别是银行、通讯、证券等竞争剧烈、风险密集的行业,少量涌现对数据开掘的需求,BI 运行终于构成信息+知识的全体。 BI 工具在中国遇到的难题: * 复杂表样:中国是全球上报表最复杂的国度。 中国的表样设计思想与西方不同,西方报表倾向于仅用一张报表说明一个疑问,而中国的报表倾向于将尽或许多的疑问集中在一张报表中,这种思绪直接造成了中国报表的复杂格式和诡异品格。 * 大数据量:中国是全球上人口最多的国度。 以中国移动公司为例,仅我国一个省的用户数量,就相当于欧洲一个中等国度的人口,是真正的海量数据!国外数据库、数据仓库和 BI 运行软件,都在中国经受着大数据量承载才干的考验。 关于美国,或许一个客户剖析运行两秒钟就能出结果,但是在中国这样的数据量下,可就不是两秒钟的疑问了。 * 数据回写:中国是全球上对 BI 系统要求最奇特的国度。 原本 BI 系统是以忠实再现源数据为准绳,但这个准绳在中国遇到了难题,许多指导都提出了数据修正需求,“报表里数字不美观,就要能改啊,而且有时刻也要求调整啊,这样下级指导看着就好嘛! ”一个指导如是说。 目前能满足此要求的 BI 产品,仅有 Microsoft 和 MicroStrategy 两家。 微软对中国市场算是吃透了。
版权声明
本文来自网络,不代表本站立场,内容仅供娱乐参考,不能盲信。
未经许可,不得转载。