November 26, 2009

数据仓库基础

基本组件
star schema:维度数据仓库的数据库结构
surrogate key:数据仓库表里作为主键的列
除了star schema,也有在数据仓库中用snowflake schema的,不过后者更难建模、不容易理解和实现、性能较前者差
维度数据仓库包括两种类型的关系数据库表:fact表和dimension表
一个fact表+周围多个dimension表就是一个star结构,multi-start结构则有多个fact表,其中多个fact表共享一些共用的dimension表
fact表一般后缀为fact,而dimension表后缀为dim
fact表包含多个可度量的事实,可度量的事实成为measure,dimension表对measure进行分类
每个dimension表包含一个surrogate key列,列名后缀为sk,dimension里每个sk列在fact表都有一个类似的列
1
dimension表里的sk列是主键,一般sk的值为顺序的数字且不含业务含义

Dimension历史
dimension会随着时间而改变,比如用户会更改地址、产品改名或重新分类、销售订单修正等等
我们必须维护dimension的历史,这样才能保证就的销售订单指向旧的产品分类,而新的销售订单指向新的产品分类
Slowly Changing Dimension(SCD)是维度数据仓库里实现dimension历史的技术
SCD包含三种类型:

  1. SCD1:总是用新的数据覆盖老的数据,不保存历史
  2. SCD2:总是创建新版本的dimension,不修改和删除老的数据
  3. SCD3:保存有限的dimension历史,如对customer_address列维护一个previous_customer_address列

Measure Additivity
Measure的一个重要特质是Measure Additivity
如果一个measure在所有情况下都可以sum,那么称这个measure是fully-addative
如果一个measure只能在某些情况下做sum,那么称这个measure是semi-addative
也就是说,如果一个measure在任意一个dimension上计算的总和与任意其他一个dimension上计算的总、其他dimension任意组合上计算的总和都相等,那么这个measure就是fully additive的

维度查询
维度查询包括三个常见类型:

  1. aggregation:对fact进行求和
  2. specific:对特定的dimension值进行fact查询和求和
  3. inside out:基于fact的measure值条件进行查询

ETL

源数据提取
有两种源数据提取方式:

  1. Whole Source:提取整个源数据,这种模式对参考性质的数据源比较合适,如邮政编码
  2. Change Data Capture(CDC):只提取增量改动的数据,如果数据源特别大而且提取整个数据效率低时适用,通常作为动态数据源的提取方式

提取数据时可以采用Pull后Push两种方式

组装Date Dimension
在数据仓库里时间维度是最重要的,因为数据仓库的首要功能就是存储历史数据,所以数据仓库里始终有时间维度
三种常见的组装date dimension的技术:

  1. 提前组装:比如提前准备好十年内所有的date dimension
  2. 每天一个date:每天准备一条新的date记录
  3. 从源数据加载date:从源数据加载仅仅被使用的date

初始化组装
在开始数据仓库操作之前的第一步就是加载历史数据
最好有一个Source Data到Data Warehouse的映射文档来列出需要哪些数据源、数据格式已经对应的fact/dimension表,然后写初始化脚本来加载数据

定期组装
和初始化组装一样,最好有一个文档来列出源数据、数据仓库表、提取模式(Whole/CDC、Push/Pull)、加载类型(SCD、Pre-populate)等等,然后写加载数据的脚本

定期组装调度
Windows控制面板里添加任务向导或者Linux下crontab程序都可以添加定时调度任务

演进

添加列
数据仓库常见的需求是添加列到已有的dimension和fact表
2
更改dimension和fact表之后需要修改定期组装脚本

按需组装
有时候在定期组装之外需要一些按需组装,比如促销销售的源数据只有在促销阶段才有
这时通常需要dimension、fact表的更改和一些按需组装的脚本

Dimension子集
由于有些用户不会使用所有的dimension数据,比如用户只关心month,不关心date,所以我们可以提供一个month_dim(date_dim的子集)

Dimension角色扮演
有时候一个fact需要使用同一个dimension多次,比如销售订单fact需要两个date,一个是下订单时间一个是发送订单时间,这时可以用dimension角色扮演技术来实现。
有两种dimension角色扮演的类型:表别名和数据库视图
表别名就是指在查询时对同一个表取多个不同的别名来区分,以满足查询多次同一个dimension的目的
数据库视图就是对已有的dimension根据使用次数建多个视图来满足多次使用同一dimension的目的

快照
有些用户可能只需要特定时间的数据,换句话说,他们只需要数据的快照
有两种类型的数据快照:周期性快照和累积性快照
周期性快照是fact在一定周期内的sum总和,如monthly fact表在每个月结束时会有一个快照
累积性快照跟踪fact的更改,如销售订单的持续累积数据

Dimension Hierarchy
大部分dimension有一个或多个层次结构,如date dimension有一个分4级的层次结构:year级别、quarter级别、month级别和date级别,而且只有year-quarter-month-date这一条单一路径
同一主题下的列可以归为一组,而且组的成员至少包含另一个成员,如果month包含date,这时就会形成一个层次结构,比如year-quarter-month-date是date dimension的一个Hierarchy
在Hierarchy上可以做grouping和drilling
grouping查询会对fact按dimension做group by,但是只显示到最低级别的数据,而drilling则是显示dimension各种级别的数据

多路径Hierarchy和不平整Hierarchy
有时候一个Hierarchy会有多条路径,比如year-quarter-month或year-campaign-month,所以查询时可以按不同的路径进行drilling
Hierarchy中如果不包含一个或多个级别的数据,那么称之为不平整(Ragged) Hierarchy,例如某几个month没有campaign session,那么month dimension被称为ragged campaign hierarchy
如果某几个month不存在campaign,则用month代替,最终drilling查询结果会将不存在campaign的行用month代替(导致多行相同的month),而有campaign的行的metric值是对应month的metric值的总和

Dimension退化
当用户不需要某部分dimension数据时,可以将dimension退化,移除哪些不用的数据,从而增加查询性能
比如退化order_dim表的步骤:

  1. 将order_number列加到sales_order_fact表
  2. 将已有的order_number从order_dim移到sales_order_fact表
  3. 从sales_order_fact表中移除order_sk列
  4. 移除order_dim表

Junk Dimension
有些dimension字段的值的种类特别少,比如只有yes和no两种值的一些字段,它们应该放在称为junk dimension的dimension表里
3

Multi-Star Schema
如果数据仓库里有多个fact表,则应称之为Multi-Star Schema

高级技术

非直接的数据源
如果数据源由于粒度不同不能直接加载到数据仓库,则需要ETL时做一些转换

无事实的fact表
有时候需要度量一些源数据里没有的数据,比如产品计数,我们可以建立一个无事实的fact表来实现
4

延迟fact
有时候fact表的数据有延迟,导致快照fact表的数据不对,这时需要改进定期fact组装脚本来处理这种延迟数据

合并Dimension
随着数据仓库有些dimension表有重复的数据,我们可以将它们合并到一个单独的dimension

累积度量
有时候需要跟踪一些累积的度量,比如month-end balance,这时就需要增加额外的measure,并且在加载数据时注意加上之前的值

范围Dimension
一些连续的值的范围构成范围(band) dimension,比如销售订单的数量0.01-15000为”LOW”,15000.01-30000.00为”MED”,30000.01-99999999.99为”HIGH”
这时可以为这个dimension单独见一个band dimension表,然后fact表添加sk即可
5

Tags: .
November 24, 2009

MicroStrategy Desktop是设计为满足当今复杂的BI需求的下一代商业智能工具。它包含集成的查询和报表,强大的协作分析和研究型工作流。它允许你使用单一界面来设计、创建和维护整个BI系统。

MicroStrategy Desktop简介
MicroStrategy Desktop是一套完整的BI控制台。它允许用户使用单一界面设计、创建和维护一整套商业BI系统,给用户提供高级即时查询和自定义报表的能力。
MicroStrategy Desktop提供了不同层级用户的集成方案。卓越的格式化、总计和打印功能使得创建富有吸引力的报表十分简单。你还可以创建专为格式化、展示和分发的报表,或者给会议室特色的文档添加文本、图片、表格或超链接。
MicroStrategy Desktop是市面上唯一满足大型数据库完整需求而不用很多复杂代码的BI界面。它使用了大量高级的数学、统计和金融计算和复杂分析。它包括超多200个预定义的数学公式,你可以自定义这些公式或者创建你自己的公式。
1

MicroStrategy Desktop组件
MicroStrategy Desktop包括如下组件:

  1. MicroStrategy Desktop:在个人电脑桌面上提供了集成的查询和报表、强大的分析能力和决策支持工作流。它支持大量的联机数据分析需求。创建报表十分容易,可以使用多种展现方式来查看报表,使报表美观并达到生产报表的要求,分发报表给其他用户,使用drilling、pivoting、data slicing等大量即时操作来扩展报表。而且,你还可以为不同技能和安全级别的用户自定义界面。
  2. MicroStrategy Architect:它是BI系统的快速开发环境。它创建信息映射来隔离底层信息结构和上层应用,提供schema的灵活性。
  3. MicroStrategy Intelligence Server管理工具:它提供了用户管理、安全模型的实现和MicroStrategy Intelligence Server的管理工具

MicroStrategy Intelligence Server不是MicroStrategy Desktop的一部分,它是一个单独的产品。Desktop包含管理Intelligence Server的必要工具,但它本身不提供Intelligence Server的任何功能。

MicroStrategy Architect是设计为满足今天复杂的BI需求的开发工具。将业务模型映射到底层数据结构的独特技术让MicroStrategy Architect成为行业里最灵活的工具。它基于金融、银行、零售、医药等行业业务模型在terabyte级别数据仓库上创建BI应用。通过用户友好的界面,MicroStrategy Architect让用户创建和维护元数据,从而使得更改能立即透明的对所有业务用户生效。
MicroStrategy Architect创建了一个抽象层来将数据转换为用户熟悉的术语,从而允许用户使用熟悉的业务术语来查看数据。MicroStrategy元数据通过操作任意关系型数据库来提供最大限度的灵活性。支持广泛的高级BI schema确保了系统能够满足任何分析需求。
MicroStrategy Architect让用户能够集中更新元数据,从而简化了系统维护复杂性。更改对所有用户即时而且透明,减少了不必要的复杂性。MicroStrategy Architect通过隔离BI应用和数据仓库变更来方便做变更管理,从而减少系统维护和降低成本。

你可以在MicroStrategy Desktop界面里找到MicroStrategy Intelligence Server的大部分管理功能:

  1. 用户管理:MicroStrategy Desktop轻松维护和管理用户或用户组。大量强大的用户和对面管理特性让你可以更新当前用户的访问权限、删除旧的用户或复制现有用户到新用户,从而减少了多余的工作量。
  2. 广泛的安全模型:在任何BI解决方案里,系统安全始终具有最高的重要性。管理员用户可以创建和维护大量安全配置,通过使用MicroStrategy权限、角色、访问控制列表和数据filter来控制应用功能点、MicroStrategy project、所有BI对象和数据库行和列的访问权限。
  3. Intelligence Server管理:通过MicroStrategy Desktop界面,管理员用户可以改变许多MicroStrategy Intelligence Server参数。管理员可以控制最大报表长度、最大用户空闲时间、报表优先级等等。

Project Source和Project

Project Source
Project Source是一个MicroStrategy对象,它定义了MicroStrategy Desktop怎样访问元数据仓库。你可以认为Project Source是存储Project的元数据仓库的指针。通过Project Source你可以创建、操作和管理Project和其中的对象。打开Desktop之后第一类对象就是Project Source。
有两种类型的Project Source:

  1. Server Project Source:通过Intelligence Server连接到元数据
  2. Direct Project Source:使用Open Database Connectivity(ODBC)直接连接到元数据

下图显示了4个Project Source,其中上面两个是Server Project Source,下面两个是Direct Project Source。
2
Server Project Source通过MicroStrategy Intelligence Server来连接元数据,这是最常见的连接类型。Server Project Source也称为”3-tier” Project Source:第一层为Desktop,第二层为Intelligence Server,第三层为元数据。Project Source指向一个Intelligence Server,而Intelligence Server则指向存储Project的元数据。
3
Direct Project Source通常称为”2-tier” Project Source:第一层为Desktop,第二层为元数据。它被称为Direct是因为它直接指向MicroStrategy元数据。Direct Project Source使得Desktop直接通过在Project Source定义里指定的ODBC数据源名称(Data Source Name, DSN)连接元数据仓库。
4
5
由于Direct Project Source没有直接连接到Intelligence Server,在Administration图标下也不会有Intelligence Server monitoring工具。值得注意的是,当使用Direct Project Source时,系统绕开了Intelligence Server,从而丢失了Intelligence Server的所有优势。因此,在生产环境下不应该使用Direct Project Source。一般只在小的展示和概念证明项目中使用Direct Project Source。

Intelligence Server管理工具
如果用户以管理员身份登录一个Server Project Source,用户将看到Administration图标。它提供了大量工具来监控和管理Project Source连接的Intelligence Server。
6
Administration图标下面提供一些管理工具:

  1. Job Monitor:用来查看当前正在执行的Job、查看正在执行的Job的SQL、取消一个Job
  2. Project Monitor:用来访问Project Configuration Dialog,加载或卸载Project,以及区分Job优先级
  3. User Connection Monitor:用来查看连接到一个Intelligence Server的用户信息和断开用户连接
  4. Database Connection Monitor:用来查看所有数据库连接、删除和断开连接
  5. Schedule Monitor:用来查看所有schedule的请求和删除schedule的请求
  6. Cache Monitor:用来查看和管理报表缓存的状态、从硬盘加载缓存或卸载缓存,或删除缓存
  7. Cluster Monitor:用来在集群中查看、连接和删除MicroStrategy Intelligence Server节点
  8. Database Instance Manager:对一个Project Source修改、创建、重命名或删除一个数据库实例
  9. Schedule Manager:用来创建、修改或删除schedule以及它的event
  10. User Manager:用来组织、创建、修改和删除用户和用户组,或从外部资源导入用户

当使用Direct Project Source时只有有限的管理工具:Database Instance Manger、Schedule Manager和User Manager

Project

从技术上来说,Project是数据仓库、元数据仓库和用户活动的交集。Project里用户构建和存储用于创建应用的信息。

  1. Project决定了要使用的数据仓库中的表和可用于分析的数据集
  2. Project包含所有用于解释数据仓库中表的数据的schema对象(fact, attribute, hierarchy)
  3. Project包含所有用于创建报表和分析数据的报表对象(metric, filter, report)
  4. Project定义了用户访问对象的安全schema(security fitler, security role, privilege, access control)

Direct Project Source下面列出了元数据库里所有的Project,而Server Project Source只列出Intelligence Server加载的Project。
7
默认情况下每个Project有如下目录:

  1. History:获取schedule报表的地方,只有在Server Project Source下才有。
  2. My Personal Objects:存储用户创建的对象,只对用户自己可见。用户可以在这里创建额外的目录。
  3. Public Objects:包含所有用户可见的对象,下面有许多按对象类型归类的子目录
  4. Schema Objects:包含使用MicroStrategy Architect创建的对象,来自数据仓库和数据模型,如fact、attribute、hierarchy
  5. Data Explorer:包含hierarchy,它允许用户浏览Project里的attribute和数据

8

Desktop界面一览
Desktop界面里主要有如下几大区域:

  1. A: Folder List
  2. B: Object Viewer
  3. C: Shortcut Bar
  4. D: Menu Bar
  5. E: Toolbar

9

Folder List
Folder List显示了所有的Project Source、Project、application和schema对象,以及BI系统的管理工具。
10

Object Viewer
Ojbect Viewer就像Windows Explorer一样显示当前目录下的对象。
11
Shortcut Bar
Shortcut Bar允许用户快速访问Folder List里的位置。它类似于Microsoft Outlook里的Shortcut Bar,你可以对Folder List的任意位置添加Shortcut。你也可以对Shortcut进行自定义分组,这对大型Project比较适用。
12
如何创建一个Shortcut到Shortbut Bar:

  1. 在Folder List里定位你想加到Shortcut Bar的位置
  2. 将该位置拖拽到Shortcut Bar

如何删除一个Shortcut:

  1. 在Shortcut Bar的一个Shortcut上右键并选择Remove from Shortcut Bar
  2. 点击Yes确认

如何创建一个新的Shortcut组

  1. 在Shortcut Bar上右键并选择Add Group
  2. 输入一个名字然后点击OK

Menu Bar
MicroStrategy Desktop的Menu Bar有如下菜单:

  1. File:允许用户创建新的对象和目录
  2. Edit:允许用户访问Cut、Copy和Paste功能
  3. View:允许用户改变Object Viewer里图标的显示,还可以显示和隐藏Status Bar、 Shortcut Bar和Folder List
  4. Go:允许用户从Folder List里向上级目录移动或直接回到Project主页
  5. Tools:允许用户访问通用的Desktop工具,如Search Editor、Desktop Preferences和Change Password Dialog
  6. Administration:允许用户访问管理工具,如Project Configuration Editor和Database Instance Wizard
  7. Schema:允许用户访问Project设计工具,如Project Creation Wizard和Atrribute、Fact Creation Wizard
  8. Window:允许用户一次点击关闭所有窗口
  9. Help:允许用户访问在线帮助系统并提供一些有用的MicroStrategy网站

13
Toolbar
14
主要的MicroStrategy Desktop toolbar按钮:

  1. New:创建新对象
  2. Cut:剪切当前选中对象
  3. Copy:复制当前选中对象
  4. Paste:粘贴你剪切和复制的对象
  5. Delete:删除当前选中对象
  6. Rename:重命名当前选中对象
  7. Preferences/View Object Properties:为当前选中对象打开Properties窗口。如果当前选中的是Project则打开Project Preferences窗口
  8. Search:打开Search Editor
  9. Edit:为当前选中对象打开编辑器
  10. Run Report:运行当前选中报表
  11. View:改变Object Viewer里的图标显示
  12. Show or Hide the Folder List:隐藏或显示Folder List
  13. Refresh:刷新当前显示
  14. Go to project:回到当前Project主页
  15. Go one level up:从Folder List里向上级目录移动
  16. Update Schema:更新Project的新添或修改的schema对象定义

创建和保存对象

对象类型
MicroStrategy Desktop里可以创建许多对象类型,它们可以分为三类:schema对象、application对象和configuration对象。schema对象用来创建application对象,application对象用于创建其他application对象。
15

创建和保持对象
有三种方式来访问不同的对象编辑器来创建新对象:

  1. 在Toolbar上点击New按钮旁边的向下箭头来选择要创建的对象
  2. 在File菜单选择New然后选择要创建的对象
  3. 在Object Viewer的空白区域右键选择New来选中要创建的对象

16
保持对象有如下方式:

  1. File菜单选择Save或Save As
  2. Toolbar点击Save或Save and Close

第一次保持对象时,Save As窗口让用户指定对象名字和要保持的位置,默认位置为当前工作目录。
17

创建对象的Shortcut
除了可以添加指定位置的Shortcut,还可以创建MicroStrategy对象的Shortcut,如document、report、folder、attribute、metric等等。该需求让用户更好的组织项目,同时也会保持对象的标准位置。
Shortcut就像Microsoft Windows操作系统里的快捷方式一样,是Project的对象的一个简单的链接。
18
有两种方式创建对象的Shortcut:

  1. 从File菜单选择New然后选择Shortcut,然后定位你想创建Shortcut的对象,点击Open,则会创建一个该对象的Shortcut到当前位置,名字和原始对象一样
  2. 在你想创建Shortcut的对象上右键,选择位置,点击OK

19
对有Shorcut的对象不能直接删除,需要先删除Shortcut。

如何编辑一个对象的Shortcut:

  1. 选中你要编辑的Shortcut
  2. File菜单选择Properties或右键选择Properties
  3. 选择Shortcut tab
  4. 编辑Target属性
  5. 点击OK,则该Shortcut自动更新为目标对象的Shortcut

20

Tags: ,,.
November 23, 2009

商业智能简介

商业智能(BI)是分析累积的原始数据并提取有用信息的过程。一个好的BI系统在正确的时间、正确的地点提供正确的信息给决策者来让他们作出更好的商业决定。
1
如今,BI系统从复杂的原子级别数据分析到主动发送信息给系统订阅者等多种正在增长的应用都有帮助。当今的市场需要在各种级别按需分析当天的业务。它也需要在正确的时间将相关和适宜的信息发送给正确的人。最后,它还需要业务能和客户有密切而独特的联系。

典型的商业智能架构
下图显示了在高层次上一个典型的BI系统的样子。它包括以下几个主要部分:

  1. A: 来自多个源的原始数据,集中在一个数据仓库
  2. B: BI工具,分析数据并提供信息来帮助BI用户更好的理解业务
  3. C: 用户在BI工具提供的信息的基础上采取重新调配资源、改进流程和去除不必要的开销等行动

2
每个BI系统都各不相同,它取决于特定的业务需要和系统目标。在这里讲述的是通用的BI系统的大体架构。

工业级强度的商业智能平台
MicroStrategy是一个工业级强度的平台,它可以粘合各种BI应用来帮你构建持久和有益的客户关系、管理你的供应链、监控你的财政或执行上千种你今天可能需要的业务分析。在这些区域的更好管理会给你的生意带来更多收入和增强的经营效率。
3
信息技术(IT)部分一直在努力少做多得。他们日益寻找一个单一的可以给每个用户提供正确的报表和分析的BI平台。在这个自助式的年代,BI平台必须满足分析师和行政主管不同的需求,而且要满足IT部门轻松集成和保护企业系统、集中管理、性能监控、容错和多级安全等需求。

在MicroStrategy BI平台的帮助下,IT部门可以为每个用户提供任何类型的BI需求。从简单的即时查询、信息发布到企业报表,MicroStrategy是唯一能够满足各种业务需求的BI平台。

5种类型的商业智能
如下5中类型的商业智能将满足你的各种信息管理需求:

  1. 企业报表: 提供创建和发布像素完美的报表。从超级用户的高级需求到行政主管的“看一眼”,MicroStrategy能满足所有人的报表需求
  2. 立方体分析(MOLAP): 提供在预定义好的数据子集上执行OLAP分析的能力。在速度和交互性上增强用户体验
  3. 即时查询(ROLAP)和分析: 提供调查性分析和使用drill anywhere、page-by、pivot、subtotal、sort、filter、rank和export等OLAP功能的即时查询。它让分析师和管理人员对商业结果有更好的洞察和理解
  4. 统计分析和数据挖掘: 提供使用统计处理和数据挖掘算法来进行预测分析。只有MicroStrategy BI平台提供了这些明显需要第三方软件来执行分析的能力
  5. 报表发布和告警: 通过自我订阅或中心管理来提供发布报表和异常告警的能力。你可以通过任何设备来接收报表,包含e-mail、打印机、文本消息、PDA、传真、寻呼机和语音等等

4

MicroStrategy商业智能架构

下图显示了使用MicroStrategy的BI系统的基本组件:

  1. 源系统
  2. ETL流程
  3. 数据仓库
  4. 元数据库
  5. MicroStrategy平台

5

源系统
源系统一般为联机事务处理(OLTP)系统,它是获得业务处理和事务的原始数据的数据库或主机。事务处理包括简单的记录事务如销售、库存、取出、存入、雇佣、货运等等。
一些商用的源系统的例子包括Siebel、SAP和PeopleSoft等等。源系统里的数据有如下特点:

  1. 数据访问为读/写(大量的查询、插入、更新和删除)
  2. 数据按应用来存放(业务活动和工作流)
  3. 不同源系统间的数据格式没有必要一致
  4. 数据历史一般限制为最近的或当前数据

ETL流程
数据抽取、转换和装载流程帮助将数据从各种源系统迁移到数据仓库的信息和自动化过程。
具体来说,ETL流程:

  1. 存储源系统的结构和内容信息
  2. 存储数据仓库的结构和内容信息
  3. 使源系统和数据仓库的结构和内容相关联
  4. 给数据抽取工具提供信息,执行物理上从源系统到数据仓库的数据迁移

常用数据抽取工具:

  1. Ascential
  2. Informatica
  3. DataMirror
  4. D2K
  5. ETI
  6. Hummingbird

数据源
MicroStrategy BI系统里主要的数据源是一个设计良好并健壮的数据仓库。数据仓库是联机分析处理(OLAP)系统的一个例子。OLTP源系统为事务处理而设计和优化,而数据仓库则为分析处理设计和优化。分析处理包括处理事务记录来计算销售趋势、增长模式、总和百分比、趋势报表、利润分析等等。

数据仓库中的数据有如下特性:

  1. 数据访问一般为只读(多为查询,一般很少有插入、更新和删除)
  2. 数据按业务主题存放
  3. 数据格式一致
  4. 数据历史较长,一般为2~5年甚至更久

数据仓库的数据一般通过ETL流程从源系统加载

元数据
元数据是存在数据库中,用于帮助从数据仓库迁移数据到MicroStrategy应用的信息。它存储MicroStrategy对象定义和数据仓库的结构和内容的信息。它将MicroStrategy的对象映射到数据仓库中合适的信息。

MicroStrategy平台
MicroStrategy平台包括各种应用来允许用户和BI系统交互。它允许用户从逻辑上组织数据等级结构,从而很容易创建、计算和分析复杂的数据模型。它也提供了使用多种方式查看数据的能力,从复杂的超级用户工具如MicroStrategy Desktop到容易使用的报表查看工具如MicroStrategy Web。
6

Tags: ,.
November 16, 2009

历史和发展
商业智能(Business Intelligence,简称BI)是用于支持决策的技能、过程、技术、应用软件和实践的集合,其主要目标是将企业所掌握的信息转换成竞争优势,提高企业决策能力、决策效率、决策准确性。
BI技术提供对商业运营的历史、现状和预言性视角,常见功能包括reporting、OLAP、analytics、data mining、business performance management、benchmarking、text mining和predictive analytics等。
IBM的研究员Hans Peter Luhn最早于1958年使用了Business Intelligence这个术语,定义为”the ability to apprehend the interrelationships of presented facts in such a way as to guide action towards a desired goal”。
1989年Howard Dresner(Gartner Group分析师)提议将BI作为一个受保护的术语来描述”concepts and methods to improve busibess decision marking by using fact-based support systems”并被广泛接受。

2009年一份Gartner报告预言了商业智能领域的发展:

  1. 到2012年,超过35%的top 5000的全球公司将因为缺乏信息、流程和工具而相继走向失败
  2. 到2012年,业务单元将至少占商业智能总预算的40%
  3. 到2012年,20%的组织将通过SaaS交付工业特定的分析应用来作为他们商业智能投资的标准组件
  4. 2009年,协作决策将显露为一个新的产品范畴,它让社会化软件具有商业智能平台的能力
  5. 到2012年,三分之一的应用到商业流程的分析应用将通过粗粒度应用的Mashup来交付

BI系统的架构和组件
一般为: 数据源 => ETL流程 => Data Warehouse => BI application
bi architecture
数据源为OLTP数据库、外部文件等
ETL为data extraction、data transforming和data loading
Data Warehouse结构一般为Star schema或Snowflake schema
BI application包括Query&Reporting、OLAP、Data mining、Dashboard等

产品
按市场份额排列top 5:

  1. Business Objects(SAP)
  2. SAS
  3. Cognos(IBM)
  4. MicroSoft
  5. Oracle

其他:

  1. MicroStrategy
  2. Pentaho
  3. SpagoBI
Tags: .
November 4, 2009

本文内容部分整理自wikipedia

No.1 Java

历史、发展与现状

Java最初由James Gosling在Sun Microsystems开发并于1995年作为Sun Microsystems的Java平台的一个核心组件发布。该语言从C和C++继承了很多语法特性并拥有更简单的对象模型和更少的低级设施。Java应用程序通常被编译为字节码(class文件),它可以运行在任何Java虚拟机(JVM)上而不管是何种计算机体系结构。

Java语言创建时立下5个主要目标:

  1. 它应该是简单,面向对象,和熟悉的
  2. 它应该是强大,安全的
  3. 它应该是架构中立和便携的
  4. 它应该是高性能的
  5. 它应该是解释,多线程和动态的

截至2009年11月,JDK最新版本为JDK 6 Update 16。

应用领域

Sun公司定义了4个针对不同Java应用环境的平台:

  1. Java Card–针对智能卡环境
  2. Java ME–针对资源有限的环境
  3. Java SE–针对工作站环境
  4. Java EE–针对大型分布式企业应用或互联网环境

学习路线

1. Java基础

《Thinking in Java》
《Core Java 2》
《Java 5.0 Tiger》

2. Java进阶

《Effective Java》
《Java与模式》

3. Java EE

《Java Server Pages》
《Expert One-on-One J2EE Design and Development》
《Expert One-on-One J2EE Development without EJB》

开源项目

  1. Ant
  2. Struts
  3. Hibernate
  4. Spring
  5. Lucene

No.2 C

历史、发展与现状

C语言是由UNIX的研制者Dennis Ritchie和Ken Thompson于1970年研制出的B语言的基础上发展和完善起来的。

C语言可以广泛应用于不同的操作系统,例如UNIX、MS-DOS、Microsoft Windows及Linux等。C语言是一种面向过程的语言,同时具有高级语言和汇编语言的优点。在C语言的基础上发展起来的有支持多种程序设计风格的C++语言,网络上广泛使用的Java、JavaScript,微软的C#等。

1983年,美国国家标准委员会(ANSI)对C语言进行了标准化,于1983年颁布了第一个C语言标准草案(83 ANSI C),后来于1987年又颁布了另一个C语言标准草案(87 ANSI C)。最新的C语言标准是在1999年颁布并在2000年3月被ANSI采用的 C99 ,但由于未得到主流编译器厂家的支持,直到2004年C99 并未被广泛使用,增加了若干新特性后C99已经逐渐让C语言和C++分道扬镳。

应用领域

由于C具有代码便携、高效率、可访问特定硬件地址、type punning和系统资源的运行时需求较低等特性,它的主要被用于“系统编程”,包括实现操作系统和嵌入式系统应用。

由于C的高效率和广泛使用,许多其他语言的编译器、库和解释器也经常由C来实现。

C有时也用作实现其他语言的中间语言。

C也在实现终端用户应用程序中广泛使用,但随着应用越来越大,大部分开发都转移到其他语言。

学习路线

1. C基础

《The C Programming Language》
《Expert C Programming》
《Pointers on C》
《C Traps and Pitfalls》
《数据结构(C语言版)》

2. C进阶

Linux C编程
《TCP/IP Illustrated》
《Unix Network Programming》

开源项目

  1. Linux kernel
  2. lighttpd
  3. memcached
  4. Tokyo Cabinet
  5. libevent
  6. Ruby

No.3 PHP

历史、发展与现状

PHP或PHP:Hypertext Preprocessor,是一种广泛使用的通用脚本语言,最初专为网络开发中生成动态网页而设计。它可以嵌入到HTML中并通常运行在通过配置处理PHP代码生成网页内容的Web服务器上。

PHP最初由Rasmus Lerdorf于1995年创建,如今主要由The PHP Group维护并作为事实上的PHP标准。

截至2009年11月,最新版本的PHP为5.3.0。

应用领域

主要为互联网应用。

学习路线
《PHP Manual》
《Beginning PHP and MySQL: From Novice to Professional》
《PHP and MySQL Web Development》

开源项目

  1. WordPress
  2. Discuz!
  3. UCenter Home
  4. Drupal
  5. phpMyAdmin
  6. smarty
  7. CakePHP
  8. Zend Framework

No.4 C++

历史、发展与现状

C++由Bjarne Stroustrup与1979年在Bell Labs开发,作为C语言的增强版。

C++被视为一个中级语言,因为它既包含了高级语言的特性又包含了低级语言的特性。

C++最初命名为“带Class的C”,1983年改名为C++。

1998年C++标准委员会为C++制定标准并发布了ISO/IEC 14882:1998国际标准。

2003年委员会又发布了ISO/IEC 14882:2003标准,修正了一些缺陷。

2005年“Library Technical Report 1”(简称为TR1)发布,并为当前主流C++编译器所支持。

而下一代C++标准(所谓的C++0x)正处在开发中。

若干团体提供免费或私有的C++编译器,包括GNU Project,MIcrosoft,Intel,Borland等等。

C++设计哲学:

  1. C++被设计为静态类型的通用语言,并拥有像C一样的便携性和高效率
  2. C++被设计为直接和全面支持多种编程风格(过程式程序设计,数据抽象,面向对象编程和泛型编程)
  3. C++被设计为给程序员选择的权力,即时程序员可能选错
  4. C++被设计为尽可能与C兼容,以提供从C平滑迁移到C++的能力
  5. C++不提供平台特定的或不通用的功能
  6. C++不提供不被使用的功能的过度开销(“零过度开销原则”)
  7. C++被设计为不需要复杂的编程环境

应用领域

C++被广泛应用于软件行业,至今仍为有史以来最流行的语言之一。

其应用领域包括系统软件,应用软件,设备驱动程序,嵌入式软件,高性能服务器和客户端应用程序,视频游戏等娱乐软件等等。

C++也被用于硬件设计中。

学习路线

1. C++基础

《易学C++》
《C++ Primer》
《The C++ programming language》
《C++ Coding Standards》
《The C++ standard library》

2. C++进阶

《C++ Templates》
《Effective STL》
《Generic Programming and the STL》
《The Design and Evolution of C++》
《Inside the C++ Object Model》
《Effective C++》
《More Effective C++》
《Design Patterns》
《Modern C++ Design》

开源项目

  1. MySQL
  2. Nginx
  3. Subversion
  4. eMule
  5. V8
  6. ICE
  7. ACE
  8. LVS
  9. Android

No.5 VB

历史、发展与现状

Visual Basic(VB)是由Microsoft开发的包含IDE的事件驱动编程语言,它源自BASIC语言。
VB拥有GUI和RAD系统,可以轻易的使用DAO、RDO、ADO连接数据库,或者轻松的创建ActiveX控件。
程序员可以轻松的使用VB提供的组件快速创建应用程序。
1991年4月,Visual Basic 1.0 for Windows问世,1992年9月Visual Basic 1.0 for DOS发布,最初的设计由Alan Cooper完成。
1992年11月,VB2.0发布。它对于上一个版本的界面和速度都有所改善。
1993年夏,VB3.0发布,分为标准版和企业版。其中包含一个数据引擎,可以直接读取Access数据库。
1995年8月,VB4.0发布了32位和16位版本,其中包含了而对类的支持,从此逐步引入了面向对象的程序设计思想。它还引入了“控件”的概念,使得大量已经编好的VB程序可以复用。
1997年2月,VB5.0发布,它包含了对用户自建控件的支持。VB 1.0~4.0都必须将源代码编译成VB伪代码后解释执行,而5.0以后VB支持编译成本地代码,但必须在VB运行库的支持下工作。
1998年夏,VB6.0发布。VB6是VB.NET至今仍无法完全取代的版本。
2001年,Visual Basic.NET和.NET Framework发布。由于其使用了新的核心和特性,所以很多VB程序员都要改写程序。
2002年,Visual Basic.NET 2002(v7.0)问世,此后Visual Basic包含在Visual Studio套装中,并需要运行在.NET Framework环境下。
2003年,Visual Basic.NET 2003(v7.1)推出。
2004年,Visual Studio.NET 2005测试版本发布,包含了.NET Framework2.0的测试版本。
2005年11月,Visual Basic 2005(V8.0)发布,其中Express版永久免费。Visual Basic 2005的显著优点是可以直接编写出Windows XP风格的控件。
2008年2月,Visual Basic 2008(v9.0)发布。

应用领域

VB主要用于开发Windows桌面程序和数据库应用程序,而VB.NET还可以用于企业级大型应用程序的开发。

学习路线

MSDN
《Programming Microsoft Visual Basic .NET》
《Programming Microsoft Windows with Microsoft Visual Basic.NET》
《Applied Microsoft.NET Framework Programming in VB.NET》

开源项目

  1. DNN

No.6 C#

历史、发展与现状

C#是由Microsoft于2001发布的一种面向对象且运行于.NET Framework之上的高级程序设计语言,之后成为Ecma和ISO规范。C#的开发由原来Borland的Turbo Pascal设计者Anders Hejlsberg所带领,最新版本为3.0,同.NET Framework 3.5在2007年一起发布。C#下一版本4.0正在开发中。

C#的设计目标:

  1. C#旨在设计成一种简单、现代、通用和面向对象的编程语言
  2. C#支持以下软件工程原则:强类型检查、数组边界检查、未初始化变量引用检查和自动垃圾收集,以及软件健壮性、持久性和高编程效率
  3. C#设计为开发可在分布式环境中部署的组件
  4. 源代码可移植,并支持C和C++程序员很容易的迁移到C#
  5. 支持国际化
  6. 支持在独立的或嵌入式系统环境中编程,从非常复杂的大型操作系统到功能有限的小型系统都支持
  7. 尽管C#程序在内存和处理能力等需求上有一定的经济性,但并不确保具有C或汇编语言一样的性能

应用领域

以Web开发和Windows程序开发为主

学习路线

MSDN
《Understanding .NET》
《Programming C# 3.0》
《Professional C#》
《Essential C#》
《C# 3.0 Design Patterns》
《Microsoft C# Windows程序设计》
《ASP.NET 3.5 Unleashed》

开源项目

  1. Nunit
  2. DNN

No.7 Python

历史、发展与现状

Python的创始人为Guido van Rossum。1989年圣诞节期间,在阿姆斯特丹,Guido为了打发圣诞节的无趣,决心开发一个新的脚本解释程序,做为ABC语言的一种继承。
可以说,Python是从ABC发展起来,主要受到了Modula-3(另一种相当优美且强大的语言,为小型团体所设计的)的影响,并且结合了Unix shell和C的习惯。
Python哲学:

  1. Beautiful is bettern than ugly
  2. Explicit is better than implicit
  3. Simple is better than complex
  4. Complex is better than complicated
  5. Flat is better than nested
  6. Sparse is bettern than dense
  7. Readability counts

应用领域

由于Python功能强大,应用范围非常广泛,包括简单工具、数据处理、GUI程序开发、多媒体、科学计算、网络编程、游戏编程、企业应用等等

学习路线

《A Byte of Python》
《Core Python Programming》
《Python源码剖析》

开源项目

  1. Django
  2. Plone
  3. Zope
  4. Trac
  5. wxPython
  6. BitTorrent

No.8 Perl

历史、发展与现状

Perl是一种脚本语言,最初的设计者为Larry Wall,与1987年首次发布。
Perl借取了C、sed、awk、shell scripting以及很多其他编程语言的特性,其中最重要的特性是它内部集成了正则表达式的功能,以及巨大的第三方代码库CPAN。
Larry Wall持续监督着Perl核心语言的开发,包括即将推出的Perl 6。
O’Reilly Media出版的《Programming Perl》封面是一匹骆驼,如今骆驼成为了Perl的象征。
Perl哲学:There’s More Than One Way To Do It.

应用领域

系统管理、数据处理和Web开发为主

学习路线

《Programming Perl》
《Learning Perl》
《Professional Perl Development》
《Perl for System Administration》

开源项目

  1. CPAN

No.9 JavaScript

历史、发展与现状

JavaScript是一种广泛应用于客户端Web开发的脚步语言,最初由Netscape的Brendan Eich设计并于1995年首次亮相。
JavaScript是ECMAScript标准的一种方言,它是动态的、弱类型的、基于原型的、视function为一等公民的语言。

应用领域

主要用于网页开发

学习路线

《JavaScript The Definitive Guide》
《Professional JavaScript for Web Developers》

开源项目

  1. jQuery
  2. Ext JS
  3. GWT

No.10 Ruby

历史、发展与现状

Ruby是一门面向对象的动态语言,最早由Yukihiro Mstsumoto于1995首次发布,它的灵感和特性来自Perl、Smalltalk、Eiffel、Ada以及Lisp。
由Ruby语言本身还发展处了JRuby、IronRuby等其他平台的Ruby语言替代品。
Ruby的理念是强调人性化,非常直观,按照编程的人认为它应该的方式运行。

应用领域

以Web开发为主,也用于系统管理、数据处理和游戏脚本等领域

学习路线

《Programming Ruby》
《Agile Web Development with Rails》
《The Ruby Way》
《Ruby for Rails》
《Design Patterns in Ruby》

开源项目

  1. Ruby on Rails
  2. Merb
  3. CruiseControl.rb
Tags: ,.