数据仓库一书的感悟与批判-WEB

web

看到web这一章才明白,前面数仓对接的操作性应用都是指企业内部应用,如此看来这本书基本上还是站在前互联网的视角来看待问题.

点击流数据

正如前面提到的,站在传统的企业IT角度来看,点击流数据的粒度太低,不作用作分析,所以也没必要装入数据仓库.文中提到需要一个叫GM的软件来抛弃90%的数据.

ODS

在这里,ODS终于上场,作为DB和DW之间的数据存储系统,它既作为DW存储很多数据,又作为DB提供实时数据访问.特殊的,ODS不是用来冗余DB的数据,而是用来容易DW数据

数据分析

数据举了一个购物网站的例子,通过csmall的操作记录来产生用户画像:
在这里插入图片描述文中特别提到夏威夷是操作记录中没有出现的地点,我同时注意到猫仔被忽略了.

文本

面对非结构化数据,文本成为连接非结构化数据和结构化数据的公共连接,这个思路仍然是站在传统的角度来考虑,就是把新的,不熟悉的非结构化数据转化为熟悉的,旧的结构化数据.
相对于结构化数据里拥有id,非结构的文本在判断同一个事物中存在劣势:

  • 拼写错误
  • 多义词
  • 碰巧同名
  • 昵称&缩写&带职称
  • 分词(ing,ed)
    这里任然可以看出Inmon的思路任然停留在上个年代,除了第一个是错误外, 后面不同词的含义可能是不同的.
    另外在后面信息的呈现上,可以看出来书中仍然痴迷于传统的那套形式,而没有拥抱新的表达形式(例如和地图相结合)
    文本的分类
  • 通信
    • 商业相关
    • 商业无关
      文中把这种商业无关的通信称为废话
  • 文档

多字段基于概率的匹配

以下是来自两个系统信息,是同一个人:

  • Bob Smith
  • 科多拉多州的Bob Smith
  • 科罗拉多州威斯敏斯特的Bob Smith 可以看出来,从上往下,越来越确定两个人是同一个人。但是这个是一个概率上的上升,永远无法像ID那样保证一样。