看到web这一章才明白,前面数仓对接的操作性应用都是指企业内部应用,如此看来这本书基本上还是站在前互联网的视角来看待问题.
正如前面提到的,站在传统的企业IT角度来看,点击流数据的粒度太低,不作用作分析,所以也没必要装入数据仓库.文中提到需要一个叫GM的软件来抛弃90%的数据.
在这里,ODS终于上场,作为DB和DW之间的数据存储系统,它既作为DW存储很多数据,又作为DB提供实时数据访问.特殊的,ODS不是用来冗余DB的数据,而是用来容易DW数据
数据举了一个购物网站的例子,通过csmall的操作记录来产生用户画像:
文中特别提到夏威夷是操作记录中没有出现的地点,我同时注意到猫仔被忽略了.
面对非结构化数据,文本成为连接非结构化数据和结构化数据的公共连接,这个思路仍然是站在传统的角度来考虑,就是把新的,不熟悉的非结构化数据转化为熟悉的,旧的结构化数据.
相对于结构化数据里拥有id,非结构的文本在判断同一个事物中存在劣势:
以下是来自两个系统信息,是同一个人: