佰腾科技:专利大数据的云上裂变之路

公司简介

咱们江苏佰腾科技有限公司是一家从事专利信息应用、专利咨询服务的企业,是国内知名的知识产权服务公司,以佰腾网和专利巴巴为网络平台,面向国内外用户提供知识产权、科技创新总体解决方案。2014年起,咱们公司积极推动互联网转型,实施“互联网+专利”计划,开发了国内首家专利电商平台—专利巴巴,经过专利巴巴项目的实施,使公司转型为知识产权领域内的互联网公司,并采用B2B、O2O线上线下相结合的模式为客户提供全方位的、全流程的知识产权一体化服务。数据库

业务痛点

  • 急需大数据的处理能力。安全

    • 上百项数据维度的高效存储和高效处理是咱们公司目前急需解决的问题。提高了大数据的处理能力,才能加快专利信息应用的步伐、知足客户更多的需求。
    • 如今的数据维度比较多,处理环节很是多,须要实现数据处理流程的自动化编排。
  • 数据平台的可扩展问题。

    咱们公司的专利巴巴产品架构中几十个组件都要维护,每有一个客户需求都须要作组件,须要解决数据平台的扩展性,以便快速支撑各类需求的应用。服务器

解决方案

图 1.专利巴巴业务架构网络

专利巴巴业务架构

  • 数据处理能力:架构

    • 使用MaxCompute平台代替数据库。咱们上云以前的原始数据处理和数据维度分析都使用了数据库集群,如今将这两部分放入了MaxCompute,大幅提高整个数据存储和处理的效率。
    • 经过使用MaxCompute的任务平台,来编排处理任务。数据都存在MaxCompute表里,所以能够定义MaxCompute函数,访问表里的内容,并进行相应处理。Shell任务对原始数据进行数据包拆解,拆包后把数据放到MaxCompute,而后经过SQL任务对数据维度进行拆解和分析,这时会用到定义的MaxCompute函数,最后还能够调用一个Shell任务,对数据维度索引,供上层应用使用。
  • 数据应用需求:函数

    • 平台架构分层化设计。按照专利大数据的处理流程和职责明确作了设计,核心是数据维度数据库。性能

      • 数据获取层:负责从数据源拉取数据,检验数据的完整性。
      • 数据处理层:对原始数据进行数据维度的挖掘。
      • 数据应用层:对数据维度进行各种索引以便应用。
      • 数据服务层:负责对外提供统一的数据服务接口,保障服务质量。
      • 数据管控层:负责对整个数据平台进行运行监控。
    • 数据维度规范化处理。大数据

      咱们对于数据维度作了大量的规范性要求:阿里云

      • 为每一个数据维度明确其应用目标。
      • 明确数据维度的数据样式规范。
      • 明确数据维度的质量标准。
    • 数据维度规范化应用。编码

      • 引擎组件:各种引擎组件用不一样的方式对数据维度进行编码索引,并提供各类特性的数据应用功能。
      • 模型系统:对引擎组件的能力进行编排,实现可重用的数据分析能力,提升数据分析应用的复杂度。

上云价值

  • 数据的测算以前基于RDS的数据存储,一个维度的数据处理须要2-3天,如今处理时间缩短到3-6个小时,整个性能提高很是之大;并且,在大量数据处理时,不少时候是处理到80%的时候才会发现数据处理有问题,若处理时间过长,当发现问题时会一切从新开始,浪费的时间很是长。因此在这个场景下,MaxCompute的性能很是可靠。
  • 上云以后的大数据处理流程比以前的流程简单不少。全部数据处理流程都实现了自动化编排,一键式处理就能够彻底编排,很是高效。

相关产品

  • 大数据计算服务 · MaxCompute

    MaxCompute(原ODPS)是一项大数据计算服务,它能提供快速、彻底托管的PB级数据仓库解决方案,使您能够经济并高效的分析处理海量数据。

    更多关于阿里云MaxCompute的介绍,参见MaxCompute产品详情页

  • 云服务器ECS

    云服务器(Elastic Compute Service,简称ECS)是阿里云提供的性能卓越、稳定可靠、弹性扩展的IaaS(Infrastructure as a Service)级别云计算服务。云服务器ECS免去了您采购IT硬件的前期准备,让您像使用水、电、自然气等公共资源同样便捷、高效地使用服务器,实现计算资源的即开即用和弹性伸缩。阿里云ECS持续提供创新型服务器,解决多种业务需求,助力您的业务发展。

    更多关于云服务器ECS的介绍,参见云服务器ECS产品详情页

  • 云数据库RDS MySQL版

    MySQL 是全球最受欢迎的开源数据库之一,做为开源软件组合 LAMP(Linux + Apache + MySQL + Perl/PHP/Python)中的重要一环,普遍应用于各种应用场景。

    更多关于云数据库RDS MySQL版的介绍,参见云数据库RDS MySQL版产品详情页

  • 数据传输服务DTS

    数据传输服务(Data Transmission Service) DTS支持关系型数据库、NoSQL、大数据(OLAP)等数据源间的数据传输。它是一种集数据迁移、数据订阅及数据实时同步于一体的数据传输服务。

    更多关于数据传输服务DTS的介绍,参见数据传输服务DTS产品详情页

  • 对象存储OSS

    阿里云对象存储服务(Object Storage Service,简称 OSS),是阿里云提供的海量、安全、低成本、高可靠的云存储服务。其数据设计持久性不低于 99.9999999999%(12 个 9),服务设计可用性(或业务连续性)不低于 99.995%。

    更多关于对象存储OSS的介绍,参见对象存储OSS产品详情页

相关文章
相关标签/搜索