BI系统数据流架构,包括实时和离线计算流程
{flume 双机轮询,实时计算集群,Kafka,flume 日志合并,java定时计算,Hdfs,flume 日志采集,
日志接收
server
,Game Server,日志汇总,BI报表系统,客户端sdk
ios/安卓
,日志接口集群,Impala,Redis ,公网,关系数据库,架构说明:
1. 要求合作方必须按照约定的日志格式打点。
2. 与合作方约定一种实时日志采集方式:rsync定时文件同步或者flume文件采集。
3. 离线日志同步,需要确定合作方是否提供日志汇总服务器。有,则从日志汇总服同步文件到BI的日志接收服。无,则从每台server服上同步文件。
4. 存当天数据的hive事实表为json格式。全量数据的hive事实表为parquet格式,节约存储空间。维度表保存在Kudu里。所有表都用Impala查询。
5. CDH采用6.0+版本,开启纠删码,以节约数据备份所需存储空间。
6. Kafka默认保留7天数据,partitions为3。
7. redis中除用户、角色、设备存档永久保留,其他key只保留8天,也就是留存最多算到+7日留。
8. 报表结果数据表按天分区。
,rsync,Flink on Yarn,Hive,负载均衡,Kudu,消息队列,离线计算,http,日志汇总
server
,接口server,Hadoop集群,用户
}