点我达Android无痕埋点实现详解

前言 埋点是数据采集的一种重要方法,无论是运营策略还是产品迭代,都需要有详细的数据来支撑。有了数据分析可以得到用户画像、用户的行为路径,不用盲目的去做大量低效的用户调研和无根据的分析,大大降低了我们的试错成本。 就目前而言,客户端埋点最常见的方式还是以代码埋点为主。代码埋点的方式

用ApacheArrow加速PySpark

用ApacheArrow加速PySpark Pandas、Numpy是做数据分析最常使用的Python包,如果数据存在Hadoop又想用Pandas做一些数据处理,通常会使用PySpark的DataFrame.toPandas()这个方法。让人不爽的是,这个方法执行很慢,数据

ElasticSearch的基本概念和集群分布式底层实现

深度分页引发的机器性能问题 最近碰到一个ElasticSearch深度分页搜索,导致cpu占用过高问题,通过查阅ElasticSearch: 权威指南,了解到了深度分页为何会引起机器资源占用: 在集群系统中深度分页 为了理解为什么深度分页是有问题的,让我们假设在一个有5个主分片的

数据库连接池初探

数据库连接池初探 为什么需要连接池 MySQL连接原理 所谓的数据库连接操作实际上是MySQL客户端与MySQL服务端进行通信,再细化一点便是连接进程与MySQL服务进程之间的进程通信。常用的进程通信方式有管道、共享内存、TCP socket、unix domain socket

rider-weex项目引入jest单元测试

weex开发到现在,我们一直在找机会启用单元测试,但由于需求繁多,时间和精力不太允许。在weex的开发过程中,除了产品需求,我们也一直在做公共组件的开发,由于公共组件的日渐增多,个人认为在公共组件内进行单元测试还是有一定的必要性。 开年那段时间需求不多,正好研究了

LSM原理解读

06年,Google发表了BigTable论文,从此推开了大数据时代的大门。 为什么又提及BigTable,是因为这篇论文中使用了LSM这种数据结构。 LSM: Log Structured-Merge Tree(日志结构合并树),是一种先于BigTable出现的文件组织