Blog

演化与性别:与生俱来的行为

Content #

演化心理学家提出,演化决定两性行为差异的理论,比如攻击行为和性活动的主动性。他们认为,自然界中的择偶行为要求男性对女性——尤其是那些具有较强生殖力生理特征的女性——更加主动,而且要求男性通过攻击和支配行为来与其他男性竞争。女性由于生殖机会较少,所以会仔细考虑男性保护和抚育后代的能力。

批评者认为演化学派的解释是事后推测,而且无法解释文化多样性。同时,他们也怀疑是否有足够的实证证据支持演化心理学家的理论,担心这些理论会强化不合理的男性刻板印象。

尽管生物因素(如雄激素与雌激素)在性别差异中具有非常重要的作用,但社会角色也是重要的影响因素。但天性赋予了我们适应各种不同环境的杰出能力,这一观点已得到学界公认。

From #

社会心理学(戴维·迈尔斯)

性幻想也存在性别差异

Content #

性幻想也存在性别差异(Ellis&Symons,1990)。

在以男性为受众的色情作品中,女性通常未婚且充满欲望;以女性为主要市场的爱情小说中,温柔的男主角总是会全身心地爱自己的心上人。

看来并非只有社会学家才注意到这种性别差异。幽默评论家戴夫·巴里 (Barry,1995)观察说:“女人们可以为一部长达4个小时的电影而着迷,尽管整个情节就是一男一女向往发展出一段恋情,但最终却没有什么结果。而男人极其憎恨这样的事情。男人的向往一般只能持续45秒,而后就希望大家脱衣服,然后再来一场汽车追逐的戏。一部名为《飞车中的裸身男女》的影片会很吸引男人。”

From #

社会心理学(戴维·迈尔斯)

性别的相似性和差异性

Content #

社会心理学家考察了独立性与关联性之间的性别差异。女性通常更关心他人,表达更多的同理心和情绪反应,以及用更多关系性的词汇描述自己。

男女两性似乎表现出不同的社会支配性和攻击性。在世界已知的文化中,男人一般拥有更多的社会权力,且比女性更可能实施身体攻击。

性特征也是性别差异的另一重要方面。男人渴望并且会发起性行为,而女性的性行为通常是由强烈的感情引发的。 性幻想也存在性别差异

正如侦探对犯罪的兴趣比对美德更浓厚一样,心理学家对差异的兴趣远远超过了共性。让我们牢记这一事实:个体差异远远大于性别差异。女性和男性并不是完全相反(虽然不同)的两种性别,他们更像一个人的两只手,相似却不完全一样,彼此非常协调,但当他们紧紧相握时却有所差异。

From #

社会心理学(戴维·迈尔斯)

自然天性和后天教养对人类的影响

Content #

在人类的相似性和差异性方面主要有两种观点:

  1. 演化的观点强调人类的共通性;

演化心理学家研究自然选择如何使那些有利于基因延续的行为特性保留下来。尽管人类演化的部分遗产是学习和适应能力(因此我们每个人都是独一无二的),但演化的观点仍然强调人类天性中共有的亲缘关系。

  1. 文化的观点强调人类的多样性。

文化的观点强调人类的差异性——用以界定群体并代代相传的行为和思想。不同文化在态度和行为上的显著差异表明,在一定程度上人类其实是文化规范和角色的产物。然而,跨文化心理学家也试图寻找人类“内在的统一性”。例如,尽管不同的文化存在着差异,但是它们也有一些共同的社会规范,如友谊中的尊重隐私和反对乱伦等。

正如平克(Pinker,2000,p.143)记载的那样,“人类还没有足够的时间来积累大量的新基因,因此目前只能暂时认定人类起源于非洲。”事实上,研究人类基因的生物学家已经发现:我们人类——甚至是像吉姆和惠子这样看起来截然不同的人——都是极其相似的,很像一个部落的不同成员。尽管人类数量比黑猩猩更多,但黑猩猩之间的基因差异却比人类更大。

From #

社会心理学(戴维·迈尔斯)

AARRR 用户增长模型

Content #

关于用户增长有一个著名的 AARRR 模型,它描述了用户增长的 5 个关键环节,分别是:获取用户(Acquisition)、提高活跃度(Activation)、提高留存率(Retention)、获取收入(Revenue)和自传播(Refer)。

  1. 获取用户:通过各种推广手段,使产品触达用户并吸引用户,让用户访问我们的产品。

  2. 提高活跃度:用户访问我们的产品后,如果发现没意思、体验差,就很难再次打开,产品的价值也就无法实现。因此需要结合产品内容、运营活动各种手段吸引用户,提升产品的活跃度。

  3. 提高留存率:留住一个老用户的成本远低于获取一个新用户,而真正为产品带来营收利润的通常是老用户,因此需要提高留存率。提高留存率的常用手段有:针对老用户推出各种优惠和活动;建立会员等级体系,注册时间越长等级越高;对于一段时间没有访问的疑似流失用户进行消息短信推送以实现用户挽回等。

  4. 获取收入:做企业不是做慈善,开发、运营互联网产品的最终目的还是为了赚钱,即获取收入。互联网产品收入主要有用户付费和广告收入,有些互联网产品看起来是用户付费,但其实主要营收是广告收入,比如淘宝。

  5. 自传播:让用户利用自己的社交网络进行产品推广就是自传播,几乎所有的互联网产品都有“分享到”这样一个功能按钮,促进用户社交传播。有些产品还会利用“帮我砍价”“帮我抢票”等产品功能推动用户进行分享,实现产品的裂变式传播、病毒式营销。

我还以拼多多为例,一起看看拼多多如何利用 AARRR 模型实现用户快速增长。

  1. 拼多多是近几年互联网产品中将自传播发挥到极致的一个产品。拼多多用户群体主要为三四线以下城市人群,社交成本比较低,愿意为了砍几块钱发动自己的各种社交资源,因此拼多多就利用“帮好友砍价”这一功能实现产品的快速裂变传播。事实上,拼多多非常准确地抓住了这一群体的社交痛点:交往不多的朋友,与其尬聊维持友谊,不如帮我砍价来得更实惠更亲密。

  2. 自传播也是拼多多主要获取用户的手段。比如帮好友砍价时,拼多多会提示“下载 App 可以帮好友砍更多价”,于是用户量呈指数级增长。

  3. 拼多多为了让新来的用户快速上手、增加活跃度,用户第一次使用拼多多的时候,并不需要注册登录,直接就可以挑选商品和购买,在后面订单环节再让用户注册,这时用户已经产生购买冲动,进行注册也更容易被接受。

  4. 拼多多通过各种消息推送促使用户打开 App(或者微信小程序),并在开屏页面的优惠信息给用户制造惊喜,达到留存用户的目的。

  5. 拼多多的主要交易模式为拼团,拼团属于冲动型购买,拼多多为了减少用户的思考时间、维持购买冲动,将购买路径设计得尽可能短,使用户可以尽快完成付费,企业获取收入。

Viewpoints #

From #

35 | 如何利用大数据成为“增长黑客”?

用户留存率

Content #

新增的用户并不一定总是对网站(App)满意,在使用网站(App)后感到不满意,可能会注销账户(卸载 App),这些辛苦获取来的用户就流失掉了。网站把经过一段时间依然没有流失的用户称作留存用户,留存用户数比当期新增用户数就是用户留存率。

用户留存率 = 留存用户数 / 当期新增用户数

计算留存有时间窗口,即和当期数据比,3 天前新增用户留存的,称作 3 日留存;相应的,还有 5 日留存、7 日留存等。新增用户可以通过广告、促销、病毒营销等手段获取,但是要让用户留下来,就必须要使产品有实打实的价值。用户留存率是反映用户体验和产品价值的一个重要指标,一般说来,3 日留存率能做到 40% 以上就算不错了。和用户留存率对应的是用户流失率。

用户流失率 = 1 - 用户留存率

Viewpoints #

From #

32 | 互联网运营数据指标与可视化监控

物联网大数据平台的架构

Content #

  1. 智能网关通过消息队列将数据上传到物联网大数据平台,Storm 等流式计算引擎从消息队列获取数据,对数据的处理分三个方面。

    • 数据进行清理转换后写入到大数据存储系统。
    • 调用规则和机器学习模型,对上传数据进行计算,如果触发了某种执行规则,就将控制信息通过设备管理服务器下发给智能网关,并进一步控制终端智能设备。
    • 将实时统计信息和应用程序监听的数据发送给应用程序设备,供使用者查看管理。
  2. Spark 等离线计算引擎定时对写入存储系统的数据进行批量计算处理,进行全量统计分析和机器学习,并更新机器学习模型。

  3. 应用程序也可以通过设备管理服务器直接发送控制指令给智能网关,控制终端智能设备。

这样就构成一个典型的物联网“端 - 云 - 端”架构,其中两个端分别是传感器与智能设备端,以及应用程序设备端,而云则是大数据云计算平台。

Viewpoints #

From #

30 | 当大数据遇上物联网

典型的互联网大数据平台的架构

Content #

在这张架构图中,大数据平台里面向用户的在线业务处理组件用褐色标示出来,这部分是属于互联网在线应用的部分,其他蓝色的部分属于大数据相关组件,使用开源大数据产品或者自己开发相关大数据组件。

你可以看到,大数据平台由上到下,可分为三个部分:数据采集、数据处理、数据输出与展示。

数据采集

将应用程序产生的数据和日志等同步到大数据系统中,由于数据源不同,这里的数据同步系统实际上是多个相关系统的组合。数据库同步通常用 Sqoop,日志同步可以选择 Flume,打点采集的数据经过格式化转换后通过 Kafka 等消息队列进行传递。

不同的数据源产生的数据质量可能差别很大,数据库中的数据也许可以直接导入大数据系统就可以使用了,而日志和爬虫产生的数据就需要进行大量的清洗、转化处理才能有效使用。

数据处理

这部分是大数据存储与计算的核心,数据同步系统导入的数据存储在 HDFS。MapReduce、Hive、Spark 等计算任务读取 HDFS 上的数据进行计算,再将计算结果写入 HDFS。

MapReduce、Hive、Spark 等进行的计算处理被称作是离线计算,HDFS 存储的数据被称为离线数据。在大数据系统上进行的离线计算通常针对(某一方面的)全体数据,比如针对历史上所有订单进行商品的关联性挖掘,这时候数据规模非常大,需要较长的运行时间,这类计算就是离线计算。

除了离线计算,还有一些场景,数据规模也比较大,但是要求处理的时间却比较短。比如淘宝要统计每秒产生的订单数,以便进行监控和宣传。这种场景被称为大数据流式计算,通常用 Storm、Spark Steaming 等流式大数据引擎来完成,可以在秒级甚至毫秒级时间内完成计算。

数据输出与展示

前面我说过,大数据计算产生的数据还是写入到 HDFS 中,但应用程序不可能到 HDFS 中读取数据,所以必须要将 HDFS 中的数据导出到数据库中。数据同步导出相对比较容易,计算产生的数据都比较规范,稍作处理就可以用 Sqoop 之类的系统导出到数据库。

这时,应用程序就可以直接访问数据库中的数据,实时展示给用户,比如展示给用户关联推荐的商品。淘宝卖家的量子魔方之类的产品,其数据都来自大数据计算产生。

除了给用户访问提供数据,大数据还需要给运营和决策层提供各种统计报告,这些数据也写入数据库,被相应的后台系统访问。很多运营和管理人员,每天一上班,就是登录后台数据系统,查看前一天的数据报表,看业务是否正常。如果数据正常甚至上升,就可以稍微轻松一点;如果数据下跌,焦躁而忙碌的一天马上就要开始了。

将上面三个部分整合起来的是任务调度管理系统,不同的数据何时开始同步,各种 MapReduce、Spark 任务如何合理调度才能使资源利用最合理、等待的时间又不至于太久,同时临时的重要任务还能够尽快执行,这些都需要任务调度管理系统来完成。

有时候,对分析师和工程师开放的作业提交、进度跟踪、数据查看等功能也集成在这个任务调度管理系统中。

简单的大数据平台任务调度管理系统其实就是一个类似 Crontab 的定时任务系统,按预设时间启动不同的大数据作业脚本。复杂的大数据平台任务调度还要考虑不同作业之间的依赖关系,根据依赖关系的 DAG 图进行作业调度,形成一种类似工作流的调度方式。

对于每个公司的大数据团队,最核心开发、维护的也就是这个系统,大数据平台上的其他系统一般都有成熟的开源软件可以选择,但是作业调度管理会涉及很多个性化的需求,通常需要团队自己开发。开源的大数据调度系统有 Oozie,也可以在此基础进行扩展。

Viewpoints #

From #

26 | 互联网产品 + 大数据产品 = 大数据平台

依赖关系(RDD)

Content #

Spark 不需要将每个中间计算结果进行数据复制以防数据丢失,因为每一步产生的 RDD 里都会存储它的依赖关系。

这样做有助于提升 Spark 的计算效率,并且使错误恢复更加容易。

试想,在一个有 N 步的计算模型中,如果记载第 N 步输出 RDD 的节点发生故障,数据丢失,我们可以从第 N-1 步的 RDD 出发,再次计算,而无需重复整个 N 步计算过程。这样的容错特性也是 RDD 为什么是一个“弹性”的数据集的原因之一。

窄依赖(Narrow Dependency)和宽依赖(Wide Dependency)

From #