笔者在过往的从业经历中,经常体会到的一点就是,因为种种研究往往小公司进行用户研究的时候过于草率和缺乏方法,最后得出的结论并不具备代表性。虽然笔者也没有进行过专业训练,只是自学了一些统计学和用户研究方法,但还是有些心得总结给到新人。
一、调查方式用对了么?
笔者供职于某社交平台的时候,受命去某新区域拓荒,下飞机就接到了产品组的任务,要求测试该产品在该区域的网络连接情况。面对这种问题,笔者只能花了半天时间,尽量在不同网络环境下,用自己的手机打开APP,然后用秒表记录APP各个模块API的拉取时间。
虽然最后的结论确定是确实慢,延迟大。
但我的测试样本并不具备代表性,
从地域上,我一直在该国首都测试,理论上大部分国家首都都是当地通信条件最好的区域之一,并不代表其他区域的网络状况。
从网络环境上,我虽然尽量测试了该国的所有运营商的电话卡,和好几个公共WIFI,但都是在酒店、露天、餐厅等环境中测试的,潜在用户自己家里的网络环境是什么样的呢?无从得知。
第三,测试设备是我自己带的港版手机,其实和该国的网络频段并不完全重叠,并不具备代表性。我只能用卡秒表的方式进行观测,本身就有误差;因为观测对象是返回的动画,所以卡顿完全没法分清是手机性能卡顿还是网络环境造成的卡顿。
在移动互联网时代,这种调查完全不应该由前线人员操作,而是应该产品本身部署firebase performance monitoring之类的网络探针直接由用户端上报和业务服务器api接口通信时间来达成,这样才能解决覆盖的广度和精确性问题。
二、注意不回复问卷的人
无反应误差是问卷调查中特别容易出现的问题,1989年美国达拉斯的调查员进行了一个关于人们对于艾滋病看法的调查,被抽样的个体被要求完成一份自填式问卷,并由现场抽取血样。这项研究取得了惊人的84%的响应率:一些人可能认为这个比率明显表明高质量。但为了确定是否存在非响应偏差,研究人员回头对非响应者的随机样本进行了再次调查,并成功让其中一些人参与。
这一努力揭示,在最初的数据收集工作中,HIV风险行为(如静脉注射毒品和男男性行为)的流行率被低估了。最初参与者中只有3%报告从事过静脉注射毒品,而在后续参与者中这一比例为7%。同样,最初参与者中只有约5%报告从事过男男性行为,而后续参与者中这一比例约为17%。
因为当时美国南方还是相对保守的,恐艾心理的作用下,有过高风险行为的人更倾向于不参加这个调查。
同样的例子,如果将对于自己产品的调查问卷放到banner位之类的地方,你很难获得负向反馈。因为不喜欢你产品的大多数人更喜欢直接卸载,离开完事儿,你获得的反馈更有可能来自于你的重度用户。
三、样本特性
笔者在负责语音房类产品早期推广的时候,刚上的Bigo ads渠道没过几天就受到了数据部门和运营部门质疑,怀疑是流量造假,理由是新用户注册登录率比FB/GG高了10%,但是最核心的次日留存和使用时长都比FB/GG的表现差。
但这个时候只需要汇总两个数据就能解答这个问题,首先是往下拆分的运营数据里,Bigo ads渠道首日注册的进房率、上Mic率、公屏聊天率都是高于其他渠道的,结合前面的注册登录率偏高,说明活跃度很高。
询问bigo的am, 该平台历史上的产品广告消耗占比,视频直播/语音房等泛社交产品在当时超过了7成。
同时逻辑上,我们当时因为刚开始推广测试,日均消耗不过200、300美金,广告平台犯不着为了这点小钱专门为我们这个产品设计一套作弊方案,甚至连上Mic和公屏打字都模拟出来。
那么答案呼之欲出,因为Bigo本身就是泛社交平台出身,所以他们广告平台上吸引的客户也大多是同类客户,但是Bigo ads毕竟是小平台,覆盖的人群有限,广告库存有限。所以会用语音房产品的用户都已经经历过多款不同产品的洗礼了,且语音房平台本来产品设计同质化就严重。所以对于bigo ads的受众而言,今天无非又多了一个新语音房可以玩,这些老司机驾轻熟路的注册登陆,上mic,聊天,发现这个早期产品也没什么和别的不一样的卖点,于是直接卸载走人。这就造成了首日活跃行为很强,但是时长、留存均不理想的情况。
同样的情况,笔者在很多工具产品上也观察到过,虽然可能以Android和iOS用户进行整体对比,发现用户各项数据相差较大的情况。但如果我们拆出高端Android手机,比如三星S系列旗舰机,用户行为就会和iOS用户很相似,因为这两款产品本身就互为竞品,在很多国家这两个系列用户间的特征差别仅仅只是操作系统偏好。
四、问卷设计是门科学和技术
设计一份合理的问卷是很难,很多用户研究专家一辈子可能最大的成就就是设计出一套经典问卷。
首先是人类本来的特性:比如你有一款泛受众产品,你在街上随机询问路人产品体验大概率只会得到正回馈,第一,他可能正有事情做,想要快速结束对话(这种情况只能察言观色的时候不把对方的回答视为有效)。第二,除了少部分反社会人格,人类通常,特别是对陌生人,在不损害自己利益的情况下,给予褒扬。人群总体会倾向于给你面子,给你的产品更高的反馈。
响应式谬误,和前面达拉斯对于HIV的调查相反,人类对于很多问题会积极给予错误的响应。
最近的知名例子就是总统选举前川普的支持率是远远被低估的,因为MAGA运动的排外反移民倾向,在有移民传统的美国是非常政治不正确的,很多川普的支持者都是沉默选民,并不会公开表达自己的政治倾向,但会真的投出那一票。
笔者遇到的例子是,笔者曾经做过一个外出打工青年和家里长辈互联网互动行为的调查。其中需要一个参数来判断该青年和家庭的亲密度,但我直接问“你和你家里人关系好么?”是个完全没有用的伪响应,因为我们东亚儒家文明里,“关系不好”很大程度上等于不孝顺,而孝这个概念在传统道德里是个绝大的政治正确,特别是在这些青年出身的农村地区。
所以笔者换成了,“你父母生日是哪年几月几号?”(还好那个时候电诈还不猖獗,不然也是无效问题),“你多久跟家里联系一次”“上次跟家里人联系是什么时候”,这三个问题,侧面计算和家里的亲密度。