您现在的位置是:首页 >  云笔记 >  阅读笔记 >  文章详情

第4.2节、测试流程如何开展

特不靠谱   2020-08-07 09:23:57   310人已围观

第4.2节、测试流程如何开展

         你无须在第一次增长会议上就决定要进行哪些测试。团队成员可以利用接下来一周的时间进行头脑风暴,筛选第一轮周期要测试的想法,然后在下一周的增长会议上对这些想法展开讨论并做出决定。我们将以这个食品商店App为例,在本章详细介绍团队会提出哪些想法以及测试流程如何具体开展。

第一阶段:分析

        在这一阶段,增长负责人要和数据分析师一起深入分析初期用户数据以发现具有明显特征的用户群体。首先,要将经常性的消费用户和其他几乎不使用或下载后从未使用的用户分离开来。为探索潜在增长机会,他们制定了下列问题来指导分析过程:

我们的最佳客户有哪些行为:

• 他们使用了哪些功能?

• 他们访问了App的哪几屏?

• 他们打开App的频率如何?

• 他们购买了哪些商品?

• 他们的平均订单金额是多少?

• 他们在一天中的什么时间下单?通常在哪些日子下单?

我们的最佳客户有哪些特征:

• 他们是从什么渠道转化为我们的客户的?是广告、推广邮件还是其他渠道?

• 他们使用什么设备?

• 他们具有哪些人口学特征,如年龄、收入等?

• 他们居住在哪些地区?

• 他们距离最近的本品牌商店或其他商店有多远?

• 他们还使用其他哪些类似的App?

导致用户弃用App的原因:

• 哪些屏的退出率最高?

• App存在哪些阻碍用户采取某一行动的程序错误?

• 与其他提供商相比本应用中的商品价格如何?

• 消费用户的行为中有哪些是弃用用户没有的?

• 他们从开始到弃用App的过程是怎样的?在弃用之前他们在App中花费了多少时间?

       在数据分析师研究数据的同时,团队的营销专家则开展了一系列用户调查和采访。其中一项调查的目的是获取用户的人口学和心理学信息,另一项调查询问了用户线上和线下的购物习惯,而最后一项调查则是关于用户最喜爱的App以及他们的移动设备的使用情况。

       之后,数据分析师和营销专员将所有数据分析结果和用户调查与采访反馈汇总,编写成报告并在第一次增长会议的前一周发送给团队成员。筹备这场会议时,增长负责人撰写了一份总结,说明截至目前的研究结果,其中就包括经常性消费用户区别于从未消费或只进行过一两次购买的用户的几个十分有趣的共同特征。

       第一个特征是这些活跃消费用户的平均订单金额高于50美元,刚刚超过免运送费的最低金额。除此之外,很多经常性消费用户都有很多会重复购买的食品,这些食品显然对他们来说是必需的。最后,最为活跃的消费用户中相当大的一部分是从商店的移动网站跳转到App中的。

       基于数据分析,团队已经提出了一些增长想法,并为第一次会议做好了准备。他们将在这次会议中讨论了调研发现,评估初步的增长想法以充分利用这些发现,选出第一批旨在提高App用户所创造的收入的想法,并规划初步的试验流程。

第二阶段:提出想法

     “点子”是增长的催化剂。你需要一系列的增长点子以形成稳定的增长动力。正如莱纳斯·鲍林所言,“形成一个好想法的最佳办法是提出很多想法”。正因如此,能够不加限制地提出想法对于增长黑客过程尤为关键。这并不意味着要不加限制地测试这些想法。测试应当是经过严格的优先级排定的。但是你需要鼓励增长团队成员充分发挥想象力并且对想法毫无保留。这能够保证团队形成足够多的想法,以便从中筛选最具价值的那些。

        在团队会议之后的前四天,所有成员都应当提交尽可能多的可能提高App用户创收的增长想法。提出想法时不应自我质疑,没有什么想法是过于疯狂而不该提的。团队成员应当根据自己的特定领域和专长献计献策。例如,用户体验设计师可能会建议对某个屏的显示进行一些修改,营销人员可能会提议测试鼓励用户首次下单的不同方法,而工程师则可能会提出优化产品性能和速度的一些想法。当然,他们提出的想法也不应仅限于自己的领域。

       增长负责人应当建立一个项目管理系统,用于协调想法的提交和管理以及测试结果的跟踪和报告。请记住,跨职能合作和信息共享是增长黑客法的关键原则。正因如此,增长团队里的每一个人都应当有权限使用这一想法储备库,并且随时都可以往其中添加新内容。在GrowthHackers,我们创建了自己的软件程序,叫作“Projects”,任何有权限使用它的人都可以在软件中提交想法并对试验过程及结果进行跟踪、评论和查阅。对于团队使用的项目管理软件没有数量要求,这些软件都可以用来促进试验管理及成员就试验策略进行沟通。

        想法应当按照一个事先制定的模板提交到“储备库”中。团队应规范想法提交的格式,因为只有这样团队才能迅速地对想法进行评估,而不需要问很多问题。提交的想法不应该只是提出像“我们的注册表太复杂了,应该简化一下”这样模糊的建议,而是必须清楚地说明应该做出什么具体的改变,并阐述为什么这一做法可能带来结果的改进,同时也要说明如何衡量测试结果。

         为说明想法提出的正确格式,让我们再回到食品连锁商店移动App的案例中。在第一次和第二次增长会议之间的那一周,团队成员可以针对促进用户消费的几个方法中的任何一个提出自己的想法。有的想法可能旨在吸引那些下载了App但还未购买的人下第一笔订单。有的可能针对已经购买过的用户,要么是吸引他们更频繁地消费,要么是增加他们的单笔订单金额。还有的想法可能是为了吸引更多用户从公司网站转到App,因为数据显示,从网站跳转过来的用户往往创造的价值更高。

         假设App团队的产品经理提出了打造“购物清单”功能的想法,这个列表可以保存用户之前购买的商品,从而使用户可以轻松地再次购买。那么这个想法应按照下面这个格式提交:

想法名称:我们发现,给每个想法起一个简短的名称可以使讨论更容易也更高效。在GrowthHackers,为保证名称简洁明了,我们设定了不能超过50个字的限制。对于这个例子,我们不妨给它起名叫“购物清单”。

 

想法描述:想法描述看起来应当像执行大纲那样清晰明了,说明“谁”“什么”“何处”“何时”“为什么”和“如何”等问题。这个想法针对“谁”?例如,是所有的访客、新用户、复活用户还是从某个流量源获得的用户?要创造“什么”?是一份新的营销文案还是一个新功能?这个新文案或是新功能将在“何处”执行?是在App的主屏还是其他地方?它将在“何时”出现在用户屏幕上?比如访客初次访问网站着陆页的时间。除此之外,描述还必须说明“为什么”,即想法背后的论证过程。也要说明“如何”,即建议开展的测试类型,比如是A/B测试,还是要开发新功能,或是要展开新的广告攻势。

        对于这个购物清单,产品经理可能会这样描述:使用户轻松地查看并再次订购之前购买的商品将增加重复购买的人数,也会提高他们下单的速度。更便捷的再次购买操作应该能够刺激更多用户回购。购物清单功能应当添加到App的导航项中,使所有用户都能够使用,方便用户保存并回购他们喜爱的商品。这一功能应该先在早期用户中进行测试,再提供给所有用户使用。

假设:像任何其他类型的试验一样,“假设”应当简要说明预期的因果关系。同样,对于假设不能只是给出模糊的原因和结果,像“重复购买的用户不够多,我们应该激励用户回购”这样的话只是对问题和努力方向的一句陈述,而假设应该是:“通过给用户提供便捷查询并回购商品的功能,回购用户人数将提高20%。”有些团队可能会选择在假设中说明预期成果,有些则可能不会。这么做的好处是能够使团队清楚地了解一个想法可能带来的量化结果。如果预期会有40%的收获但结果只有5%,他们就会知道还有很多工作要做。但另一方面,对试验结果的预测不可能精确,所以很多团队不会进行预测。在GrowthHackers,我们根据过去类似的试验、网上可获得的基准数据、试验参与人数和试验对他们当前行为可能产生的影响来估算预期结果。

待测指标:必须具体说明为评估测试结果需要追踪哪些指标。大多数试验都应当统计不止一个指标,因为一个指标的改善有时候是通过牺牲其他指标来实现的。比如你在测试着陆页的一份新的注册表格时,可能会发现因为注册变得更加方便,所以注册人数增加了,但是新注册用户的活跃度却比以前有所降低,因为他们并不十分清楚他们注册的是什么。最终,这可能成为实现增长的严重障碍。

      确定要追踪的指标,首先要看一看试验会使哪些“下游”指标发生变化。例如,对于购物清单试验来说,应追踪的指标包括使用购物清单功能的用户数、每个清单保存的商品数、回购数、回购比例以及平均每笔订单的金额。这些指标有助于增长团队评估试验结果及试验对重要指标的影响。统计的范围包括有多少人使用了新功能以及新功能对于他们购买行为的影响,这将帮助团队确定试验是否提升了核心指标,即每位消费用户创造的收入,以及试验假设是否成立,即使用这一功能的App用户回购比例是否提高。

       请注意,储备库中的点子越多,找到能够刺激增长的绝佳方法的可能性就越大。在增长黑客循环的下一阶段,你需要对大量的想法进行筛选并排定优先级,即哪些先测试,哪些晚一些测试,哪些直接抛弃。

        最后,由于我们的目标是形成尽可能多的想法,因此不仅需要团队成员提出想法,也需要整个公司的同事都参与进来。销售团队可能对客户痛点有宝贵的见解,市场团队则可能了解到一个可以用于开展获客试验的新的推广平台。在开展增长攻势的初期,你应当主要从公司内部收集来自不同部门的想法,而随着时间的推移,你也应考虑在第三方供应商和合作伙伴中集思广益。外部人士往往能够提出非常宝贵的建议,帮助团队打破思维惯性的束缚。比如,有的顾问可能有和同类型公司合作的经验,他们往往了解其他公司有哪些极为成功的做法。邀请客户特别是最为活跃的用户分享他们的观点也可能给你带来很大的启发。他们往往非常乐意提供他们的见解,而且他们对于产品使用的经验可能比你的团队丰富得多。

         在GrowthHackers,我们一开始只在增长团队内部收集想法,但是很快发现团队总在做类似的试验。于是我们去询问其他部门同事的意见。起初,我们犯了个错误,没有告诉他们增长杠杆和核心指标是什么,这导致我们收到了很多模糊的回复,比如“你们需要我帮什么忙?”或者“如果我想到什么好点子就联系你们”。但是后来,我们告诉了他们我们的关注点,一时间各种建议便如潮水般涌来。这带来了非常积极的结果,于是我们进一步将收集想法的范围扩大到投资人和咨询顾问,最后又扩大到增长黑客社区里我们十分信任的会员。

        一开始,我们通过邮件接收建议,然后再按照正确的格式进行编辑,添加到储备库中。在开发了“Projects”软件之后,我们就给所有收到我们邀约的人开放了权限,让他们直接登录软件提交想法。 事实上,团队测试过的一些最好的点子都是来自公司以外的人士。例如,我们最为活跃的社区会员之一建议我们在网站上设立与知名增长专家对话的问答栏目,这后来成了我们访问量和用户参与增长的重要引擎。再比如,我们的一位顾问跟我们分享了在他的网站上一些效果十分显著的SEO策略,我们采纳了之后发现这些策略极大地提升了我们在谷歌上的排名。而这只是我们从团队外部收集的许多绝佳创意中的两个。

        在提交想法之前的最后一个步骤是给想法打分,这可以帮助团队在第三阶段比较不同的试验想法并排定优先顺序。我们将在第三阶段介绍这个评分体系,并说明如何利用它给想法评分并做出选择。

第三阶段:排定优先级

        在一个想法提交到团队讨论之前,必须要给它打分。打分能够帮助团队在不同的想法之间进行比较,以确定在什么时间开展哪一项试验。分数应该由提交想法的人给出,在评分之后这一想法才能进入储备库。

        在GrowthHackers,肖恩制定了“ICE评分体系”以整理第二阶段形成的各种想法,ICE三个字母分别代表impact(影响力)、confidence(信心)和ease(简易性)。在提交想法时,提交者应以10分为满分给想法打分,打分根据以下三个标准:想法的潜在影响力、提交者对于想法取得效果的信心以及相应试验开展的简易程度。三项分别打分之后,再相加平均便得到一个想法的综合得分。对储备库里所有的想法进行评分之后,团队就可以根据得分排序,在核心关注领域选择得分最高的想法开始试验。例如,如果增长团队目前关注的是提高客户留存率,那么即使在获客方面的一个想法分数非常高,团队也会将之搁置一边,选择分数稍低一些的关于客户留存的想法。

       下面我们以食品连锁商店App为例对其团队提出的想法进行了排序。排序可以在表格或者项目管理软件中进行。如表4–1所示,通过评分,可以清楚地看到哪两个想法是应该最先测试的。当然,综合得分并不一定最终决定想法的优先顺序,团队可能会在增长会议上讨论之后出于某些原因选择分数略低的一个想法。但是,评分是一个很好的起点。

4-1食品连锁.png

表4–1 食品连锁商店想法评分表


        给自己的想法打分不是一件容易的事,因为打分涉及一定的主观性和预测性。但是有了经验之后,你很快就会掌握如何利用数据、之前的试验结果以及行业基准来估算自己想法的价值。此外,随着你看到越来越多的想法被测试并看到这些测试的结果,你对于某个想法的潜在回报的把握也会越来越准确。不过还是有必要先了解一下这三个标准的具体含义及如何对它们进行评估。接下来就详细介绍一下这三个标准。

影响力:影响力是指某个想法对于促进团队关注的指标的预期提升程度。在食品商店App的案例中,这一指标是每位用户创造的收入。你可能认为只有具有很高影响力的想法才值得提交,但是要记住,团队应同时选择具有潜在高影响力、通常实施起来也更复杂的试验和一些更容易实施但同时也可能产生有意义的结果的试验。团队的目标是筛选尽可能多的高影响力试验,但如果有的试验需要几周甚至更长的时间筹备,那么就应该选择一些相对来说更容易实施的试验填补这段空档,这也是为什么测试的简易性也是ICE评分的标准之一。

 

信心:这个标准衡量的是想法提出者对于想法产生预期影响的信心。对于这个标准的评分不应基于主观臆测,而是要根据某种实证经验,不管是数据分析、行业基准、可查阅的案例研究,还是之前的试验经验。如果试验是之前的一次成功试验的迭代,那么信心评分应当更高。这是一个不错的做法,增长黑客界通常称之为“双倍下注”(doubling down)。比如一项试验的内容是通过脸谱网上提供免费样品的广告吸引用户跳转到着陆页填写邮箱资料,这个做法为公司提供了很多新的潜在客户的邮箱地址。下一次你可能会尝试通过谷歌等其他渠道推广同一个着陆页。第一次试验时,因为你以为填写注册表可能会使很多人放弃申领样品,所以对于试验的信心值比较低,只打了4分。但是做下一次试验时,由于第一次试验的成功,你可能将信心值提高到8分。信心值很高也可能是因为了解到公司内或公司外的其他团队做过类似的成功试验。

 

简易性:简易性衡量的是进行一项试验所需投入的时间和资源。重新进行界面设计或是改进结账环节购物车的样式都是具有潜在高影响力的想法,但是这样的想法往往不容易落实,可能需要几周甚至几个月的准备时间。简易性得分不仅可以帮助增长团队认清一些不太现实的想法,也可以帮助他们在每一轮增长循环中发现一些“唾手可得”的试验。

        在召开团队会议之前,增长负责人应查看各个想法的初始得分,他可能会发现想法提交者没有想到的一些问题。增长负责人可以基于他的过往经验以及其他团队成员的意见给出分数调整建议。但是,团队不应过分纠结分数调整。这个分数只是用来进行优先级的比较,不需要尽善尽美。如果团队成员浪费太多时间争论一项试验的影响力得分,那么增长会议很快就会陷入僵局。团队应把这一分数作为一个重要参考,而不是当作优先级排定的唯一依据。如果团队对于某个分数存疑,增长负责人应依据自己的最佳判断果断做出决定,以引导团队推进工作。

        这一评分体系并非万无一失,测试结果也经常与预期不符。有些评分最低的试验结果反而产生了最好的效果。在GrowthHackers,我们曾做过一个简单试验,调整了网页上每周“最佳帖子”简报邮箱登记表的位置。这个登记表原本是在网站主页的底部,因为我们原以为需要给用户时间先浏览我们在首页上主推的最受欢迎的帖子,然后再决定是否登记邮箱地址以接收我们的每周简报。后来摩根提出了一个建议,即把登记邀请改到页面顶端,把它放在一个更显眼的位置。事实上,他本来并不认为这个调整能带来多大的变化,所以只打了4分。但是我们还是决定测试一下这个想法,这是因为基于工程师团队的反馈,这个试验比较容易开展,我们在简易性一栏给它打了9分。同时摩根有比较大的把握这个调整将能够使用户更容易看到登记邀请从而会在一定程度上增加登记量,于是在信心一栏打了8分。结果非常令人惊讶——登记量增加了7倍,远远超出了我们原本的预期。

       讲述这个例子并不是要说明摩根能提出这个点子有多厉害,其实他也提过不少以失败而告终的点子。提出这个案例是为了说明我们对于自己想法的预期并不总是很准确,同时也说明不要轻易抛弃分数较低的想法。

       虽然我们倾向于使用ICE评分,但是其他增长黑客也提出了其他评分体系。比如被誉为“转化率优化之父”的布莱恩·埃森伯格就提出了“TIR体系”,即time(时间)、impact(影响力)和resources(资源)。另外一个体系是“PIE”,即potential(潜力)、importance(重要性)和ease(简易性)。虽然不同的体系细节上可能存在差异,但是它们的总目标是一致的,即以量化的方式评估试验想法,帮助团队筛选不同试验选择、决定下一个试验内容。

       经过评分缩小了选择范围之后,你手里的试验可能仍然超出了接下来一周所能完成的量。有些想法需要更长时间去准备,比如那些需要大量软件开发或设计工作的试验。对于这样的试验应当在咨询试验筹备直接参与人员之后设定一个具体的测试日期。如果筹备工作涉及软件开发,工程师和产品经理就应当为增长团队估算一个时间框架,而如果要测试一个新的获客渠道,市场团队就要负责为增长团队提供一个时间表做参考。

        在当周无法启动的试验想法都应储存在储备库中。你可以从中选择一些用于接下来一周的试验,而保留其他想法日后使用。关键是团队应以时间和资源利用的最优化为目标安排他们的工作,专注于增长负责人选定的关注领域中最紧迫的需求。

        让我们再回到食品商店App的案例中来看一看如何开展筛选过程。App团队的目标是增加每个用户创造的收入。在收集了一些点子之后,他们决定选择“初次下单优惠”和“把免运费政策信息放在更明显的位置”这两个影响力和简易性评分较高的想法进行测试(见表4–1)。

         初次下单优惠试验很可能会交由营销人员负责,而免运费试验则交由产品设计师负责。

         假设团队同时决定购物清单试验也值得一试,但由于这一功能的开发比较复杂,增长负责人可能会让产品经理询问产品团队的时间安排。获得了这一信息之后,增长团队就可以考虑设定试验启动时间了。

         我们建议团队通过协作来进行试验选择。在增长会议召开前一天,增长负责人应通知团队查看想法储备库并从中选择他们认为最有潜力的想法(不一定只是新提交的想法,可能也包括已经在库里的想法)。这些想法将作为候选在增长会议上讨论,届时团队将共同决定在什么时间启动哪些试验。团队成员可以通过邮件对想法进行提名,或者如果系统允许的话,也可以在储备库中设置突出显示。例如,在GrowthHackers的“Projects”系统中,团队成员可以给想法加星标,加星之后想法就会进入单独的列表中,增长负责人可以查看并在会议上与成员展开讨论。为保证被提名想法的数量在可管理范围内,我们通常限制每个成员每周最多提出三个想法。

        这些被提名的想法将会在增长会议上由成员进行讨论,并选出将于下一周启动的试验。我们将在下一部分作详细介绍。

第四阶段:测试

         一旦团队选出下一周的试验项目之后,这些试验就会进入我们所谓的“Up Next”(即将开展)列表,如果你们采用手动追踪,那么这个列表可以是一张新的数据表。而如果你们使用项目管理软件,这些试验则会进入系统中的一个特别工作序列或列表。接下来负责试验的成员就要和增长团队的其他成员(或和其他部门的同事)一起筹备并部署试验了。

         真正意义上的跨职能合作正是在这时展开。再回到食品购物App的例子中,市场团队成员可能会跟图形设计和邮件营销团队合作设计初次下单优惠信息的图片与营销文案。他们也会和数据分析师一起确定对照组(不参与试验的用户群)和试验组,并保证试验结果可正常追踪。

         当一切准备就绪时,增长负责人将向公司所有同事发送试验启动通知,以保证其他负责该产品的团队知晓试验情况。如果在启动某些试验时遭遇障碍,比如工程师忙于其他重要项目,有可能几周内无暇顾及试验所需代码的编写,那么负责试验的团队成员必须立即通知增长负责人,以便负责人筛选“Up Next”列表中的其他想法来替换暂时无法进行的试验。

       每一个试验的运行都意味着另一个试验的落选。因此,对于点子的筛选和测试方式的选择都应当十分慎重。一次糟糕的试验就意味着团队失去了一次宝贵的学习机会,这会放慢团队工作的进度,而错误的数据会误导团队走错方向。因此,必须保证每一次试验都能产生统计上有效的结果。应当制定确保结果可靠的完善的指导规则,同时,团队里的数据分析师应负责将这些规则落实到试验中去。本书不会探讨试验设计的细节,但是我们希望提出以下两个我们认为非常有用的经验法则。

采用99%的置信水平:很多工具都会自动设定或允许用户自定义试验的置信水平。常用的置信水平为95%和99%。虽然这二者之间4个百分点的差别看起来并不大,但是从统计学的角度来看这会产生显著的差异。95%的置信水平意味着一个“成功”的试验仍然有5%的概率出错。这意味着,每20次看似成功的试验中就可能有一次其实是失败的。而99%的置信水平则意味着100次测试里只有一次是“假阳性”。因此,当你不确定时,就选择99%的置信水平,从而大大降低因为“假阳性”结果而选错试验的风险。

 

永远以对照组为依据:当试验明显失败时,团队通常能够在查看数据之后迅速认识到这一点。但当试验结果并不确定时,达成共识就不那么容易了,特别是当需要耗费大量时间和精力确定结果时。没有人希望看到自己辛苦付出的结果却是竹篮打水一场空,所以团队成员可能会让试验运行超出合理时间,寄希望于试验样本的扩大能够改变走势。这样做虽然可以理解,但是当结果不确定时,最好的办法就是坚持试验的最初版本或者对照版本。因为虽然结果不确定,但是增加新的变量可能会导致试验最终的失败,成为一个巨大的潜在风险。可以这么想,把试验当作试验组和对照组之间的比赛,双方打成平手时,胜利就应当属于对照组。

分享到:

编辑发布时间:2020-08-07 09:23:57