| Yang |


  • Home

  • Tags

  • Archives

ch2-感知机

Posted on 2020-12-06

感知机

定义如下:

线性可分性

给定一个数据集 $T$ ,存在一个超平面 $S$ ,满足能够将数据集的正实例点和负实例点完全正确地划分到超平面两侧,则称此数据集是线性可分的。

感知机的损失函数

由超平面 $S$ 的方程 $wx+b$ 可以得到对于任意一个点,到超平面的距离是

其中 $\frac{1}{||w||}$ 是 L2 范数。

那么对于某一误分类点,则有:

考虑所有误分类点,则有:

我们忽略 $\frac{1}{||w||}$ ,则得到了感知机算法的损失函数:

使用随机梯度下降算法对损失函数进行最优化。

训练过程

输出:参数 $w,b$

  1. 选取初始值 $w{0}$ , $b{0}$ (一般默认为 0 )

  2. 在训练集中选取数据 $(x{i},y{i})$

  3. 如果 $y{i}(w \cdot x{i} + b) <= 0$ 则:

  4. 重复步骤 2 和 3 ,直到完全分类未知。

算法的收敛性

对于线性可分的数据集,感知机算法是收敛的。

其中 $R=max|x_{i}|$ , $\gamma > 0$ 。

感知机的对偶形式

我们知道利用随机梯度函数优化的时候,有:

这里我们可以知道每次修改的量都是一定的,这里我们定义 $\alpha{i} = n{i} \cdot \gamma$ , 其中 $n_{i}$ 表示该点被选择了第 $i$ 次,那么

这样,则模型变为:

其中我们只需要对 $\alpha_{i}$ 进行迭代就好了,训练步骤基本同上。

那我们为什么要对偶形式呢?疑问我们可以看到 $f(x)$ 中样本点的特征向量以内积的形式存在,如果我们可以提前计算好,那么就可以大大滴加快训练速度。

Gram 矩阵

总结

感知机学习算法是基于随机梯度下降法的对损失函数的最优化算法,有对偶形式,算法简单。若数据集线性可分,则感知机是收敛的

遇到的问题

  1. 初始点的选择对随机梯度下降算法的影响。

    如果算法是收敛的,那么可能存在多个解。

作业题

Q:感知机为什么线性不可分?

A: 因为 XOR 的训练集线性不可分。坐标轴上点 (0,0) = (1,1) = 1 , (0,1) = (1,0 ) = 0 ,此时异或无法线性可分。

参考资料

很好地一篇学习笔记: 感知机学习笔记

ch1-统计学习方法概论

Posted on 2020-12-06

遇到的疑惑

  1. 风险函数

    • 经验风险最小化:

      • 需要手动推导:模型是条件概率分布,损失函数是对数损失函数,则其经验风险最小化等价于极大似然函数。这里可以用逻辑回归举例
      • 极大似然估计的一个思想:既然发生了,那么该事件出现的概率其实就是很大的,用已经发生的事件去估计
    • 未知的参数相对更为准确(频率派)

​

​

  • 结构风险最小化:

    • 模型是条件概率分布,损失函数事对数损失函数,模型复杂度由模型的先验概率表示时。结构风险等价于最大后验概率估计
    • 这一点没有太理解。。

      • 相关链接:
    1. 极大似然和最大后延
    2. MLE与MAP (ps:这篇写得更好)

先验分布是均匀分布的时候,MLE 等价于 MAP。

课后习题

如上公式(1) ,已经证明。

2020观影记录

Posted on 2020-12-06

Top 5

个人心中觉得今年我看过最好的五部电影:

  1. 《花火》
  2. 《肖申克的救赎》
  3. 《横空出世》
  4. 《降临》
  5. 《运转手之恋》

观影明细

《多哥》:想养狗。。。
《横空出世》
《心迷宫》
《花火》
《一个叫欧维的男人决定去死》
《坏孩子的天空》
《那年夏天,宁静的海》
《肖申克的救赎》
《遗愿清单》
《三块广告牌》
《贫民窟的百万富翁》
《烈火英雄》
《老师好》
《龙珠-布罗利》
《龙珠-复活的弗利萨》
《唐人街探案2》
《降临》
《航拍中国三》
《八佰》
《爆裂鼓手》
《的士速递》
《的士速递2》
《无姓之人》
《缝纫机乐队》
《赤焰战场》
《我和我的家乡》
《的士速递3》
《运转手之恋》
《扫毒2》
《门徒》
《扫毒》

2020读书记录

Posted on 2020-12-06

今年还是读的社科人文书比较多,应该是有利有弊的。不过去年 Flag 倒了,惭愧…

  • [x] 《变革与新生》,多知网出品。大概了解了下行业概况,两个小时速读…
  • [x] 《毛选第二卷》:专注统一,判断大势,满怀理想与爱国。
  • [x] 《三体》:重读了后半部分,是真滴上头
  • [ ] 《统计学习方法》:精读
  • [x] 《失控》
  • [x] 《自卑与超越》
  • [x] 《思考:快与慢》
  • [x] 《决战大数据》
  • [x] 《平凡的世界》三部曲
  • [x] 《酒鬼与圣徒》
  • [x] 《你一生的故事》
  • [x] 《别说你会喝啤酒》
  • [x] 《刀锋》
  • [x] 《夜航西飞》
  • [x] 《用户体验要素》
  • [x] 《基于 Apache Flink 的流处理》
  • [x] 《金融的解释》:科普够了,不过感觉作者思想站位有问题
  • [x] 《一只特立独行的猪》
  • [x] 《撒哈拉的故事》
  • [ ] 《人生》
  • [ ] 《毛选第一卷》
  • [x] 《球状闪电》
  • [x] 《禅与摩托车维修艺术》:重读
  • [x] 《社会心理学》:内容很好,不过太多了,不愧是教科书,后续有需要再针对看
  • [x] 《资治通鉴》节选版
  • [x] 《中国国家地理》系列
  • [x] 《贾樟柯电影手记》
  • [x] 《俞军 产品方法论》
  • [x] 《献给阿尔吉侬的花束》
  • [x] 《价值》
  • [x] 《转型中的地方政府》ing
  • [x] 《论自由》
  • [x] 《刘慈欣经典作品集》
  • [x] 《穿透》
  • [x] 《生如夏花》
  • [x] 《期货大作手风云录—初入期海》
  • [ ] 《走出唯一真理观》
  • [x] 《学会提问》
  • [ ] 《拍电影时我在想的事》
  • [ ] 《为什么》
  • [x] 《简单统计学》

《思考:快与慢》

概念运动效应:也可以称之为启发性,系统1会由先前的信息不由自主地影响后续的行为。

可得性:从记忆中获取相关实例的困难程度。我们的观点会因为我们的观察,媒体的报道而产生偏差,忽视了统计数据。举个例子,中风和意外事故谁的死亡概率更大呢?很多人会选择意外事故尔忽视中风,因为媒体报道的多。

注意基础比率的影响,做一个贝叶斯主义者。我们的思维会经常对因果关系的解释带有很强的偏见,而且不善于处理统计数据。

《决战大数据》

绝对的好书,指向了工作中的很多问题。

  1. “混养晒”:和业务方多混在一起,有意识地提前去收集需要的数据,最后利用‘对比细分溯源’等数据分析框架表达出来
  2. “存管用”:数据是企业宝贵的资产,存下有意义的,分类进行管理,在决策与优化中去使用数据
  3. 大数据哪里大:1. 数据量大 2. 数据来源广 3. 数据信息多(可以由无数的小数据连接而成)
  4. 大数据的核心在于在于连接
  5. 面对一个问题,先想清楚“是谁要看,问题的背景是什么,我们的现状是什么“,然后再去分析问题,解决问题,并且要追踪最后的结果,形成反馈。
  6. 在交易中尽量避免先交底,可以选择后出招(举个例子,去商店老板先问你愿意付多少钱,这个时候应该先问老板卖多少钱)
  7. 事物是一直在变化的,只有这个特性是不变的
  8. “小偷思维”:一个小偷在国庆观察到一个一间屋子连续五天都没有亮灯,大概率可以判断屋主出去玩了。生活中我们也应当多多观察。
  9. 一个人一天的思考量是大概不变的,所以没事儿少乱想。
  10. 有时候从一张白纸重新开始,比解决老问题来得有效多了
  11. 大数据的本质在于还原人的真实场景
  12. 但行好事,莫问前程,百去其一。

《平凡的世界》

我只是个普普通通的人,和街上的路人并没有任何差异,但是我相信我们可以依靠内心的力量,做一个坚强的理想主义者,平凡而不平庸地活着。

勇于去追求自己喜欢的,时光经不起蹉跎。

《酒鬼与圣徒》

微醺之间,感性地思考。

《你一生的故事》

从目的论角度来看,只有最大或者最小。事物在出发之初就已经定好了终点,宿命论。
如果注定会失去,你会害怕拥有么?

《刀锋》

人生如果不想随波逐流,那么就等于是场豪赌,失败的人不胜枚举,成功的人寥寥无几。我想啊,先当分母,能不能成为那少数几个分子后面再说。

活着到底是为了什么,人生究竟有没有意义,还是只能可悲地任凭命运的摆布?

《夜航西飞》

我学会了如果你必须离开一个地方,一个你曾经住过,爱过,深埋着你所有过往的地方,无论以何种方式离开,都不要慢慢地离开,要尽你所能决绝地离开,永远也不要回头,也永远不要相信过去的时光才是最好的,因为它们已经消亡。

《球状闪电》

人活着是要有目标的

《社会心理学》

说服

  • 不断地重复简单的东西,达成说服的效果最好

群体影响

在群体中,个人是去中心化的。会惊叹于群体整体的力量,产生兴奋感,丧失自我感,以至于做出很多不敢做不愿意做的事情。大家相信法不责众。参考电影《浪潮》

从某种角度上面来讲,如果大家都是匿名的,人们是更愿意做坏事的。

群体极化:群体集中在一起的时候,会使群体成员的初始意愿得到加强。

朋而不党,保持独立思考的人格

《禅与摩托车维修艺术》

“佛陀或是耶稣坐在电脑或者变速器的齿轮旁修行,会像坐在山顶或者莲花上一样自在…这就是这次肖陶拓想要讨论的主题。” — 主要讨论哲学与技术的结合

“真正的大学是心灵的世界,是多少世纪以来流传给我们的理性思想,它不存在与任何建筑物之内。”

《贾樟柯电影手记》

我的焦点:

  • 传媒正在改变我们的交流的方式,这也是人们变得越来越冷漠的原因。
  • 我喜欢这个真实的世界,街边的公交车站,路边的早点摊,下班的行人,都是有活力的。be real.

《俞军 产品方法论》

十二条

《价值》

基于基本面,通过数据与逻辑,深入研究,独立思考,相信自己所做的决策。

重仓中国。

  • 守正居奇
  • 桃李不言,下自成蹊
  • 弱水三千 只取一瓢

《论自由》

自由主义的核心思想:个人只要在不伤害他人的范围内,就应该拥有完全的思想自由、言论自由和个性自由(行动自由)。

即使整个人类,除一人之外,都持有一种意见,而只有那一人持有反对意见,人类也没有更好的理由不让那个人说话,正如一旦那个人一旦大权在握,也没有更好的理由不让人类说话一样。

人类最为丰富的多样性发展,有着绝对且根本的重要性。

两大准则:

  • 只要个人行为仅关一已利益而与他们无关,个人就无需对社会负责
  • 对于任何有损他人利益的行为,个人都应当对社会负责,并且承担后果。

《生如夏花》

生如夏花之绚烂,死如秋叶之静美

《穿透》

一部从社会学的角度来看目前社会问题的书,作者尽量讲得浅显易懂,但是没有对问题给出确切的解答。

《期货大作手风云录-初入期海》

以小说的形式,讲述了期货是什么,还有很多观点。

2019年终回顾

Posted on 2019-12-31

被社会毒打的一年。

写在最前

又是年终,还是应当记录一下。其实日子并不会因为2020来了就变好或者变坏,不过生活是需要一些仪式感的。

依然有很多事情想做,也有很多记忆值得回味,还有很多人不曾走远,是很幸福。

关于生活

生活上细节已经记不太清楚了,不过吃好喝好,没有亏待自己。北漂这件事儿吧,说苦也苦,说不苦也不苦。因为房东太坑(可以单写一篇文章那种)今年六月搬家到了季景这边,整体生活质量有了很大的提升。认识了李哥一家人,还有莱利与小心,过上了有猫有狗的生活,滋滋有味。

上半年去云南爬了哈巴雪山,算是正式入坑高山攀登。经常会下了班再去跑步,不过爬了山回来之后一懈怠就是半年,惭愧。九月跟着公司团建去了日本,和中学的小伙伴玩得很开心,以后我还会再去的。今年回了好几趟重庆,离家越久越想家呀!

依旧很喜欢听歌和看电影,今年强推北野武的《浅草キッド》,电影则是《大佛普拉斯》看过之后久久回味。附上今年的观影记录:2019观影记录

关于爱情

年中昆昆搬来和我一起住了,感情稳中有甜,很开心~

关于工作

工作上面开始独挡一面了,也开始带新人了。

具体信息不表,值得开心的是收获了同事的信任和领导的肯定,不过还有进步空间。

关于学习

同去年一样,基本还是以回到家自学和工作上踩坑学习为主,这里先附上读书记录:2019读书记录

这里主要说我觉得的 Top 5:

  • 《统计学习方法》
  • 《计算广告》
  • 《网站分析实战》
  • 《被讨厌的勇气》
  • 《了不起的盖茨比》

明年要多看看技术书,现在明显感觉自己技术还不过关。

小眺2020

去年的 flag 实现了几个,今年也得立一立~

  • 爬雀儿山 & 自由背包行
  • 看至少 24 本书,12 本以上技术书,坚持维护博客
  • 参与开源项目
  • 多赚钱

awk简单使用

Posted on 2019-12-12

awk 这个命令用得比较少,但是某些情况下回很有用。

让我们先创建一个测试文件 awk_test.txt

1
2
3
4
yang,chongqing,2019,01,01,100
kunk,wuzhou,2020,02,02,100
larry,beijing,2015,03,03,200
zinba,beijing,2018,04,04,300

基本参数

基本上只使用了-F这个参数,用于指定分隔符。

1
2
$awk -F "," '{print $1,$2,$3,$4,$5}' awk_test.txt
# 结果 pass

基本用法

打印部分或者全部信息

1
2
3
4
5
$awk -F "," '{print $1,$2,$3,$4,$5}' awk_test.txt
yang chongqing 2019 01 01
kunk wuzhou 2020 02 02
larry beijing 2015 03 03
zinba beijing 2018 04 04

还有几个 tips:

  • $0表示引用一行的全部内容
  • -F 可以使用 -F "[,.]" 来指定多个分隔符

过滤

找到第一列是 kunk 的记录

1
2
$awk -F, '$1 == "kunk"' awk_test.txt
kunk,wuzhou,2020,02,02,100

找到第二列是 beijing 而且 第三列大于 2017 的记录,并输出前两行

1
2
$awk -F, '$2 == "beijing"  && $3 > 2017 {print $1,$2}' awk_test.txt
zinba beijing

利用正则表达式找出第一列带有 a 这个字母的记录,并输出前两行(使用~实现)

1
2
3
4
$awk -F, '$1~/a/ {print $1,$2}' awk_test.txt
yang chongqing
larry beijing
zinba beijing

内建变量

1
2
3
4
5
6
7
8
9
10
11
12
13
14
$awk -F"," 'BEGIN{printf "%4s %4s %4s %4s %4s %4s %4s %4s %4s\n","FILENAME","ARGC","FNR","FS","NF","NR","OFS","ORS","RS";printf "---------------------------------------------\n"} {printf "%4s %4s %4s %4s %4s %4s %4s %4s %4s\n",FILENAME,ARGC,FNR,FS,NF,NR,OFS,ORS,RS}'  awk_test.txt

FILENAME ARGC FNR FS NF NR OFS ORS RS
---------------------------------------------
awk_test.txt 2 1 , 6 1


awk_test.txt 2 2 , 6 2


awk_test.txt 2 3 , 6 3


awk_test.txt 2 4 , 6 4

为方便处理而出现,可以视为是 awk 定义的一些变量,看需求来使用。

awk 脚本

标准格式如下:

  • BEGIN :处理文件前执行前的语句
  • PROCESS:对每一行数据要做的处理
  • END:文件处理完之后执行的语句

举个简单的例子:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
#!/bin/awk -f
#运行前

BEGIN{
FS = ","
printf "NAME CITY YEAR MONTH DAY\n"
printf "---------------------------------------------\n"

}
{
printf "%-6s %-6s %-6d %-6d %-6d\n",$1,$2,$3,$4,$5

}

END{

printf "---------------------------------------------\n"
}

其结果如下:

1
2
3
4
5
6
7
NAME  CITY YEAR MONTH DAY
---------------------------------------------
yang chongqing 2019 1 1
kunk wuzhou 2020 2 2
larry beijing 2015 3 3
zinba beijing 2018 4 4
---------------------------------------------

当然这只是最简单的用法,现在权当了解,后面有需要的时候再深入学习。

参考链接

  • Linux-awk 菜鸟教程

interleaving和多臂老虎机

Posted on 2019-12-11

大佬的文章:

  1. 利用序列样本超越A/B Test: interleaving和多臂老虎机
  2. 多臂老虎机(Multi-armed Bandit)
  3. Bandit 算法和推荐系统
  4. 推荐算法之汤普森采样

中心极限定理

Posted on 2019-12-04

上一篇我们说了 ABtest 的一些数学知识,其中有应用到中心极限定理,这里复习一下。

2019-11-07
写公式写到自闭。。。


独立同分布的中心极限定理

mathjax 用起来真有点坑。。。刚打了半天的字没了。。。就简单说下

一组随机变量满足独立同分布,那么随机变量之和的标准化变量近似服从标准正态分布。

李雅普诺夫定理

pass 一下

棣莫佛-拉普拉斯定理

在实际应用中很广,因为很多设计转化,点击相关的问题,都服从二项分布。定理指出二项分布 $(n,p)$ 在 $n$ 很大的情况下,近似服从 $(np,np(1-p))$ 的正态分布。

ABtest-一些数学知识

Posted on 2019-11-29

在之前简单的 ABtest 过程中,实验效果经常是有小幅变化。这个时候问题来了:实验结果是受我们抽样的数据波动影响还是真实的效果提升?借助于数理统计的知识,我们可以知道一个相对正确的答案。


一些基础知识

主要是《概率论与数理统计》中“假设检验”这一章的知识,包括但不限于

  • 总体与样本
  • 正态分布
  • $t$ 分布
  • 假设检验
  • $P$ 值法
  • …

这里重点说一下我觉着比较重要的几个点。

$t$ 分布

很多时候,我们不知道总体的均值,只知道样本的均值,这个时候我们只能用样本均值近似代替总体均值进行计算( $z$ 分布)。但是当样本量不够的时候,$t$分布就有了用武之地。

设 $X \sim N(0,1),Y \sim {\chi}^2(n)$,且$X,Y$相互独立,则称

满足自由度为 $n$ 的 $t$ 分布,记为 $t \sim t(n)$

假设检验

假设检验是利用样本数据来推断总体数据的某些性质。我们先对总体数据提出某种假设,然后利用样本数据来判断假设是否成立。

假设检验的方式:

  • 提出原假设和备择假设,不需要证明的或者是我们着重考虑的放原假设,需要证明的放备择假设
  • 确定检验方法和检验统计量,并计算其分布
  • 确定显著性水平 $\alpha$
  • 确定拒绝域。如果统计量落在拒绝域,则拒绝原假设,反之则接受原假设

拒绝域即拒绝原假设的区域,其概率即为显著性水平。常用显著性水平如5%、1%等,即在原假设成立的条件下,样本值落在拒绝域的概率很低,是一个小概率事件,按照实际推断原理,小概率事件在一次抽样中一般是不会发生的,因为我们有理由认为样本值落在拒绝域的时候,原假设是不成立的。
不过实际推断原理只是说在一次抽样中,小概率事件可以认为是不会发生的,而不能肯定绝对不发生。因此,有一定概率在原假设成立的情况下,统计量落入拒绝域,导致我们拒绝原假设。这种情况实际上是一种错误,在假设检验中,称这种错误为第一类错误,也就是“弃真”错误,发生的概率记作 α,即显著性水平。另一种错误是原假设不成立,但是接受了原假设,称为第二类错误,即“受伪”错误,它发生的概率记作 β。
由于抽样的随机性,我们不可能完全排除这两类错误的发生,因此只能把这两类错误控制在一定的范围之内。当样本容量 n 确定之后,犯两类错误的概率不可能同时降低,通常我们会用一个较小的显著性水平 α 来控制第一类错误的发生,因为原假设一般是结合问题特点提出的,需要着重考虑的假设,不应该轻易拒绝,所以第一类错误的概率要控制得较小。这种只控制犯第一类错误的概率,而不考虑犯第二类错误的概率的检验,称为显著性检验

上面这段我觉得说得很好,告诉我们该如何去设计的我们的假设。为什么我们要设计一个很小的显著性水平?(因为我们原假设是经验告诉我们的正确的,不会轻易被拒绝的,我们优先保证不会范“弃真”这个错误)

另外还有单/双边检验的问题,这个是计算的问题,主要是备择假设是否具有方向性,这里可以先不说,画个图就很好理解了。

$P$ Value

教材上定义:假设检验的 $P$ 值是由检验统计量的样本观察值得出的原假设可被拒绝的最小显著性水平。

  • 如果 $P <= \alpha$ , 则在当前显著性水平下拒绝原假设
  • 如果 $P > \alpha$ , 则在当前显著性水平下接受原假设

也可以这么想:如下图笔记中定义 $P$ 值的计算方式

如果我们计算出来的值小于显著性水平,那么我们的条件就是成立的,即应该拒绝原假设。

附上《假设检验》学习笔记。
假设检验

举个例子

假设我们有 AB 两个方案,样本容量为 $N$ (两方案不一定相等),转化率为 $P$ ,现在转化率差异不大,我们想知道这两个方案的转化率是否有显著差异。

那么我们可以很明显的知道数据满足伯努利分布:

提出假设

确定检验方法

样本量 $N$ 足够大,满足中心极限定理,我们可以使用 $Z$ 检验。因为是检验样本间有无差异,我们确定 $Z$ 值计算方法为:

确定显著性水平

pass

计算检验量

伯努利分布的数学期望为$E(x) = N \cdot P$ , 方差则是 $D(x) = NP \cdot (1-P)$ 。
样本均值计算公式为:

样本方差计算公式为:

检验结果

可以参考 $P$ 值的方式,不过 $Z$ 是绝对值,附表如下:

$Z$ $P$ 显著程度
$> 2.58$ $< 0.01$ 非常显著
$> 1.96$ $< 0.05$ 显著
$< 1.96$ $> 0.05$ 不显著

最后根据计算的结果得出结论即可,至此,关于 ABtest 的结果检验完成。当然了,还有其他的检验问题,比如确定一个样本和总体的差异是否显著。慢慢来。

相关链接

文章内容基本来自大佬的这篇文章abtest数据分析,确实写得太好了。本文是看了大佬的文章结合自己的知识整理而成,这里给大佬送上冰可乐。

当然还有下面这几篇文章:

  • 你的AB测试结果有多靠谱
  • 你的A/B测试结果真的靠谱吗?
  • Z检验

ABtest-再深入一点点

Posted on 2019-11-28

基本的 ABtest


最基本的 ABtest 还得从达尔文他老人家观察动物进化说起:同一个岛上的同一种鸟,分别生活在岛的东西两侧,然后分别进化出了不同的鸟喙。

这也总结出了 ABtest 的核心思想:

  • 两个及以上的实验方案
  • 只有单变量影响该实验的实验结果

我们尽可能地满足多个实验方案的样本是独立同分布的,这点在数据量大的情况下,还是比较好实现的。ABtest 可以帮助我们通过数据的方式,科学且客观地区判断不同方案间的好坏与否,做出比较正确的判断。但是简单的 ABtest 方法也有不足,其中最大的缺点就是流量利用率太低,这点是无法忍受的。

可重叠的分桶分层方法

分桶的本质就是根据一定的算法进行分组。现在有一批用户,我们希望其可以随机地分到 n 个桶中,我们可以根据我们自己生成的唯一标识值,根据哈希算法计算出一个 hash 值,再将此 hash 值模 n 进而分配到不同的桶中,其中随机性的保障来源于唯一标识值,我们需要保证这个值是随机的。

分层则是我们认为互相不影响的实验,理论上是可以同时进行的。比如我们的文章有 ABCD 四个变量,其点击率是我们观察的实验结果;同时我们可以进行下单页是微信支付在前还是支付宝支付在前的实验,观察其订单支付率。两者的变量和观察的结果都是不相关的,所以启发我们可以将实验分为多个互相之间独立的层,实验之间互相影响的在同一层。比如说课程展示层、订单层、UI层这样的,要求满足正交、互斥的要求。

  • 正交:层与层之间流量是正交的,一份流量穿越每层实验时,都会再次随机打散,且随机效果离散。
  • 互斥:实验在同一层拆分流量,且不论如何拆分,不同组的流量是不重叠的。

好了那我们现在就有了可重叠分桶分层方法的雏形:先抽象出可重叠的多层,然后对每一层的流量按照不同的分桶算法进行随机分桶。

为什么要每一层都按照不同的算法随机分桶呢?是因为我们需要保证流量在不同层之间的正交的,简单来理解就是说一个用户在不同的层应该被分到哪一个桶里面,是独立不相关的,比如层 A 中桶 1 的用户在层 B 中应该随机分布在所有桶中。

具体操作

还没操作呢。。。不过感觉怎么分配不难,难点在于后续的数据效果追踪。。。

相关链接

  • ABtest 平台设计-如何进行流量分桶
  • 阿里妈妈在线大规模分层实践
  • 一文搞懂 ABtest 分层分流
  • Overlapping Experiment Infrastructure: More, Better, Faster Experimentation
  • 百分比分流算法设计
123…12
zhangyang

zhangyang

120 posts
39 tags
© 2022 zhangyang
Powered by Hexo
|
Theme — NexT.Mist v5.1.4