AdvertCN - 广告中国

 找回密码
 立即注册

QQ登录

只需一步,快速开始

 谷歌+Bing+TT+MSN官方代理 
⚡️按条S5代理⚡️静态⚡️独享⚡️5G⚡️最干净<Wifi住宅+5G移动>IP代理泰国仓储,本土仓发货2-3元/单
指纹浏览器,就用AdsPower谷歌/FB/Bing/Yahoo代理商开户7200W全球动态不重复住宅IP代理全球优质流量,选TrafficStars
出售Facebook,友缘号,FB广告号,insFB/TT/KW 加白开户ADPLEXITY + ADVERTCN比Adplexity还好用的Spy工具
广
FB/Google/TK海外多媒体极速下户
BINOM TRACKER 60% OFF!MediaGo+Taboola+Ob开户百度国际MediaGo⚡️让产品狂奔全球百度国际,高点击转化,快速放量
百度国际MediaGo,独家原生流量虚拟信用卡+独立站收款行业首创新型指纹Cloak, 谷歌奇效!Kookeey⚡️100%独享⚡️原生住宅IP
⚡IPFoxy住宅代理全场88折⚡全球虚拟卡, 支持U充值免账户投放 FB 广告(送项目)2024做什么 - Media buy 项目库
免费黑五教程(持续更新、欢迎交流)Facebook 批量上广告Bridgeway - 联盟营销网络IPCola 全新住宅代理 ⚡️ 免费试用
各种主页、账单户、BM户(优势)⚡️个人户,bm户不限额,账单户Adsterra 的CPA/CPM/CPC 网站流量在线注册美国/英国/香港等海外公司
EU KETO/CBD - JumbleberryFB二三解1元/个9Proxy ⚡️ $0.04/IP, 无限带宽 cloak斗篷/ss/nutra/cpa/Dating
E.PN 虚拟卡Asocks代理服务器$3/GB高薪诚求实力FB投手(独立站)《全新虚拟卡+全球收付款》
广告位出租全球低价纯净住宅/移动IP-免费试用广告代投, 东南亚物流, 虚拟信用卡VMLogin指纹浏览器+多账号防关联
查看: 4597|回复: 4

走近算法:受众行为分析与人群定向

[复制链接]

64

主题

1139

广告币

1563

积分

高级会员

Rank: 4

积分
1563

社区QQ达人

QQ
发表于 2013-8-22 17:30:15 | 显示全部楼层 |阅读模式
adsterra
“物以类聚,人以群分”这句古语不仅揭示了物与人的自组织趋向,更隐含了“聚类”和“人群”之间的内在联系。 例如在现代数字广告投放系统中,最为关键的“人群定向”功能正是通过“聚类”算法得以实现的。如果您厌倦了隔靴搔痒的空大宣传,不妨就随笔者一起钻进系统内核,抽丝剥茧般探究技术的黑盒,还原受众行为分析的真相。
广告传递信息的受众是每个在浏览器前的自然人,然而互联网上的分析手段无法触达自然人,只能以他们上网的痕迹和记录作为在数字世界中的代表,这就是cookie。于是,以物拟人,以物窥人,才是比任何大数据都要更大的前提。明白了这一点,也就触摸到了人群定向的天花板–不可能百分之百精准。
如何从广泛的受众中提炼目标人群呢? 正是依靠受众行为分析。它以cookie为单元,根据cookie的海量历史行为,推断其行为特征,兴趣爱好,并以此为依据,将最合适的、最有可能产生转化的广告展示给用户。受众行为分析一方面能够提高用户对于广告的反馈程度,增加转化率;另一方面能够降低广告主进行广告投放的成本,以更低廉的价格产生最佳的投放效果。
下面我们以易传媒的广告投放算法为例,浅析一下怎样由预先标注的关键词标签,一步步建立完整的受众行为分析模型,挖掘出具有相似行为特征的人群,提炼人群的属性特征,最终进行最合适的广告投放的。

关键词标签
关键词标签从何而来? 从网页中来。一个Cookie会被贴上什么样的标签,是由这个Cookie浏览过的网页等历史行为所决定的。这个预处理过程,大致可分为以下三步:
(1)记录受众的历史行为,包括产生浏览、点击、搜索、注册、购买等行为的网页地址(URL),积累原始数据;
(2)以商品内容和新闻内容为导向,建立关键词标签库,作为受众行为分析的基础元数据;
(3)针对所有受众相关的URL,通过网络爬虫程序和语义分析(分类和关键词提取),生成每个cookie的初始标签集合。
定义1:关键词标签模型
如图1所示,在每个关键词标签模型中,考察多种典型用户行为,如:浏览,点击,搜索,注册和购买等其它行为。在图中,每个标签就像是一根竹签,上面串着五粒或更多的糖葫芦。举例来说,关键词标签 Valentino (id为1) 的模型 σ={1,100,5,0,0,1} 表示在用户浏览的网页中共含有关键词Valentino 100个,在他/她点击过的页面中含有关键词Valentino 5个,而在他/她进行购买下单的页面中含有1个关键词Valentino。这个标签表征该用户对奢侈品品牌Valentino有相当的兴趣和关注度。
从上述关键词标签模型可以看出,通过提取用户感兴趣的特征标签集合,并以此为依据进行广告精准投放,主要的优点在于:
(1)能够细颗粒度地刻画出受众对某件事务或者领域的兴趣程度,从而使得投放更加精准。
(2)可以实现“协同过滤”的功能,即利用受众类别之间相似性,预判出受众潜在的购买意向。

受众对象模型
关键词标签模型记录了最原始关键词信息,将爬虫所得的非结构化文本抽象成为结构化的标签信息。接下来对标签的五个行为计数器进行加权归一化处理,遍历受众的全部关键词标签,量化每个关键词标签对于受众的重要程度,就形成了受众对象模型。
定义2:受众对象模型
如图1所示,受众对象模型刻画的是受众Cookie的历史行为特征,而其维度就是不同的关键词标签,通常可达几十个乃至上千个维度。这就好比一杆草桩上密密麻麻地插满了不同口味的糖葫芦。映射函数θ()使得标签的行为被加权归一化,θ()可以根据不用的业务需求进行设计。一般而言,购买行为是最强的信号,权重最高;点击则属于次强级别,表明用户的主观兴趣,有明确的目的去了解相关信息;而浏览在很多情况下是被动行为,故权重值最低。
在第一节的例子中, 假设白领女性Amanda的cookie ID为1, 拥有关键词标签Valentino: σ1={1,100,5,0,0,1}, 被加权归一化后系数θ(σ1)=0.75;同时, Amanda还拥有另一关键词标签宝马微型车品牌Mini Cooper: σ2={2,90,15,0,0,1}, 则被加权归一化后可能有θ(σ2)=0.8(点击行为的权重比浏览高);此外受众A还拥有其它一些标签,但权重系数比较低。那么该受众Amanda的模型就可表示为ρ1={1,0.75,0.8,0.1,…}。至此,自然人的兴趣属性和特征,通过其浏览器Cookie为代表,经过上述建模手段被抽象和重构出来了。
受众对象模型是受众聚类的原子单元,可以形象地理解为多维聚类空间中的一个”点”。通过受众聚类算法,将含有相似关键词标签集合的用户聚合在一起,就组成了受众聚类模型。
本文介绍的整个受众行为分析的模型流程图如图2所示:

聚类模型和算法
累积受众对象模型后,我们已经坐拥成亿量级的受众’矿山’,其中每块矿石具有几十乃至上千的标签维度。 如何才能有效地开采矿山,提炼金子呢?这得有请在计算机届鼎鼎有名的数据挖掘工:聚类(Clustering)。聚类是一个将数据集划分为若干类的过程。聚类的宗旨和评判标准是使得同类对象相似度尽可能大,而各个类之间的相似度尽可能小。相似或不相似的描述是基于数据描述属性的取值来确定的,通常是用各对象在多维空间中的距离来表示。
定义3:受众聚类模型

常用的聚类分析算法大致包括划分方法,分层方法,基于密度的方法和基于网格的方法等几类。易传媒的投放系统所搭建的受众行为分析模型借鉴了CURE (Clustering Using REpresentatives) 层次聚类算法,并在其基础上参考了其他聚类算法(例如:BIRCH等),融合改进,试图使整个聚类算法更加符合实际的广告业务需求。CURE算法将分层方法与划分方法结合到了一起。它克服了偏向发现相似大小和圆形形状聚类的问题;同时在处理高维数据和异常数据时也表现得更加高效稳定。相比其他算法,CURE算法主要有以下几个优点:
(1)通过使用“代表点”表示一个聚类,从而使得聚类算法能够适应各种不规则形状的类,而不仅仅是球形的。
(2)通过因子α将代表点向聚类中心进行收缩,从而使聚类算法抵抗离群点的能力更强。
(3)通过随机抽样和划分技术,使得CURE算法能够处理超大规模的数据,以加快聚类算法的执行效率。
为了验证该模型的可靠性,易传媒技术团队根据统计学中一些经典的方法设计了验证系统,结果证明误差被控制在一个比较理想的范围内。

定义4:聚类效果指标
该指标R^2的取值范围在0与1之间,它总是随着分类的个数减少而变小,而类的个数进一步减少不应以R^2大为减小作为代价。测试结果R^2的值在0.80左右,这表明易传媒这套算法的聚类效果比较好。
继续前面的例子,已有受众A: ρ1={1,0.75,0.8,0.1,…},若还有受众B: ρ2={2,0.78,0.81,0.2,…},受众C: ρ3={3,0.77,0.82,0.1,…}等等。他们有极其相似的标签属性,并且规模足够大,那么运行聚类算法后,很可能会产生一个独立的受众聚类φ。这个受众聚类包括了相当数量的类似受众,其聚类属性就是标签集合“Valentino&Mini Cooper”。这个人群就是经过多道工序处理之后,数据挖掘工最终给我们淘出的亮灿灿的金子。

人群定向投放
作为人群定向广告正式投放前的最后一步,受众聚类和结构化的人群分类将进行匹配映射。这种映射是利用二者标签集合的重合度来实现的。 其结果,受众聚类φ可能被同时映射到人群分类“奢侈品-Valentino”,“汽车-宝马”和“汽车-微型车”。根据第一节所述关键词模型的优势,它至少有如下两个用途:
(1)当一个投放策略的人群定向选择了”奢侈品”或者”汽车”时,广告允许被指定投放给受众聚类φ所包含的Cookies.
(2)利用两个标签在一个细分人群中的内在关联性,推测喜欢Valentino的人对Mini Cooper也感兴趣,可尝试进行交叉投放,例如把Mini Cooper的广告投放给曾购买过Valentino商品的回头客,反之亦然。

相关帖子
回复

使用道具 举报

64

主题

1139

广告币

1563

积分

高级会员

Rank: 4

积分
1563

社区QQ达人

QQ
 楼主| 发表于 2013-8-22 17:32:01 | 显示全部楼层
原来在这个区发布帖子是要消费广告币的
回复 支持 反对

使用道具 举报

70

主题

1647

广告币

2803

积分

版主

Rank: 7Rank: 7Rank: 7

积分
2803

社区QQ达人

发表于 2013-8-22 17:35:46 | 显示全部楼层
TMM 发表于 2013-8-22 17:32
原来在这个区发布帖子是要消费广告币的

转的?
回复 支持 反对

使用道具 举报

64

主题

1139

广告币

1563

积分

高级会员

Rank: 4

积分
1563

社区QQ达人

QQ
 楼主| 发表于 2013-8-22 17:53:34 | 显示全部楼层
yincthh 发表于 2013-8-22 17:35
转的?

回复 支持 反对

使用道具 举报

18

主题

112

广告币

351

积分

初级会员

Rank: 2

积分
351

社区QQ达人

发表于 2013-8-23 11:18:36 | 显示全部楼层
看着提供专业的,人群定向投放这个怎么操作?
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关于我们|联系我们|DMCA|广告服务|小黑屋|手机版|Archiver|Github|网站地图|AdvertCN

GMT+8, 2024-4-24 16:53 , Processed in 0.055304 second(s), 15 queries , Gzip On, MemCache On.

Copyright © 2001-2023, AdvertCN

Proudly Operating in Hong Kong.

快速回复 返回顶部 返回列表