“显微镜”式营销洞察背后的黑科技

“广告看似简单,但是,每条广告都要以大量的数据、信息和持续数月的研究为基础。” ——克劳德·霍普金斯

 

一、“显微镜”级别洞察力背后的黑科技

无论何时,市场洞察都是营销人的眼睛,视线看向哪里、看到了什么,都左右着未来商业潮水的走向。

20多年前,“市场洞察”更多还被称为“市场调研”,由于可获取的样本量有限,调研结果在如今看来并不精准,更难以称之为“洞察”。

互联网的兴起才让“洞察”真正成为可能。但受限于技术和产品能力,广告主只能通过粗粒度的行业通用标签来投放。例如,不同广告主只能共用一个“美妆”的行业标签,商业分析依旧无法达到理想中的“精准”。

如今,5G时代下,流量潮水正逐渐褪去,接近饱和的移动互联网广告市场正宣告着存量时代的来临,营销步入精细化阶段。这意味着,洞察需要更加精准才有能力支撑更清晰的商业决策。

以美妆行业为例,广告主不仅需要看见对美妆感兴趣的人群在哪里,更需要知道对自己品牌感兴趣的人群有哪些。

广告的投放也不止于有限且固定的位置,还可以结合上下文场景。如主打美白的产品可以植入到所有与“美白”相关的内容场景中。

洞察不再只是粗犷的行业调研,而是能够看见某一细分品类甚至某个产品的市场利益分析。

事实上,上述这些功能都藏在巨量引擎的商业数据产品巨量云图中。有了这些精细的洞察,曾经相对模糊的营销的中上游如今有了更加清晰的视野,广告主也能有的放矢,把控更多决策细节。

“显微镜”级别的洞察背后,是机器对万亿级数据流的抽丝剥茧,以及人类与机器的高效联动。最初,巨量引擎技术团队围绕“精准洞察”需求,决定在3个层面升级技术能力,开发出更精细、灵活、快速的解决方案

1. 基础层:提升机器的内容理解丰富度,产出更多样化的标签。

2. 应用层:洞察不仅要精准,更要为广告主真正所需。因此搭建一个标准化标签生产平台,灵活满足广告主个性化标签需求,做到“所需即所得”。

3. 效率层:提升数据查询速度,确保广告主即时看到分析结果,以快速跟进决策。

 

二、基础层:让机器理解更丰富的世界

在巨量引擎,内容是最基础的“原料”,无数内容流汇成数据的基本盘,为商业分析提供不竭动力。但事实上,正如原油要经过一系列工业流程才能变成有商业价值的石油,从海量内容中提炼出精准的商业洞察还需要很多操作。其中最关键的一环就是让机器能理解更多信息。机器获取的信息量越大,输出的标签颗粒度就会越细,最终发现更具象的商业洞察。

整体上从两个方面入手。一是在识别粒度上,将机器的文本理解能力提升至词粒度;二是在识别广度上,让机器具备理解视频的能力。二者都是为了让机器从海量内容中获取更多的信息,“看见”一个更丰富的世界。

1. 细粒度的文本理解能力

在文本识别方面,机器的理解能力按照精细程度主要分为三个级别。同样一篇文章,初级水平的机器只能知道这段文本讲的是汽车,因此标签的分类也十分粗糙;中级水平的机器能理解到语句级别,识别出这篇讲汽车的文章中有多少篇幅讲的是发动机;高级水平的机器更聪明一些,能够识别出句子中的关键词。文章中某辆汽车的品牌、型号、外形、性能、配置等各方面表现都能被准确识别出来。

在巨量引擎,机器的文本理解水平已经精确到了词粒度,达到了目前语义理解的最小单位。简单来说,技术同学会制定一套具备商业属性的关键词策略,例如语义上是否相关、词频高低、热度搜索趋势、数据源是否有商业属性等,机器会根据这套策略将识别到的词语按照关键程度进行排序,越符合规定策略的词则排名越高,最终被定义为商业关键词。这些商业关键词如果再经过系统的“美工”,就是我们在分析中经常看见的词云图。

2. 更广泛的内容识别范围

对机器来说,视频通常集图像、音频、文本等各个形态于一身,所以识别难度也比文本更高。在技术领域,通过机器学习的方法实现和理解多种形态信息的能力称为多模态学习,这其中“模态”就是指各种信息的载体,如文本、图像、声音等。因此,视频理解就是一个典型的多模态学习应用场景。通过“多模态学习”,机器能够识别出更多数据形态,对内容的理解也会更充分。

整体而言,让机器理解视频主要分为表征、融合和分类三个步骤。

“表征”的作用类似于翻译,即将文本、图像、声音等不同类型的数据转换成机器能理解的“数据语言”,即同一种结构的数据。在“融合”阶段,机器将采取不同的策略将多种模态的信息进行整合,寻找这些信息之间的关联性,形成统一的认知。最后,机器在充分理解之后再把数据按照一级、二级行业属性等规则进行归类,相似的数据归为一类,最终输出“标签”。

 

多模态技术科普视频:机器是如何理解视频的?

通俗来讲,有了多模态技术的加持,就像人类掌握了多国语言。一方面,在缺失某种模态的情况下也能凭借另一种模态理解内容;另一方面,通过对不同模态的信息进行融合,机器对内容的理解也更加准确。

通过对文本与视频的理解,机器将底层庞大的内容流“划分”成了各式各样的标签,这些标签中有相对粗粒度的类目标签,也有精细到词粒度的关键词,它们组成了庞大的商业标签库,成为满足广告主不同营销需求的底层基础。

 

三、应用层:高效满足个性化洞察需求

虽然通过内容理解技术,机器最终能够输出更精准的标签。但这些标签属于标准化产物,产出后无法再更改和调整,因此依然很难满足一些广告主的个性化需求。

例如,如果广告主只想投放对自己品牌感兴趣的人群,或仅想知道与自身产品相关的利益点分析,那么就需要重新生产出一套符合自己需求的个性化标签,这其中需要对标签进行定义、根据规则在底层数据库中进行挖掘、以及评估测试等多个流程,最后才能上线使用。

这一系列流程都是在标签平台上实现的。简单来讲,标签平台是搭建在内容理解的能力基础之上的标签生产和管理工具。通过一套标准化的流程,让不懂技术的业务同学也能够根据实际需求自定义标签规则,在平台上灵活生产标签。后来标签平台经过内测后对外开放,在巨量云图上线为“标签工厂”。

用技术同学的话说,标签平台的价值就像是将餐厅的后厨开放出来。如果菜单上没有符合客人胃口的菜,那么就可以直接去后厨,挑选合适的食材,做出想要的美食(标签)。

一言以蔽之,标签平台让精准洞察具备了“适配性”:不仅精准,且为广告主真正所需。

最终,通过内容理解和标签平台,广告主才能通过对全平台的内容指标分析,看到各种品类的市场趋势。甚至还能通过分析某一特定品类的UGC及PGC内容,得知产品卖点与用户认知是否契合、正负评论各有哪些、产品利益点表现情况等。

人群方面,广告主还能在标签平台上圈选出本品的兴趣和机会人群,以及找出与目标群众重合度高的KOL,大大降低营销决策的风险。

 

四、效率层:让商业分析唾手可得

如同古代的行军打仗,战报的送达时间密切影响着战略决策,事关战局输赢。商业分析也是如此,对广告主而言,如果数据不能被即时看见,就意味着不能尽快复盘,敏捷应对,那么其价值就会被削弱,即便洞察精准,依旧如管中窥豹。

事实上,广告主每发出一次查询请求,系统都要在海量数据库中进行查询、计算、分析等一系列复杂的操作,最终才将目标数据呈现在广告主眼前。但在广告主看来,这一切仅发生在眨眼之间。

如此高效的处理速度主要源于对数据存储方式的优化。对机器而言,不同类型的数据存储方式很大程度上决定了查询速度的快慢。就像从一个拥有10万本藏书的图书馆里找到四大名著一样,如果能将书籍按照内容以及首字母进行分类和排序,很快就能找全四大名著。

因此,在数据存储方式上,团队请了一个“外援”——ClickHouse,一种高性能的开源数据库管理系统,专门擅长处理云图这种数据量大、经常承接各种灵活查询需求的场景。凭借列式存储结构(一列一个文件)和按列计算的特性,结合业务侧数据分片处理,ClickHouse能够高效读取与计算出广告主需要的数据。

例如广告主想对一二线城市爱吃巧克力的女性进行内容分析,传统的数据库则需要读取所有数据才能依次筛选出一二线城市、女性、爱吃巧克力三个标签,最后三个条件都符合的才是广告主的目标人群。但如果使用ClickHouse这个“外援”,系统无需读取全部数据,只需查询这三个标签所在的“列”,再对这三组数据在用户分片上进行“交并差”并行处理就可以了,大大节省了查询时间。

在此基础上,再通过“BitMap”技术缩小数据的存储空间。Bit是计算机数据系统中的最小单位,一个bit值可以为1或0,我们经常听到的“byte”(字节)可以换算为8个bit。而 “BitMap”正是采用bit数组的数据结构,将原始数据与bit数组里的位置建立映射关系。由于Bit的存储单位很小,因此往往能够节省大量存储空间。

高度抽象一点说,“BitMap”的原理就像英语的缩略词一样。例如把雅思写成全称的形式“International English Language Testing System”需要占用45个字符,而如果直接简写成“IELTS”只需要5个字符就够了,这样机器读取的时间就会大大缩短。

根据业务测试反馈,凭借ClickHouse和“BitMap”组合,巨量云图的查询速度提升了10-50倍,查询时间已控制在3-5秒间,真正实现了商业分析的“所需即所得”。

 

结语:

内容理解从底层解决了标签的精准问题,标签平台从上层让精准的洞察发挥出更多价值,查询技术让一切信息秒速进入人们的视线,正是通过一次次技术上的突破,才成就了如今洞悉更多商业细节的能力。

从创意生产到洞察分析,现在巨量引擎团队又有了更多新思考,例如让情感分析更加细腻、系统更加智能、生产更高效... 营销的科学性也正是在无数次思考中走向普罗大众。相信,这些细微的思考也会在未来带来更先进的技术,解决更多难题。