吕本富:网络搜索与社会经济行为的相关性

  • 马聪 (艾瑞网)
  • 创建于 2011-10-21
  • 1333
2011年10月18日,中国电子商务大会暨电子商务博览会在北京国家会议中心隆重召开,本次会议以“电子商务:城市影响力经济新动力”为主题,以论坛会议和展览的形式展示中国电子商务在经过十年磨砺后,以科技创新为核心,以产业链融合为支撑,以开放的心态发展电子商务的丰硕成果。

论坛会议针对2011年电子商务行业新模式及新热点进行展望、权威政策法规发布和解读、分析和研讨B2C、B2B各细分领域的创新发展、电子商务产业链融合、电子商务人才培训和应用等问题。大会云集国内外众多电商产业专家及行业精英,共享思维碰撞、脑力激荡、成果分享的饕餮盛宴。

以下是中科院研究生院管理学院执行院长吕本富在会上发表题为“网络搜索与社会经济行为的相关性”的现场演讲实录:

 

(吕本富演讲)

吕本富:谢谢各位!很高兴跟大家分享一下我们研究的经验,有一个校正,我不是中科院研究生院,我是研究生院下边的第三院副院长。我研究题目是网络搜索与社会经济行为相关性研究,其实是非常学术性的话题,第三方电子商务平台不仅有大量的交易、其实沉淀大量的数据。比如有一家公司根据在大家搜索股票的数据,依次来计算投资者的心情,就是你炒股赔了赚了肯定心情不好,你在微博发了心情的记忆,我把你心情记忆记录下来,依次记录股票的涨跌。所以在互联网有大量的数据有新的反映。

其实我们在跟阿里巴巴合作,做一个研究项目叫购物达人。比如一个人带头买商品,有多少人跟着他,挖掘全国有多少购物达人,如果把购物达人挖掘出来,意味着做广告不用找中央电视台,就找购物达人就可以了。今天演讲这个主要是我们自己做的网络搜索和相关经济行为研究,这个研究对我们来讲更加成熟。

四个方面内容,第一研究背景与起源、研究的四个主要领域、相关成果、展望。

一、背景。

传统预测数据主要来源于相关统计的数据,比如国家统计学是事后收集,至少有一个月到两个月滞后性,但是互联网发生事情是实时。搜索引擎记录数以计用户关注和需求,给社会经济预测带来客观、及时的数据。这种实时最大特点是实时,所以现在网络搜索、社会经济相关研究其实在学术界已经成了相当热点的题目。

用搜索研究流行病。04年发现网上日志,发现医学文章次数与流感发病人数之间具有很强的相关性。Ginsherg等等人发现Google与流感类关键同搜索量与流感看诊量有很强的相关性,根据搜索发现流感的发病次数和Google45个关键词叠加是相关的,45个关键词叠加做成一个指数,大体可以预测流感的发病率。这是很伟大的发现,个别流行病提前预测就为政府在公共卫生事件采取措施赢得时间,所以由此构建一个模型,这个模型比传统方法提前两周预测流感的爆发趋势。

我们给了一系列这个领域研究的资料,比如研究流行流感访问次数、也有利用王敏搜索引擎研究流行感冒等,这些都是用搜索办法来研究公共卫生事件。比如课题组曾经想做一个研究,用搜索词关键词比如艾滋病研究中国发生率,得了艾滋病没人说但是会搜索,根据搜索次数预测不同地区发病率,这是非常重要的研究。

二、领域。

现在从总体来说,根据搜索行为做预测研究一般有四个类型。

1、宏观经济。比如用搜索预测CPI,淘宝做一个CPI,比我们CPI预测还要好,根据大家购买下单率,用搜索行为预测宏观经济,比如CPI增长、甚至一些证券市场价格指数等,我们研究表明它是有相关性的。

2、大宗商品。比如说根据搜索的数据来预测一下,特别在中国房地产市场的购买率、还有汽车的购买率,国际上研究表明这个也是比较准的,对大宗商品预测比对宏观经济预测还要好,我们自己也做过,比如对北京房地产市场根据搜索词做过研究,证明还是不错的。你问房价涨不涨可以找我,预测相对比较准的。

3、股市。

4、旅游,比如有人做过根据搜索次数,预测香港旅馆客房入住率,基本上相关性也还是比较强。

总之,我们有一个发现,凡是这个经济行为是有成千上万人参与的,只要有这种广泛人群参与度,通过搜索预测的办法相对有准确性。

比如宏观经济,2009年瑞典科学家叫Askitas,写的对德国失业率研究。Francesco和美国失业率和搜索研究,相关性还是比较高的。

还有居民消费预测,就是刚才说的CPI,国际上也有很多人预测消费,居民消费预测对于厂商来说,不管对于电商来说有什么好处?能不能预测消费的拐点,比如北京限购以后,可以根据搜索次数简单预测汽车是不是有拐点,当一个经济现象出现拐点的时候,就是决策要关注或者特别慎重的。当然居民消费这里边只说构成,怎么预测这个东西。搜索主要关键词搜索,什么样关键词进入我们一揽子库,这里边是有一些研究性技巧,因为差别比较大,有些是前置性、有些滞后,怎么辨析这个关键词。以色列科学家根据Google数据,预测经济成长的周期,就是在经济高涨期网民会搜索什么样关键词?在经济衰退的时候网民搜索什么关键词,通过两个指数交叉对比可以算出经济周期。

还有大宗商品,贝利科松做了一个美国房地产市场销量与价格研究,他们结论是搜索指数对未来的销量和价格具有预测能力,那么搜索指数每增长一个百分点,未来一季度的销量将增加67220套。那么我们研究组也对北京房地产市场做过研究,每个地方政策不一样,我们对于北京研究,比如在搜索数据上,具体搜索的数据和销量大约有三个月的关系,我们曾经预测到2009年2月份将是北京房地产市场价格低谷,2月份以后价格就会上涨。当时08年底的时候就已经看到,大家搜索关键词不是涨价跌价,已经搜索具体楼盘名称了,已经表明他在购买前决策阶段,所以我们大约预测两个月以后价格会涨。有人说现在预测怎么样?最近有点乱预测不太准,你做预测必须宏观经济政策环境相对稳定,要是不稳定你准不了,我们经济油门刹车就不准了,但是如果宏观政策环境相对稳健我们预测没问题,这是对房地产市场的预测。这里边有外国人的研究,学术界对这方面研究就是在一两年之内,科瑞和哈利做20个城市房价对比,也有人做电动汽车关注度与油价的关系。

当然也有人用搜索的数据预测股价,我们也做过通过搜索词预测股指上涨关系,当然里边有很多研究性变化,后来我们有一个基本发现,如果把搜索指数直接和上圳指数不相关,除了经济影响,还有宏观面影响、还有大机构的影响,一个大机构比得上一万人,但是我们用搜索指数预测股票市场换手率这个很准。

总之,市场变化会导致高的关注度,大家对这个事情很关注,高的关注度就会导致高的搜索量,高的搜索量一定有关联关系,这个里边就是最基本的价值链。

还有旅游,Warian为在研究香港旅游客流量时,将搜索数据作为新解释变量加入到季节性AR模型中,结果表明,搜索数据变量在5%的显著水平上通过检验,对客流量存在显著影响。我们预计未来旅馆业非常依赖网络预测。我们讲这个平台不是讲平台本身,是平台产生数据有哪些影响,其中对旅游的影响是最重要的方面。

三、研究成果。

梳理以上国内外研究成果以上,我带了一个研究小组我们也做了一系列研究,最重要的成果就是基于中文搜索引擎,我们提出完整的数据预处理流程以及搜索指数合成方法,你要浏览,要记载页面电极量、搜索记关键词、互动要记社区问答,相对搜索对数据记录最清晰的,所以我们选择作为搜索重点。下边是我们做股票市场消费者指数研究,还有去年做上海世博会客流量预测,我们把数据已经通过一些渠道给了相关部门,通过搜索引擎预测世博会客流量比较好,还有旅游客流量、还有汽车行业的流量。

这是我们已经发表出来的文章,对股票市场的预测度,这是CPI。大家就看一下我们做的世博会预测,这个世博会预测基于日客流量预测方法,研究结论网络搜索指数对日客流量具有领先性,因此,有效地预测未来七天的上海世博会日客流量。我们用的关键词在左边,你可以看查上海地铁时刻表、查上海攻略、上海住宿跟上海世博会客流量有关,把关键词合成指数,蓝线是实际入园指数,红线是我们搜索合成的指数,可以看到大体这两个曲线吻合度比较高,我们实际预测数据和实际数据比较,至少他图片点上下游趋势是吻合的。因此我们把这个结果提供给相关方面,他们觉得还是有参考价值,这样他们就可以提前调度。当时我们曾经想把我们预测入园人数在网上公布,结果有关部门坚决不让我们公布。

这也是我们在做的汽车预测,这是住房销售价格的。

四、展望。

基于搜索行为预测,我们觉得可以对这些社会良好行为有一些预测,互联网平台特别大的交易平台,最大好处就是你平台上累计大量数据,而这个数据可能和某一个经济社会现象有关系,当然你平台交易量小可能预测价值小了,所以在这个方面,如果你觉得你平台有足够数据量,你想研究什么方面问题,可以和我们合作。谢谢大家!

 

 

责任编辑:马聪

相关链接