:大数据解决方案不能只看各家的本事
:大数据解决方案不能只看各家的大数本事
日期:2023/02/24 19:11作者:佚名人气:
导读:这次世界杯期间,IBM和腾讯的据解决方合作,依靠大数据计算解决了一个看起来很简单、看各背后却非常复杂的本事小问题。其实这是大数最简单的一步,大的据解决方数据就在那里,能不能搞成有用的看各大数据就看各家的本事。IBM计算支持率,本事数据来源是大数微博上关于世界杯的讨论。面对数据,据解决方如果找人一边看一边数,看各在道理上也是本事能完成支持率计算的,只不过下届世界杯能算出来结果就不错了。大数假如负责算法的据解决方是你,会如何对这些大数据进行选择呢?...关于大数据,看各我们听过太多类似科幻故事的幻想。 这个领域虽然火热,但似乎与老百姓的生活关系不大。 比如教科书上的经典案例“啤酒和尿布”,我们不知道美国的超市是怎么计算这种因果关系的,在我们身边的中国超市也看不到这种奇葩的安排。 本届世界杯期间,IBM与腾讯的合作怎么用大数据世界杯,依靠大数据计算,解决了一个看似简单,背后却非常复杂的小问题。
我要解决的问题很简单,就是看世界杯期间谁对球队的支持率最高和最低。
这件事可以凭经验,比如找几个资深的粉丝或者评论员。 他们肯定比一般人拥有更多的粉丝,所以他们可以根据自己的感受来谈论哪支球队的支持率更高。 比如我感觉身边有很多阿根廷球迷,也有很多德国球迷。 问题是,你认识的人再多,也不可能同时了解5000人团队的动向吧? 这个数量已经是微信好友的上限了。 为了让更多的人进入统计范围,之前还有一个解决办法就是投票。 在网站首页放一个投票栏,你可以选择你支持的球队。 收集一个游戏几万人的投票结果并不难。 但是,这种方法存在很多问题。 投票是一种主动行为,结果不一定能准确代表懒得投票的人。
这是一件多么微不足道的事情。 世界杯每场比赛前,腾讯网站都会展示两支球队的支持率,背后会用到IBM的一整套大数据解决方案。
首先是数据来源。 其实这是最简单的一步。 大数据就在那里。 能不能变成有用的大数据,就看各个公司的能力了。 IBM计算支持率,数据来源是微博上关于世界杯的讨论。 自发讨论的数据显然比主动投票更能体现大家对游戏团队的看法。 虽然微博的讨论量还不能覆盖所有观看比赛的人,但范围确实大大超过了投票所能达到的极限。 世界杯期间,64场比赛过后,国内微博大家庭的讨论量约为10亿,超过了国外推特、脸书、Instagram的总和。 这些数据之前就已经存在,计算和存储都不是什么难的问题。 IBM在2013年收购了全球领先的公有云服务公司Softlayer,也就是说对于大数据,不难找到大数据,不难找到计算和存储硬件。 难的是用什么样的软件来分析这些数据。 如果没有具有软件能力的尺子,大数据只能做一些排序排序的低级计算。 这就是为什么说中国的大数据往往只是按照地区、星座、年龄来汇总全国的数据。
二是消除噪音。 算力、存储设备齐备,微博海量数据涌入。腾讯的团队支持率虽然每小时更新一次,但背后的计算是实时的。 面对数据,如果有人看一下,统计一下,理论上是可以完成支持率的计算的,但是下届世界杯的计算结果会不错。 在大数据的世界里,硬件只是基础,真正让算力发挥作用的还是软件。 当我们只能调整计算规则时,如何从各种微博中找到与世界杯相关的信息就成了一个大问题,因为我们在讨论世界杯的时候,不会直接加上“世界杯”和球队名称。 切入点可能是明星八卦。 如果你不能判断这些内容,你就会低估支持率。 同期讨论还可能讨论参赛队伍所在国家的其他事项。 此外,还有大量借世界杯做广告的企业微博和广告转发。 如果把这些内容混入计算数据,就会高估支持率。 这些需要不断调整的算法是IBM在大数据领域的核心竞争力。
三是语义分析。 即使只是“支持A或支持B”之类的简单支持率计算,计算机需要理解的人类语言仍然非常困难。 如果计算机无法理解人类的怪异表情,就很难对微博等数据进行海量分析。 比如在英格兰和西班牙双双爆冷之后,以冷诉着称的英国队球迷直接又开始了一场狂欢。 我个人最喜欢的病态百科全书笑话是这三个: 1. “飞吧,英国”——返回英国的机长说; 取消期; 3.经过多年的努力,英格兰终于可以像西班牙一样踢球了! 应该如何分析这些投诉? 在正常语义下,第一个投诉应该如何与船长区分开来? 14天的撤销期怎么会和第二条英格兰队被淘汰联系在一起呢? 第三篇比较刻薄,如何让电脑理解英格兰球迷对西班牙的评价? 这些连人类也常常无法理解的抱怨怎么用大数据世界杯,当然是算法的难点。 但是,IBM以认知计算为核心的社交大数据分析技术,足以让计算机理解很多内容。 明星粉丝有什么特点? 这些小功能的进步完全取决于后台算法进化的速度。
经过以上软硬件的支持,大数据就有可能脱离星座和地域,为我们证明一些非常有趣的现象。 例如,阿根廷的铁杆球迷比例高吗? 确实如此。 可能是因为国家队没能上场添乱,所以中国球迷的观赛心态似乎更加轻松,支持率分胜负负的现象时常出现。 尤其是当两支大家都不熟悉的冷门球队交锋时,这种“胜者为尊”的现象尤为明显,赢球后马上就能看到支持率的变化。 其他传统强队或多或少都要面对这种情况。 输球后支持率基本不下降的球队只有阿根廷。 我想这可能是因为近些年潘帕斯雄鹰的惨烈时刻比较多,也可能是英吉利没能给深爱他的小丑们留下更多证明自己的时间。
另一个有趣的现象是,没有参赛的中国队依然有着广泛的影响力。 世界杯收官阶段,只有三支球队有幸击败中国队,尤其是爆冷的哥斯达黎加队,显然比其他黑马吃的亏更多。 那么,如果一条微博也提到了中国队的哥斯达黎加队,那应该算谁的支持率呢? IBM研究院负责算法的专家苏忠博士将这些数据从哥斯达黎加团队的支持率中剔除。 不过,他自己也表示,仔细想想,有些后悔,或许留下来更能反映真实情况。 这可能是大数据需要面对的有趣情况。 做出判断,让数据证明结论,关键还是人的立场和判断。 没有绝对的客观性可以单靠数据。 如果你是算法负责人,你会如何选择这些大数据?
(责任编辑:时尚)
-
记者从教育部网站获悉,为贯彻落实党中央、国务院关于高校毕业生就业工作决策部署,教育部近期组织开展2024届高校毕业生就业工作专项督导,由部党组成员带队赴安徽、辽宁、河北、北京、江西、天津等省市开展实地 ...[详细]
-
2023年是南京大屠杀惨案发生86周年。12月8日,侵华日军南京大屠杀遇难同胞纪念馆以下简称“纪念馆”)举行2023年新征文物史料新闻发布会,包括日本上海派遣军报道部、华中方面军特务部木村中佐的《从军 ...[详细]
-
井柏然与谢芷蕙的合影 井柏然微博反省:不要和陌生人合照 华谊艺人总监张阿信为井柏然PS的合影照 责任编辑:hdwmn_rsj ...[详细]
-
林熙蕾。图片来源:台湾“今日新闻网”台湾“今日新闻网”消息,已升级为“幸福妈妈”的林熙蕾日前在台湾出席代言活动,身材恢复得很快,被称赞:“身材好像比以前更好、更有料。”她直笑说:“我以前就很‘波涛汹涌 ...[详细]
-
据广州正佳极地海洋世界消息,6月29日上午,一头名叫爱丽丝的白鲸在怀孕16个月后,成功分娩了一头小白鲸。该白鲸出生时体长175厘米,是个女宝宝,属今年广东第一头人工饲养条件下自然繁育的白鲸。当天早上, ...[详细]
-
11月15日,《东成西就2011》在上海举行首映发布会,莫文蔚、房祖名、黄奕出席。婚后首度公开亮相的莫文蔚,穿着低胸礼服,性感十足。莫文蔚幸福地大秀右手的古董婚戒,并频频催促身旁的黄奕、房祖名赶快结婚 ...[详细]
-
导读:萌娃哭诉名字太难写想叫小花 小花是谁这是什么梗近日,正处于开学季,一位萌娃哭诉名字太难写想叫小花,原因是写作业时,自己的名字太难写,场面即可爱又心酸。9月3日讯 众所周知,名字是一个人的代号。自 ...[详细]
-
今天,中东部大部地区维持升温态势,多地将体验到12月同期罕见暖热。由于昼夜温差大,太原、石家庄等地一天可体验2个季节。然而,明天起,两轮冷空气“无缝衔接”,中东部多地将经历俯冲式降温:东北、华北、黄淮 ...[详细]
-
欧冠首回合,巴萨在主场被巴黎4-1痛击,在全场比赛中巴萨处处受制,当年轻的姆巴佩一次次洞穿特尔施特根的球门,一场溃败让巴萨颜面扫地。在两回合赛制中,虽然理论上来说巴萨还有着翻盘的机会,但是4-1的巨大 ...[详细]
-
导读:薛之谦火锅店回应食品安全问题 薛之谦本人对此有说什么吗?3日晚,该火锅店发声明回应,表示初步了解主要原因是门店操作不规范造成的,他们已经第一时间针对抽检问题展开内部调查并进行了一系列的整改措施9 ...[详细]