第二百七十九章 潮水退去,全是大虾
书迷正在阅读:我的战损老婆咋就成了老对头(主攻仙侠)HP 当哈利有了个meimei我在A市开impart鬼**夫未完成作品[gb广辩]如何养好一只小猫禽兽不如 1V1 H日夜太子的小太监(骨科)杀手43孕期指南遗憾听不见伪装兄妹(校园H)爱的陷阱三封书信暗宠成瘾:早安,BOSS大人陆少,别乱来(HP)獾乐小厨娘-繁非限绣球花协奏曲萌宝逆袭:医妃娘亲不愁嫁御用驯兽师(np)论在末世做男老鸨的可行性红线(古言,父女,H)相似的两朵花瓣听说我是白月光(快穿)岩浆吾妻迷途网恋撩狗被狗R愿魔都市猎鬼师作为点家文里的恶毒炮灰蓝锁:绿茵天使矢口君温度【GB】触手神将心若刀戈体育生儿子吸爸爸原味内裤【混交,luanlun,高H,性虐】
态和内容进行关键词提取、照片信息提取,然后存档。 注意哦,这只是一个id的工作量。 比如说有一个人在豆半上注册了一个帐号叫张三,你按照这个名字在微博上搜索,结果出现了一万个叫张三。 那这些张三的人的所有的动态都得爬下来。 可是你怎么知道这一万个张三里面,哪一个是你想要的呢。 1 豆半的工作人员坚信昨晚这些人肯定是有相似性的,比如他们都是某一个人的粉丝。 那么他们的发言里一定会提到同样的东西。 这个时候就要再拿出来一个新的id,比如李四。 利用李四这个id,在微博上进行搜索,又出来一万个李四。 照例,全给爬取下来。 接下来是王五、赵六 然后再进行横向比对,一个个的去试! 总能试出来蛛丝马迹。 这个工作量是无比巨大的,对计算机的要求也很高。 这种情况下,豆半只能增加人手,外聘公司。 1 只是过去的这一夜,花了至少上千万。 但是这是目前为止豆半唯一的方法了。 其实还有一个方法,那就是豆半后台有这些新注册的人绑定的电话号码,如果他们拿着这些电话号码去找微博,在微博数据库里直接用电话号码查找的话,基本上一两个小时就能解决。 但是,这违法。 不同平台不可以把彼此的数据互通有无。 然而,豆半还真是高估了这些小粉丝们的水平了。 到第二天中午的时候,工作人员兴奋地跑来找北总:“北总!结果出来了!” 北总已经一夜没睡了。 听到这话