第25章 数据采集的困难
紫金市八月上旬的白昼穿行在马路上已经很是炎热,因而林远选择一早便起床。
他没有选择坐地铁,而是骑上了他的小电驴。因为给系统建设数据途径必定是需要在区域的每一户商家都跑一遍,他可不想靠自己的双脚去跑。
刘胡子包揽的这片区域涵盖了整个HX区最繁华的地段。在这里有无数的写字楼,好团外卖紫金分部也在附近。
林远跟公司方面申请了外出派送测试的机会,因为外卖平台有些更新上线之前还是需要实地专人测试一下的。一般来说不会让程序猿亲自出去跑,但林远为了在工作时间外出,就主动请缨把这个事情揽了过来。
林远并不清楚针对商家做数据途径建设,应该是怎么个流程。
为此,他特地没有吃早饭,然后一早找了家早餐店,坐进去方便仔细观察。
按照先前的经验,算力系统完成数据载入时是会有相关提示的。可是林远坐进这家早餐店后,已经都快吃完两个包子了,系统还是没有任何反应。
最终,直到他喝完豆浆走出门,系统都没有给出任何回应。
【你难道只能载入已经采集完成的数据?不能自行根据位置主动整理获取?】
【身为系统,你好歹有点逼格嘛。】
尽管林远不停朝着系统吐槽抱怨,可是系统装死起来是不会有任何回音的。
清早的大马路上,林远就那么站在路边,看着来来往往的车流,陷入了淡淡的失落之中。
如果不能对商家完成数据途径建设,那自然也不可能对骑手完成同样的建设。那这样一来,整个外卖路径和派送问题中最关键的两個点--商家和骑手,就彻底和算法是断联状态。
什么AI,什么人工智能,什么chatGPT。别管它名头喊得有多响,逼格吹得有多高。最后都逃不出一点--数据驱动。
再厉害的AI模型也是由数据驱动的,数据是一切的源头。哪怕对于算力系统来说,也是同样的。
数据代表着方向和目的地,没有它的话,即便是千万级别的豪车也不知往哪开。
假如林远设想的这种数据途径建设方式是行不通的,那麻烦还不仅止于眼前的这个外卖算法优化项目,更大的麻烦来自于这算力系统的使用方式。
算力系统能在简单引导下能主动完成数据采集,相比于采集好了数据再丢给算力系统。这就好比是自动驾驶和手动驾驶的区别。
这其中区别可就大了。
就像手动驾驶的时候不能分心干别的事情一样,如果数据必须手动采集后再丢给算力系统,那今后林远将耗费N多的时间去处理这类数据采集问题。
而更进一步的麻烦是。如果以自动驾驶和手动驾驶为例,要是车子的目的是将人送到某个地方,那两者区别也就是车上的人是否可以分心而已。可要是本身的目的不是为了送人而就是为了让车子开到一个地方呢。
也就是说,假如驾驶的目的就是为了让车子从一个地方到另一个地方。那自动驾驶和手动驾驶就将是天壤之别。
因为自动驾驶的话,人可以不用在车里。人只需要给车子设定好目的地后就不用管了,一个人就可以应付成千上万辆车子。可手动驾驶就不行了,一个人就只能应付一辆车子。
这叫什么。
这叫底层原理影响上层应用。
底层原理的优势反馈到上层应用上常常会产生指数级的差别。
try{ggauto();} catch(ex){}
数据采集的道理就是如此。
手动采集就像手动驾驶一样,一个人只能应付一个数据节点。可自动采集的话,一个人就能应付N个数据节点。
如果真让林远去手动采集数据,那外卖算法优化这个项目就不用做了。因为他无论如何也不可能每天蹲在所有商家的门口,以及坐在所有骑手们小电驴的后座上,不停地记录他们产生的数据。
科学法则就是如此。当你的目光只看到一辆车的时候,你并不觉得自动驾驶和手动驾驶差别多大。可是将视野投射出去,涵盖无数辆车的时候,巨大的差距就体现出来了。
这也是那么多科技大公司心甘情愿烧巨资押宝自动驾驶的原因之一。
不过这是题外话了,林远这时候站在清晨的微风中。空气中逐渐上升的气温就像他此时慢慢焦灼的心情。
真正走上IT这条路后,林远渐渐有了两个最大的感悟。
一个是遇到问题必须习惯性地去探究,抓住问题的本质。二是真正明白了方向的重要。
这两点并非是空话。
林远并没有因为失落而绝望,他开始仔细分析系统数据途径的特点。试图去抓住问题的本质。
算力系统可以轻松获取好团公司从后台导出的已经采集好的外卖数据,并且对数据总量大小无感,再大的数据也能很快载入。那也就是说:系统更加关心的是数据的形式。
那些被采集好的外卖数据也并非是最终可被AI模型执行的向量形态。
外卖数据一般是这样:某年某月,张三在A地接到订单(编号:order123),然后去商家所在的B地,花了多少时间等餐,之后再走什么样的路径什么时间送到客户所在的C地。
这样的数据是不可能直接丢给现实世界的AI模型去计算的,特么的AI指的是AI最终生产出来的那个玩意儿,又不是指生产AI的玩意儿本身就是个AI。
这一点是很反普通人的常识的--AI其实就是算法,而AI算法是被生产制造出来的,而这个生产制造的过程却一点也不AI。
这就好比你给地里的瓜果浇大粪,地里就能长出好吃的瓜果一样。瓜果好吃,但浇下去的那玩意儿显然不能吃。
但是,这仅仅是对现实世界的AI模型来说。算力系统却并非如此,算力系统直接就可以载入这些未经处理的数据进行计算。
现实世界的AI模型在计算之前,通常的做法是:把这些外卖数据处理成矩阵向量。
AI模型是冰冷的,它才不管你丢给它的数据是什么意思,反正在它眼里都是矩阵向量。于是外卖数据就需要先被转化为:[-1,23,321,......]这种冰冷的数字。
这些数字代表了真实的外卖数据。比如:某条外卖订单配送时的天气是大晴天,那矩阵向量中的某一个参数可能就会用数字“1”来表示,进而用数字“0”来表示阴天。
但算力系统则不同,林远之前测试过。外卖的数据根本不需要经过预处理,直接让系统载入也能处理。貌似系统自身就可以进行数据预处理。
这倒是符合系统的尿性--毕竟这系统就像一台可以按需改变自己硬件参数的活的电脑。
于是林远自然而然想着从这一点上寻找突破口。
请记住本书首发域名:wenxueya.cc。文学鸭手机版阅读网址:http://wenxueya.cc