第25章 數據採集的困難
第25章 數據採集的困難
紫金市八月上旬的白晝穿行在馬路上已經很是炎熱,因而林遠選擇一早便起床。
他沒有選擇坐地鐵,而是騎上了他的小電驢。因為給系統建設數據途徑必定是需要在區域的每一戶商家都跑一遍,他可不想靠自己的雙腳去跑。
劉鬍子包攬的這片區域涵蓋了整個HX區最繁華的地段。在這裡有無數的寫字樓,好團外賣紫金分部也在附近。
林遠跟公司方面申請了外出派送測試的機會,因為外賣平台有些更新上線之前還是需要實地專人測試一下的。一般來說不會讓程序猿親自出去跑,但林遠為了在工作時間外出,就主動請纓把這個事情攬了過來。
林遠並不清楚針對商家做數據途徑建設,應該是怎麼個流程。
為此,他特地沒有吃早飯,然後一早找了家早餐店,坐進去方便仔細觀察。
按照先前的經驗,算力系統完成數據載入時是會有相關提示的。可是林遠坐進這家早餐店後,已經都快吃完兩個包子了,系統還是沒有任何反應。
最終,直到他喝完豆漿走出門,系統都沒有給出任何回應。
【你難道只能載入已經採集完成的數據?不能自行根據位置主動整理獲取?】
【身為系統,你好歹有點逼格嘛。】
儘管林遠不停朝著系統吐槽抱怨,可是系統裝死起來是不會有任何回音的。
清早的大馬路上,林遠就那麼站在路邊,看著來來往往的車流,陷入了淡淡的失落之中。
如果不能對商家完成數據途徑建設,那自然也不可能對騎手完成同樣的建設。那這樣一來,整個外賣路徑和派送問題中最關鍵的兩個點——商家和騎手,就徹底和算法是斷聯狀態。
什麼AI,什麼人工智慧,什麼chatGPT。別管它名頭喊得有多響,逼格吹得有多高。最後都逃不出一點--數據驅動。
再厲害的AI模型也是由數據驅動的,數據是一切的源頭。哪怕對於算力系統來說,也是同樣的。
數據代表著方向和目的地,沒有它的話,即便是千萬級別的豪車也不知往哪開。
假如林遠設想的這種數據途徑建設方式是行不通的,那麻煩還不僅止於眼前的這個外賣算法優化項目,更大的麻煩來自於這算力系統的使用方式。
算力系統能在簡單引導下能主動完成數據採集,相比於採集好了數據再丟給算力系統。這就好比是自動駕駛和手動駕駛的區別。
這其中區別可就大了。
就像手動駕駛的時候不能分心干別的事情一樣,如果數據必須手動採集後再丟給算力系統,那今後林遠將耗費N多的時間去處理這類數據採集問題。
而更進一步的麻煩是。如果以自動駕駛和手動駕駛為例,要是車子的目的是將人送到某個地方,那兩者區別也就是車上的人是否可以分心而已。可要是本身的目的不是為了送人而就是為了讓車子開到一個地方呢。
也就是說,假如駕駛的目的就是為了讓車子從一個地方到另一個地方。那自動駕駛和手動駕駛就將是天壤之別。
因為自動駕駛的話,人可以不用在車裡。人只需要給車子設定好目的地後就不用管了,一個人就可以應付成千上萬輛車子。可手動駕駛就不行了,一個人就只能應付一輛車子。
這叫什麼。
這叫底層原理影響上層應用。
底層原理的優勢反饋到上層應用上常常會產生指數級的差別。
數據採集的道理就是如此。
手動採集就像手動駕駛一樣,一個人只能應付一個數據節點。可自動採集的話,一個人就能應付N個數據節點。
如果真讓林遠去手動採集數據,那外賣算法優化這個項目就不用做了。因為他無論如何也不可能每天蹲在所有商家的門口,以及坐在所有騎手們小電驢的后座上,不停地記錄他們產生的數據。
科學法則就是如此。當你的目光只看到一輛車的時候,你並不覺得自動駕駛和手動駕駛差別多大。可是將視野投射出去,涵蓋無數輛車的時候,巨大的差距就體現出來了。
這也是那麼多科技大公司心甘情願燒巨資押寶自動駕駛的原因之一。
不過這是題外話了,林遠這時候站在清晨的微風中。空氣中逐漸上升的氣溫就像他此時慢慢焦灼的心情。
真正走上IT這條路後,林遠漸漸有了兩個最大的感悟。
一個是遇到問題必須習慣性地去探究,抓住問題的本質。二是真正明白了方向的重要。
這兩點並非是空話。
林遠並沒有因為失落而絕望,他開始仔細分析系統數據途徑的特點。試圖去抓住問題的本質。
算力系統可以輕鬆獲取好團公司從後台導出的已經採集好的外賣數據,並且對數據總量大小無感,再大的數據也能很快載入。那也就是說:系統更加關心的是數據的形式。
那些被採集好的外賣數據也並非是最終可被AI模型執行的向量形態。
外賣數據一般是這樣:某年某月,張三在A地接到訂單(編號:order123),然後去商家所在的B地,花了多少時間等餐,之後再走什麼樣的路徑什麼時間送到客戶所在的C地。
這樣的數據是不可能直接丟給現實世界的AI模型去計算的,特麼的AI指的是AI最終生產出來的那個玩意兒,又不是指生產AI的玩意兒本身就是個AI。
這一點是很反普通人的常識的——AI其實就是算法,而AI算法是被生產製造出來的,而這個生產製造的過程卻一點也不AI。
這就好比你給地里的瓜果澆大糞,地里就能長出好吃的瓜果一樣。瓜果好吃,但澆下去的那玩意兒顯然不能吃。
但是,這僅僅是對現實世界的AI模型來說。算力系統卻並非如此,算力系統直接就可以載入這些未經處理的數據進行計算。
現實世界的AI模型在計算之前,通常的做法是:把這些外賣數據處理成矩陣向量。
AI模型是冰冷的,它才不管你丟給它的數據是什麼意思,反正在它眼裡都是矩陣向量。於是外賣數據就需要先被轉化為:[-1, 23, 321,]這種冰冷的數字。
這些數字代表了真實的外賣數據。比如:某條外賣訂單配送時的天氣是大晴天,那矩陣向量中的某一個參數可能就會用數字「1」來表示,進而用數字「0」來表示陰天。
但算力系統則不同,林遠之前測試過。外賣的數據根本不需要經過預處理,直接讓系統載入也能處理。貌似系統自身就可以進行數據預處理。
這倒是符合系統的尿性--畢竟這系統就像一台可以按需改變自己硬體參數的活的電腦。
於是林遠自然而然想著從這一點上尋找突破口。
(還有更新耶)