人工智慧和大資料熱起來。無數培訓班開始靠講Python、機器學習等課大賺其錢,大學裡的那些稍沾點邊的商科專業都開始設立建模預測的課程。在企業裡收到的簡歷也是越來越多地號稱耍過神經網路、深度學習,經歷過N多建模預測的專案。未來的職場,看起來會有滿世界的資料科學家。
從需求端角度上看確實有這種趨勢。資料慢慢積累上來了,人工智慧概念也在迅速普及,人們都開始有了這種意識,都想利用積累的資料做些分析預測之類的事情,這類業務就逐步變得很多,自然對從業人員的需求就變多了,而現在總體來講資料科學家又少又貴還是個常態,有點AI技能的找個工作都不難,老闆還天天擔心你跑掉。
但是,資料科學家作為一種職業,長遠一點看卻未必很有前途。
為啥?
因為還有一個領域也開始被人工智慧帶得熱門起來了,就是自動機器學習軟體。
比如這個,國內知名資料軟體公司潤乾出品的易明建模YModel,地道國貨,還完全免費,去潤乾官網就可以下載。來感受一下:
只要把資料準備好丟進去,幾分鐘就能建好模型用於預測了,過程中基本不需要懂資料探勘的人介入,也就是最後看效果時需要了解一些模型評價的指標就可以。麻煩的事都是資料準備,這是自動化軟體不會做的事,但也和資料科學家擅長的事不搭界。
這只是其中比較輕量級的一款,還有更多能自動做機器學習的軟體,包括google等大牌廠商都在加入這個陣營。
如果你沒有認真學習這些建模演算法的原理,只是在培訓班和速成課裡學過些概念和操作,那你還不見得做得過這玩意兒。
在實踐這個易明建模軟體的過程中發生過N回這種情況,程式寫得很溜的IT專業同學,使用Python開源包建出來的預測模型,準確率就是趕不上它。其實易明建模也是用Python開源包做的,大家用的是同一套基礎東西。但是,只懂IT的同學常常沒有認真系統地學過這些模型演算法的原理,不知道資料該怎麼做預處理、什麼情況該做糾偏了、補缺失值時該用啥規則;也不知道這幾十種演算法哪種各有啥特點、適合啥場景、又該填什麼樣的引數。要認真系統地學習人工智慧演算法原理,大體相當於讀半個統計專業的博士,幾個月的速成培訓班是搞不定的。
而易明建模中卻固化了統計專家數十年的經驗,這樣只擅長IT技能的資料探勘入門級選手當然就做不過了。而且,不僅準確率更好,工作效率也差很多啊,這玩意兒跑個三分鐘就能出模型,人工來做怎麼也得搞上幾天吧;更關鍵的是,這個軟體還不要錢,還能沒日沒夜地幹活,而一個數據科學家的工資得多少?你說未來的老闆們面對這種情況會怎麼想?
結果,粗略學過機器學習知識的普通型資料科學家,還不如那些有行業經驗的從業人員更管用。豐富的業務經驗還能把資料準備得更好,從而也能讓模型做得更精準。自動化建模軟體也只能解決人工智慧的技術問題,沒辦法自動發現業務知識,所以即使有自動化軟體也需要好的業務知識配合才能建出好模型。
未來的職場,大機率不會是滿世界的資料科學家,而是滿世界的自動人工智慧軟體加行業業務專家。
打個比方,就像現在醫院裡做化驗。以前,需要相當技能的人員才搞得了,也只有高階醫院才配得起,這些人也很吃香;後來呢,後來自動化儀器來了,是個人都會做了,是個醫院也都能做了。
這麼一說,是不是感到危機重重?資料科學家這職業是不是徹底涼涼了?
那當然也不是。
像易明建模這樣的自動化AI軟體也是要人去做的,這更需要優秀的資料科學家才做得出來了。而且,軟體也沒那麼智慧,總有搞不定的情況,這時候仍然需要精通演算法原理的資料科學家才能搞定。不過,精通演算法原理是前提,否則,軟體搞不定的事你也搞不定。
只是,成為這種人的難度當然很大,而且這種人的需求量也不會很大,大部分常規的資料科學事務都會被自動化的軟體替代掉。
資料科學家這個職業很有前途,但僅限於下過苦功N年寒窗的頂尖高手。街上培訓班或者大學裡速成班裡涮一下出來的,那還是省省吧。
