A. 如何用爬蟲抓取股市數據並生成分析報表
1. 關於數據採集
股票數據是一種標准化的結構數據,是可以通過API介面訪問的(不過一般要通過渠道,開放的API有一定的局限性)。也可以通過爬蟲軟體進行採集,但是爬蟲軟體採集數據不能保證實時性,根據數據量和採集周期,可能要延遲幾十秒到幾分鍾不等。我們總結了一套專業的爬蟲技術解決方案(Ruby + Sidekiq)。能夠很快實現這個採集,也可以後台可視化調度任務。
2. 關於展現
網路股票數據的展現,網頁端直接通過HTML5技術就已經足夠,如果對界面要求高一點,可以採用集成前端框架,如Bootstrap;如果針對移動端開發, 可以使用Ionic框架。
3. 關於觸發事件
如果是採用Ruby on Rails的開發框架的話,倒是很方便了,有如sidekiq, whenever這樣子的Gem直接實現任務管理和事件觸發。
B. 閫氳揪淇¤偂紲ㄦ暟鎹涓嬭澆涓庡煎嚭璇﹁В
閫氳揪淇℃槸涓嬈懼箍娉涗嬌鐢ㄧ殑鑲$エ鍒嗘瀽杞浠訛紝瀹冩彁渚涗簡涓板瘜鐨勮偂紲ㄦ暟鎹涓嬭澆涓庡煎嚭鍔熻兘銆傝繖浜涘姛鑳戒嬌寰楃敤鎴瘋兘澶熸柟渚垮湴鑾峰彇鎵闇鐨勮偂紲ㄦ暟鎹錛屼互渚胯繘琛屾洿娣卞叆鐨勫垎鏋愬拰鐮旂┒銆
棣栧厛錛岄氳揪淇℃彁渚涗簡澶氱嶈偂紲ㄦ暟鎹涓嬭澆鐨勬柟寮忋傜敤鎴峰彲浠ラ氳繃杈撳叆鑲$エ浠g爜鎴栧悕縐版潵媯緔㈠苟涓嬭澆鎵闇鐨勮偂紲ㄦ暟鎹銆傛ゅ栵紝閫氳揪淇¤繕鏀鎸佽嚜瀹氫箟鏁版嵁涓嬭澆錛岀敤鎴峰彲浠ユ牴鎹鑷宸辯殑闇奼傝劇疆涓嬭澆鍙傛暟錛屼緥濡傛椂闂磋寖鍥淬佹暟鎹綾誨瀷絳夈傝繖浣垮緱鐢ㄦ埛鑳藉熺伒媧誨湴鑾峰彇鎵闇鐨勮偂紲ㄦ暟鎹錛屾弧瓚充笉鍚岀殑鍒嗘瀽闇奼傘
鍦ㄥ煎嚭鑲$エ鏁版嵁鏂歸潰錛岄氳揪淇′篃鎻愪緵浜嗗氱嶅煎嚭鏍煎紡鍜岄夐」銆傜敤鎴峰彲浠ュ皢涓嬭澆鐨勮偂紲ㄦ暟鎹瀵煎嚭涓篍xcel銆丆SV絳夊父瑙佹牸寮忥紝鏂逛究鍚庣畫鐨勬暟鎹澶勭悊鍜屽垎鏋愩傚悓鏃訛紝閫氳揪淇¤繕鏀鎸佽嚜瀹氫箟瀵煎嚭瀛楁碉紝鐢ㄦ埛鍙浠ユ牴鎹鑷宸辯殑鍒嗘瀽闇奼傞夋嫨闇瑕佸煎嚭鐨勬暟鎹瀛楁碉紝鎻愰珮鏁版嵁澶勭悊鐨勬晥鐜囥
涓句釜渚嬪瓙錛屽亣璁句竴涓鐢ㄦ埛鎯寵佷笅杞藉苟瀵煎嚭鏌愬彧鑲$エ鐨勫巻鍙蹭環鏍兼暟鎹銆備粬鍙浠ュ湪閫氳揪淇′腑杈撳叆璇ヨ偂紲ㄧ殑浠g爜鎴栧悕縐幫紝閫夋嫨闇瑕佷笅杞界殑鏃墮棿鑼冨洿鍜屾暟鎹綾誨瀷錛岀劧鍚庣偣鍑諱笅杞芥寜閽銆備笅杞藉畬鎴愬悗錛屼粬鍙浠ュ皢鏁版嵁瀵煎嚭涓篍xcel鏍煎紡錛屽苟鍦‥xcel涓瀵規暟鎹榪涜岃繘涓姝ョ殑鍒嗘瀽鍜屽勭悊銆
鎬諱箣錛岄氳揪淇$殑鑲$エ鏁版嵁涓嬭澆涓庡煎嚭鍔熻兘涓虹敤鎴鋒彁渚涗簡渚垮埄鐨勬暟鎹鑾峰彇鍜屽勭悊鏂瑰紡錛屾弧瓚充簡涓嶅悓鐢ㄦ埛鐨勯渶奼傘傞氳繃鐏墊椿榪愮敤榪欎簺鍔熻兘錛岀敤鎴峰彲浠ユ洿濂藉湴榪涜岃偂紲ㄥ垎鏋愬拰鐮旂┒錛屼負鎶曡祫鍐崇瓥鎻愪緵鏈夊姏鐨勬敮鎸併
C. 璇鋒暀python閲忓寲浜ゆ槗鏃剁敤鍒扮殑鑲$エ姣忓ぉ閫愮瑪浜ゆ槗鏁版嵁濡備綍鐖鍙栵紵
棣栧厛錛屾墦寮鏈熻揣浜ゆ槗杞浠訛紝鐧誨綍鑷宸辯殑浜ゆ槗璐︽埛銆傞夋嫨鐩稿簲鐨勬湡璐у悎綰︼紝榪涘叆浜ゆ槗鐣岄潰銆
鍏舵★紝鎵懼埌鈥滄垚浜よ板綍鈥濇垨鈥滈愮瑪鎴愪氦鈥濈瓑鐩稿叧鍔熻兘鎸夐挳銆傚湪涓浜涗氦鏄撹蔣浠朵腑錛岃繖涓鎸夐挳鍙鑳戒綅浜庝氦鏄撶晫闈㈢殑搴曢儴鎴栦晶杈規爮銆
鐒跺悗錛岀偣鍑燴滄垚浜よ板綍鈥濇垨鈥滈愮瑪鎴愪氦鈥濇寜閽錛岃繘鍏ユ垚浜よ板綍欏甸潰銆傚湪榪欎釜欏甸潰涓婏紝浣犲彲浠ョ湅鍒版渶榪戠殑鎴愪氦璁板綍鍒楄〃銆
鎺ヤ笅鏉ワ紝鎵懼埌鈥滃煎嚭鈥濇垨鈥滃煎嚭鎴愪氦鏄庣粏鈥濈瓑鎸夐挳銆傝繖涓鎸夐挳閫氬父浣嶄簬鎴愪氦璁板綍欏甸潰鐨勪笂鏂規垨涓嬫柟銆
鐒跺悗錛岀偣鍑燴滃煎嚭鈥濇垨鈥滃煎嚭鎴愪氦鏄庣粏鈥濇寜閽錛岄夋嫨瀵煎嚭鏂囦歡鐨勬牸寮忓拰淇濆瓨璺寰勩備竴鑸鏉ヨ達紝鎴戜滑鍙浠ラ夋嫨瀵煎嚭涓篍xcel鎴朇SV鏍煎紡鐨勬枃浠訛紝榪欐牱鍙浠ユ柟渚垮悗緇鐨勬暟鎹澶勭悊鍜屽垎鏋愩
鏈鍚庯紝鐐瑰嚮鈥滅『璁も濇垨鈥滃煎嚭鈥濇寜閽錛岀瓑寰呰蔣浠跺畬鎴愬煎嚭榪囩▼銆傚煎嚭鐨勯熷害鍙栧喅浜庢垚浜よ板綍鐨勬暟閲忓拰鐢佃剳鎬ц兘絳夊洜緔犮
涓鏃﹀煎嚭瀹屾垚錛屼綘灝卞彲浠ュ湪閫夋嫨鐨勪繚瀛樿礬寰勪腑鎵懼埌瀵煎嚭鐨勬枃浠躲傞氳繃鎵撳紑榪欎釜鏂囦歡錛屼綘灝卞彲浠ユ煡鐪嬪拰鍒嗘瀽鏈熻揣閫愮瑪鎴愪氦鏄庣粏浜嗐
瀵煎嚭鐨勬湡璐ч愮瑪鎴愪氦鏄庣粏鏂囦歡閫氬父鍖呮嫭浠ヤ笅淇℃伅錛氫氦鏄撴棩鏈熴佷氦鏄撴椂闂淬佹垚浜や環鏍箋佹垚浜ゆ暟閲忋佷拱鍗栨柟鍚戠瓑銆傝繖浜涗俊鎮鍙浠ュ府鍔╀綘榪借釜姣忎竴絎旀垚浜ょ殑鎯呭喌錛屽垎鏋愬競鍦虹殑涔板崠鍔涢噺鍜屼氦鏄撹屼負銆
閫氳繃瀵規湡璐ч愮瑪鎴愪氦鏄庣粏鐨勫垎鏋愶紝浜ゆ槗鑰呭拰鎶曡祫鑰呭彲浠ヨ幏鍙栦互涓嬫柟闈㈢殑淇℃伅錛
棣栧厛錛屼簡瑙e競鍦虹殑鎴愪氦鎯呭喌銆傞氳繃鏌ョ湅鎴愪氦浠鋒牸鍜屾垚浜ゆ暟閲忥紝鍙浠ュ垽鏂甯傚満鐨勪環鏍艱蛋鍔垮拰浜ゆ槗媧昏穬搴︺
鍏舵★紝鍒嗘瀽甯傚満鐨勪拱鍗栧姏閲忋傞氳繃緇熻′拱鍏ュ拰鍗栧嚭鐨勬暟閲忓拰姣斾緥錛屽彲浠ヤ簡瑙e競鍦虹殑澶氱┖鍙屾柟鍔涢噺瀵規瘮錛屽垽鏂甯傚満鐨勮蛋鍔垮拰瓚嬪娍銆
鍐嶆★紝鐮旂┒浜ゆ槗鑰呯殑琛屼負鍜岀瓥鐣ャ傞氳繃鍒嗘瀽鎴愪氦璁板綍錛屽彲浠ヤ簡瑙d氦鏄撹呯殑涔板崠琛屼負鍜岀瓥鐣ワ紝鍙戠幇涓浜涙綔鍦ㄧ殑浜ゆ槗鏈轟細銆
鏈鍚庯紝浼樺寲浜ゆ槗絳栫暐鍜岄庨櫓綆$悊銆傞氳繃瀵規湡璐ч愮瑪鎴愪氦鏄庣粏鐨勭爺絀訛紝鍙浠ュ彂鐜頒竴浜涘父瑙佺殑浜ゆ槗閿欒鍜岄庨櫓鍥犵礌錛屼粠鑰屾敼榪涜嚜宸辯殑浜ゆ槗絳栫暐鍜岄庨櫓綆$悊鑳藉姏銆
D. 爬蟲都可以干什麼
爬蟲技術前景非常不錯,搜狗 網路 位元組跳動 這樣的互聯網公司都需要爬蟲工程師啊,而且薪資非常不錯。
Python、C++、PHP 這些編程語言都很火熱啊,現在干什麼不都需要爬蟲啊。
數據採集、輿情分析、撰寫行業報告、AI、自然語言處理 都需要大數據和爬蟲啊
我覺得你可以親自試試,感受一下爬蟲的魅力,比如 前嗅的數據採集器就可以,網路直接搜就行