一区二区三区日_色又黄又爽18禁免费网站_日本三级吃奶头添泬无码苍井空_久久av在线影院_亚洲精品乱码久久久久久久久久久久_夫妇交换性三中文字幕_亚洲天天做日日做天天欢毛片_国产成人综合怡春院精品_99re在线视频观看_日韩久久成人

×

4006-234-116

13681552278

手機版

公眾號

天晴創(chuàng)藝網(wǎng)站建設(shè)公司。主要為北京天津全國各地提供網(wǎng)站建設(shè)與網(wǎng)頁設(shè)計制作服務(wù),歡迎大家咨詢。您的IP地址是:137.175.88.153。今天是:,,(),,現(xiàn)在是:11:48:57 AM,

python只需7行代碼就能爬取豆瓣電影的數(shù)據(jù)

作者:天晴創(chuàng)藝發(fā)布時間:3/28/2019 3:07:59 PM瀏覽次數(shù):12586文章出處:高端網(wǎng)站建設(shè)

      搜索引擎和(大多數(shù))新聞類APP都不自己生產(chǎn)內(nèi)容(雖然有些平臺孵化了自己的內(nèi)容,但也只占整個平臺內(nèi)容的很少的一部分,更重要的是,成本非常高)。

      那么,他們的大量的內(nèi)容從哪里來?

      “我們不生產(chǎn)內(nèi)容,只是內(nèi)容的搬運工”網(wǎng)站外包,將互聯(lián)網(wǎng)上的內(nèi)容“搬運”到自己的服務(wù)器上,這就是爬蟲。

      首先,我們需要了解一下互聯(lián)網(wǎng)的結(jié)構(gòu):

      互聯(lián)網(wǎng)上的內(nèi)容數(shù)以億計,雖然很復雜,但說白了就是一張大網(wǎng),網(wǎng)上的每個節(jié)點就是一個網(wǎng)頁,連接網(wǎng)頁的超鏈接(Hyperlinks)相當于線,線把所有的節(jié)點連接在一起,形成了一個復雜的網(wǎng)。

      通過點擊超鏈接的文字或者圖片,就可以跳轉(zhuǎn)到對應(yīng)的網(wǎng)頁。爬蟲可以自動訪問到每一個網(wǎng)頁,并把網(wǎng)頁的內(nèi)容保存下來。

      世界上第一個網(wǎng)絡(luò)爬蟲由麻省理工學院的學生馬修·格雷(Matthew Gray)在1993年寫成,之后的爬蟲盡管越來越復雜。

      比如:可以實現(xiàn)更快的訪問速度、訪問更多的網(wǎng)頁、更好的將網(wǎng)站內(nèi)容解析出來。但爬蟲的基本原理是一樣的,都主要包括三個部分:訪問網(wǎng)頁鏈接,下載網(wǎng)頁內(nèi)容,解析網(wǎng)頁內(nèi)容。

      爬蟲的工作過程與我們查找網(wǎng)頁的過程是一樣的。

      比如,我們想要查一下豆瓣上最新的電影:首先,在瀏覽器地址欄輸入網(wǎng)址鏈接 https://movie.douban.com/  ;之后,瀏覽器會跳轉(zhuǎn)到豆瓣電影;最后,我們就可以找到當前熱映的電影。

 7行代碼就能爬取豆瓣電影的數(shù)據(jù)

7行代碼就能爬取豆瓣電影的數(shù)據(jù)

      同樣的,一個最簡單的爬蟲三步就可以爬取一個網(wǎng)頁:

      訪問這個網(wǎng)頁;

      把網(wǎng)頁內(nèi)容下載下來;

      對下載的內(nèi)容進行解析。

      最簡單的爬蟲三步就可以爬取一個網(wǎng)頁,那么要寫多少行代碼呢?

      我們寫一個爬蟲,爬取豆瓣的“一周口碑榜”,只要7行代碼!

      代碼如下:

 7行代碼就能爬取豆瓣電影的數(shù)據(jù)

7行代碼就能爬取豆瓣電影的數(shù)據(jù)

      Python環(huán)境中運行這幾行代碼,就可以獲取“一周口碑榜”了,結(jié)果如下:

       [‘迦百農(nóng)’, ‘綠皮書’, ‘馴龍高手3, ‘速成家庭’, ‘阿麗塔:戰(zhàn)斗天使’, ‘膚色’, ‘死亡天使’, ‘黎明墻’, ‘小小巨人’, ‘出·路’]

      其中最關(guān)鍵的是解析網(wǎng)頁內(nèi)容,主要是(//td[@class=title]//a/text())這行代碼,大多數(shù)人可能對比較困惑。

      這涉及到HTML網(wǎng)頁的結(jié)構(gòu):

      可以把網(wǎng)頁理解成一個文件夾,打開一個文件夾,會發(fā)現(xiàn)子文件夾,子文件夾或許還有文件夾;通過打開一個個文件夾,最終找到需要的數(shù)據(jù)。

       //td :這個相當于大目錄;

      [@class=title]:這個相當于小目錄;

       //a :這個相當于最小的目錄;

      /text():這個是提取其中的文字內(nèi)容。

      至于是怎么寫出來這行代碼的,可以通過在網(wǎng)頁空白處點擊右鍵,查看源代碼,就可以找到對應(yīng)的tdclass=title”、a等標識符。

       大多數(shù)程序員寫爬蟲選擇python的理由很簡單:

      首先,python有很多的庫,可以直接調(diào)用,比如:上面的代碼就引入了requestslxml庫,分別實現(xiàn)訪問網(wǎng)頁、對網(wǎng)頁結(jié)構(gòu)解析。有開源的庫九帆網(wǎng)絡(luò),就直接調(diào)用,避免重復造輪子。

      其次,python寫起來很方便,配置也簡單,短短幾行的代碼,就可以直接運行了,如果使用C或者Java,可能配置環(huán)境就要老半天。

(鄭重聲明:本文版權(quán)歸原作者linghu所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如有侵權(quán),請聯(lián)系我們刪除;如作者信息標記有誤,請聯(lián)系我們修改。)

科技行業(yè)網(wǎng)站制作

文章來源:高端網(wǎng)站建設(shè)

文章標題:python只需7行代碼就能爬取豆瓣電影的數(shù)據(jù)

文本地址:http://m.yoyoenglish.cn/info_1262.html

收藏本頁】【打印】【關(guān)閉

本文章Word文檔下載:word文檔下載 python只需7行代碼就能爬取豆瓣電影的數(shù)據(jù)

用戶評論

客戶評價

專業(yè)的網(wǎng)站建設(shè)、響應(yīng)式、手機站微信公眾號開發(fā)

© 2010-2022 北京天晴創(chuàng)藝科技有限公司 版權(quán)所有 京ICP備16050845號-2   

關(guān)注公眾號 關(guān)注公眾號

進入手機版 進入手機版

主站蜘蛛池模板: 友谊县| 沙田区| 乾安县| 横峰县| 海原县| 青浦区| 潮安县| 会昌县| 泸州市| 渝中区| 两当县| 和龙市| 河北省| 丰顺县| 且末县| 平邑县| 阜南县| 赤城县| 长兴县| 应城市| 凌源市| 鄂温| 江陵县| 东兴市| 宝应县| 敖汉旗| 太康县| 福泉市| 大庆市| 诸暨市| 新密市| 和田县| 灵川县| 百色市| 甘孜| 天柱县| 定南县| 巧家县| 依安县| 武山县| 临城县|