Notebook

网络爬虫

网络爬虫：通过编程语言，获取网页的html代码，通过分析代码获取需要的内容，这种操作为爬取网页内容，通过一些种子URL爬行扩充到整个Web，网路爬虫就像一只蜘蛛一样爬行在自己的网中。
这里通过一个案例，爬取分析网络数据：
需求：爬取虎扑网有关罗马队的帖子信息：

###########################代码区##############################

#罗马新闻专区
#新建爬取网站的RUL链接
RomaUrl = 'https://bbs.hupu.com/asroma-postdate'
#调用requests对象获取网页信息对象
Res = requests.get(RomaUrl) # 获取请求包的信息
Roma = Res.text #将网页对象转为text赋值给Roma
Soup = BeautifulSoup(Roma,'lxml') #导入bs4中的BeautifulSoup将text网页代码转为一个个对象形式，方便后面的提取需要的信息
#根据需要的要信息，分析转化为BeautifulSoup的内容信息，下面是获取a链接属性class="p-title"的条目组成一个数列
all_result = Soup.find_all('a',attrs={'class':['p-title']}) #把搜索到的每条数据导出来

RomaHref = [] #创建一个数列，这个数列用来装载需要帖子的title和url
NewCount = 0 #NewCount用来控制获取的条数，这里控制为10条

#循环获取每个数组中的值
for result in all_result:
if NewCount < 10 :
RomaTitle = [] #RomaTitle这数列用来将title、url放入到一个数列中
RomaTitle.append(result.text) #提取a中title部分
RomaTitle.append(result['href']) #提取a中href部分
RomaHref.append(RomaTitle) #将RomaTitle放入到RomaHref数列中，方便传到网页中显示
NewCount += 1
##############################代码区End################################

##############################Pycharm运行结果###########################

这是网络抓取的一个例子,通过例子可以发散，将网页中的链接存到url数列中，再爬取这些数列中的url，循环下去就可以爬取整个web，当然算法很复杂，需要花时间研究；