模仿老师的程序进行了《青春有你2》信息爬取,结果没有任何输出信息,请求大神指点!程序中只改过User-Agent部分
import json
import re
import requests
import datetime
from bs4 import BeautifulSoup
today = datetime.date.today().strftime('%Y%m%d')
def crawl_wiki_data():
"""
爬取百度百科中《青春有你2》中参赛选手信息,返回html
"""
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36 SE 2.X MetaSr 1.0'
}
url = 'https://baike.baidu.com/item/青春有你第二季'
#URL是指统一资源定位符。统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文 件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。
try:
repsonse = requests.get(url,headers=headers)
print(response.status_code)
#将一段文档传入BeautifulSoup的构造方法,就能得到一个文档的对象, 可以传入一段字符串
soup = BeautifulSoup(response.text,'lxml')
#返回的是class为table-view log-set-param的
和
#籍贯
star["zone"] = all_tds[1].text
#星座
star["constellation"] = all_tds[2].text
#身高
star["height"] = all_tds[3].text
#体重
star["weight"] = all_tds[4].text
#花语,去除掉花语中的单引号或双引号
flower_word = all_tds[5].text
for c in flower_word:
if c in error_list:
flower_word = flower_word.replace(c,'')
star["flower_word"] = flower_word
#公司
if not all_tds[6].find('a') is None:
star["company"] = all_tds[6].find('a').text
else:
star["company"] = all_tds[6].text
stars.append(star)
json_data = json.loads(str(stars).replace("\'","\""))
with open('work/' + today + '.json','w',encoding='UTF-8') as f:
json.dump(json_data,f,ensure_ascii=False) #以中文方式存储json
def crawl_pic_urls():
'''
爬取每个选手的百度百科图片,并保存
'''
# 读取选手的信息
with open('work/'+ today + '.json', 'r', encoding='UTF-8') as file:
json_array = json.loads(file.read())
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36 SE 2.X MetaSr 1.0'
}
for star in json_array:
pic_urls = []
name = star['name']
link = star['link']
#!!!请在以下完成对每个选手图片的爬取,将所有图片url存储在一个列表pic_urls中!!!
response = requests.get(link, headers=headers)
print(response.status_code)
soup = BeautifulSoup(response.text, 'lxml') # 获取每个选手百度百科的网页的html
pic = soup.find('div', {'class': 'summary-pic'}) # 找到图片的信息
img = pic.find('img')
# print(img)
pic_url = img['src']
print(pic_url)
pic_urls.append(pic_url)
#!!!根据图片链接列表pic_urls, 下载所有图片,保存在以name命名的文件夹中!!!
down_pic(name,pic_urls)
def down_pic(name,pic_urls):
'''
根据图片链接列表pic_urls, 下载所有图片,保存在以name命名的文件夹中,
'''
path = 'work/'+'pics/'+name+'/'
# path_test = 'work/'+'pics/test'
if not os.path.exists(path):
os.makedirs(path)
for i, pic_url in enumerate(pic_urls):
try:
pic = requests.get(pic_url, timeout=15)
string = str(i + 1) + '.jpg'
with open(path+string, 'wb') as f:
f.write(pic.content)
print('成功下载第%s张图片: %s' % (str(i + 1), str(pic_url)))
except Exception as e:
print('下载第%s张图片时失败: %s' % (str(i + 1), str(pic_url)))
print(e)
continue
def show_pic_path(path):
'''
遍历所爬取的每张图片,并打印所有图片的绝对路径
'''
pic_num = 0
for (dirpath,dirnames,filenames) in os.walk(path):
for filename in filenames:
pic_num += 1
print("第%d张照片:%s" % (pic_num,os.path.join(dirpath,filename)))
print("共爬取《青春有你2》选手的%d照片" % pic_num)
所有标签 tables = soup.find_all('table',{'class':'table-view log-set-param'}) crawl_table_title = "参赛学员" #根据“参赛学员”这个title来区分要截取的代码 for table in tables: #对当前“参赛学员”节点前面的标签和字符串进行查找 table_titles = table.find_previous('div').find_all('h3') for title in table_titles: if(crawl_table_title in title): return table except Exception as e: print(e)def parse_wiki_data(table_html): ''' 从百度百科返回的html中解析得到选手信息,以当前日期作为文件名,存JSON文件,保存到work目录下 ''' bs = BeautifulSoup(str(table_html),'lxml') all_trs = bs.find_all('tr') #'tr'来源于右键浏览器页面,点击审查元素,出现的网页代码中的HTML 标签。它包含一个或多个th或td元素 error_list = ['\'','\"'] #花语,去除掉花语中的单引号或双引号 stars = [] for tr in all_trs[1:]: #去掉all_trs[0]中的姓名、国家等标题内容 all_tds = tr.find_all('td') star = {} #姓名 star["name"] = all_tds[0].text #个人百度百科链接 star["link"] = 'https://baike.baidu.com' + all_tds[0].find('a').get('href')#姓名下面的元素
排版乱了……建议写成个AI Studio项目,把链接发出来
你看看是什么地方的问题,可以多加几个print然后测试一下
可以参考https://aistudio.baidu.com/aistudio/projectdetail/1526959
放链接
pic = soup.find('div', {'class': 'summary-pic'}) # 找到图片的信息
打印一下,pic出来的是什么数据呢?
是不是没有爬取到数据
耐心看看,
看了一下你这个代码应该是bs4的匹配要结合网页数据和bs4的内容进行查看
bs4资料:https://blog.csdn.net/weixin_45623093/article/details/105628483
《青春有你2》数据爬取与分析:https://aistudio.baidu.com/aistudio/projectdetail/1526959
还有下次有问题记得截图说明,这样子方便解答。某一部分不容易看
+1
大神你好,能更新一下代码吗?现在网页变了,爬不到任何内容。辛苦了!
前两天刚刚更新过哎,我看一下你一个小时以后试就行。
已经更新新版本
感谢感谢,非常感谢!
大神,您好,还是爬不到内容。百度百科的网页元素已经改变了,原来的
已经变更了,需要修改大神,您好,还是爬不到内容。百度百科的网页元素已经改变了,原来的table已经变更了,需要修改table才能爬取。麻烦了,请问能再修改一下吗?
大神,您好,还是爬不到内容。百度百科的网页元素已经改变了,原来的table已经变更了,需要修改table才能爬取。麻烦了,请问能再修改一下吗?
我早上跑了已经好了啊
看到了,给我30分钟,马上修改
怎么更改的?我的还是爬不到数据,下面的报错
encoding with 'idna' codec failed (UnicodeError: label empty or too long)
怎么更改的?我的还是爬不到数据,下面的报错
encoding with 'idna' codec failed (UnicodeError: label empty or too long)
没有改成功,还是有点问题。这两天有点事耽搁了,有空马上修复
小白同问。原网页有变化,没爬到任何信息,如何修改?