python抓取电影天堂案例笔记
1.导入模块。
首先需要导入一些必要的模块,例如requests、beautifulsoup4等,具体代码如下:
```python。
import requests。
from bs4 import BeautifulSoup。
```。
2.获取页面。
使用()方法获取页面内容,可以通过修改url来获取不同的页面,具体代码如下:
```python。
res = (url)。
ding = 'gb2312'。
```。
在获取页面时需要注意页面的编码方式,通过ding来指定编码方式。
3.解析页面。
使用BeautifulSoup解析页面,可以通过CSS选择器和正则表达式来获取需要的信息。通过查看HTML源代码可以确定需要获取的标签和属性,具体代码如下:
```python。
soup = , 'html.parser')。
new_movies = soup.select('.co_content8 .ulink')。
```。
其中,.co_content8和.ulink是CSS选择器,表示获取class为co_content8的标签及其下属cl
ass为ulink的标签。获取到的结果是一个列表,可以遍历列表获取电影名称及其详情页链接。
```python。
for movie in new_movies:。
print('片名:'+ _text())。
print('详情页链接:'+ url + movie['href'])。
```。
4.获取详细信息。
根据详情页链接获取详细信息,可以通过()方法获取页面内容,再使用BeautifulSoup解析页面。同样可以通过CSS选择器和正则表达式来获取需要的信息。具体代码如下:
```python。
detail_url = url + movie['href']。
detail_res = (detail_url)。
ding = 'gb2312'。
detail_soup = BeautifulSoup(, 'html.parser')。
download_link = detail_soup.select('#Zoom td a')[0]['href']。
```。
综合以上几步,可以得到完整的代码如下:
```python。
import requests。
from bs4 import BeautifulSoup。
res = (url)。
ding = 'gb2312'。
soup = , 'html.parser')。
new_movies = soup.select('.co_content8 .ulink')。
for movie in new_movies:。
print('片名:'+ _text())。
print('详情页链接:'+ url + movie['href'])。
detail_url = url + movie['href']。
detail_res = (detail_url)。
ding = 'gb2312'。
detail_soup = BeautifulSoup(, 'html.parser')。
download_link = detail_soup.select('#Zoom td a')[0]['href']。
print('\n')。
```。
最后可以将结果保存到文件中,例如:
```python。
源代码大电影with open('', 'w', encoding='utf-8') as f:。
for movie in new_movies:。
f.write('片名:'+ _text() + '\n')。
f.write('详情页链接:'+ url + movie['href'] + '\n')。
detail_url = url + movie['href']。
detail_res = (detail_url)。
ding = 'gb2312'。
detail_soup = BeautifulSoup(, 'html.parser')。
download_link = detail_soup.select('#Zoom td a')[0]['href']。
f.write('\n')。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论