bs4是一个库(package),这个库文件夹里面有一个初始化py文件__init__.py,这个文件里面定义了一个class BeautifulSoup
在爬虫的时候会用到
实例化一个BeautifulSoup对象,soup
soup=BeautifulSoup(html,"lxml")#需要传入的两个参数,html是爬取的网页内容是str字符串格式##
这里的soup的类型显然就是BeautifulSoup类型的了
使用这个类型的方法,例如select_one(),select()
tag=soup.select_one("ul")
这里select_one()括号中传入的参数“ul”的意思是找出网页中标签ul里面的内容并且返回值,这里是只找了第一个ul标签
tag接收到返回值
tag的类型: <class 'bs4.element.Tag'>
在爬虫的时候会用到
实例化一个BeautifulSoup对象,soup
soup=BeautifulSoup(html,"lxml")#需要传入的两个参数,html是爬取的网页内容是str字符串格式##
这里的soup的类型显然就是BeautifulSoup类型的了
使用这个类型的方法,例如select_one(),select()
tag=soup.select_one("ul")
这里select_one()括号中传入的参数“ul”的意思是找出网页中标签ul里面的内容并且返回值,这里是只找了第一个ul标签
tag接收到返回值
tag的类型: <class 'bs4.element.Tag'>