python爬虫(中)--保存
前言
前面python爬虫(中)–提取,讲的是提取出来的数据保存进一个extracted_data,再保存进extracted_data_,变成一个list包含list的情况,当然你只提取一项,那就没有必要这么做了,可是我的项目中要求可能要提取十几二十项,我为了后面入库方便,所以前面做了这么一个工作。
到提取为止,基本爬虫差保存就完成了,什么是基本爬虫,基本爬虫=请求+提取+保存,而不考虑一些针对反反爬的策略制定等情况。现在我们请求函数有了,提取函数有了,现在就差一个保存函数了。我们这里选择的是保存到MySQL数据库中,当然你也可以保存成为.html等格式的文本,我们保存成数据库是为了后面方便使用考虑.不过在保存之前请认真考虑一下你的数据建模问题.
数据建模不是单独存在的,更多的是为了入库而准备的,根据自己需要的数据有多少种类和每种数据的特征,甚至还要考虑到大数据量存储的问题和未来要提数据的场景,来设计数据库中的表,这里工作很多,很考验数据结构的基本功,换言之是一个很费脑,而且要发挥想象力的步骤,所以做这一步的时候最好不要在昏昏欲睡的时候做,要在头脑清晰最为适宜.
保存到文件
简单提提文件保存,先上个保存成HTML文件为例子:
#! /usr/bin/env python
#encoding:utf-8
from os import makedirs
from os.path import exists
import codecs
import json
def save_As_HTMLFile(directory,extracted_data_):
if isinstance(extracted_data_,list) :
print 'the sourceCode you put in save_As_HTMLFile() is a list!!Here will transform list into string\n'
#json用在列表/字典的转unicode上
extracted_data_=json.dumps(extracted_data_,encoding="utf-8",ensure_ascii=False)
if not exists(directory):
makedirs(directory)
print 'Finish Making Directory ',directory
filename=directory+'extracted_data_from_phantomjs.html'
f=codecs.open(filename,'wb')#wb是以二进制写模式打开(打开前文件会被清空)更多的看下面注意第四点
print 'saving data...\n'
f.write(extracted_data_)#write()里面要放的是str/buffer,不能是JPEG或者其他奇奇怪怪的东西
print 'Saved.\n'
f.close()
return
要注意一下几点:
if isinstance(extracted_data_,list)这里是为了应付之前extracted_data_传进来是list的情况,如果这个if判断到传进来的extracted_data_ 是个列表,那么就返回True。然后用json模块中的json.dumps()的方法直接转换成字符串格式,unicode编码的文本~
codecs模块的应用,知道python的朋友应该知道其实不用codecs这个模块,把 f=codecs.open(filename,’wb’)换成f=open(filename,’wb’)也是一样的效果,那么为什么要用codecs.open()的方法呢?
答:先来讲讲历史,最早的时候只有open(),可是你也知道python2的编码问题是有多么蛋疼(所以学习python得善用type()方法和chardet.detect()),所以就有了codecs.open()。而io.open(),其实是因为python2的open()是由File模块提供的,而python3的open()是由io模块提供的。然后,python2.6引入python3的特性,为了区别于原来由File模块提供的open(),故叫io.open()。python3建议直接用open(),而python2.*用codecs.open()特别是有中文的情况下,如果希望代码能同时是兼容python2和3,就直接用codecs.open(),这就是为什么我们在上面代码里面用codecs.open()的原因,主要考虑compatible的问题。
codecs.open()和open()[指io.open()]使用上的区别?
Answer : io.open() doesn’t always produce unicode strings,if you pass ‘rb’ as the mode,the file is opened in a binary mode,not text mode,and read() method will return bytes. codecs.open() always open the file in binary mode.
open(),io.open()还是codecs.open()中模式名称用法是一样的,都可以直接参考open()参数mode那一项的设置——详细请见博客
P.s.既然讲到了python的文件保存,那就顺便说说python中获取用户输入的方法——raw_input()和input():
raw_input():任何都可以输入,无论输入什么都会当成字符串 input() : 希望用户的输入的是一个合法python表达式,比如你输入字符串时必须使用引号(单双引号都可以)引起来,不然就报SyntaxError
本质上input()还是调用的是raw_input()实现的,只是调用完raw_input()后再调用eval()
※除非是对input()有需求,不然一般情况推荐raw_input() 注意:Python3里面就只有input()了,一切用户输入皆视为字符串(str),而raw_input()弃用
SQL or NoSQL?
SQL or NoSQL? It’s a problem.
在SQL还是NoSQL选择上我是还没有深究的,初步是用关系型数据库的代表——MySQL来做着,但是关系型型数据库有着它的瓶颈,具体瓶颈在什么地方和到什么程度,我没有亲身去试验过,这里仅仅是说根据网上各种说法所得,貌似NoSQL(Redis/MongoDB为代表)比较适合大剂量的数据存储?至于应该怎么选择,各家优劣比拼,容我先在这里留个坑,等我过段时间折腾过后,再回来填坑。
16.11.19更新:这段时间对各种数据库的调查和接触,发现SQL语言是数据库的基础,无论你是SQL还是NoSQL还是现在HBase等等都离不开SQL(可能语法上会有些不一样,但是都是相似的,毕竟工具都是用熟悉了SQL的工程师开发的)
从Redis中拿数据
保存到MySQL
首先,为了更加具体而且没有那么枯燥,我先放张图——MySQL层次:
关于选择MySQL的理由:关系型数据库中最有代表性,而且开源中的战斗机就非MySQL关系型数据库莫属了,很多中小型数据量管理和存储的场合都能见到它的身影,所以网上会有很多支持和帮助,所以我们在SQL关系型数据库中就选择了MySQL入手。
如果要用关系型数据库,那么SQL语句是你首先要过的关,要向你对待Python或其他语言一样对待它,他和编程语言是同等重要的,要很好的操作数据库,必须把SQL弄熟,不介意的话可以参考我的这篇SQL语句基础 :-P
而在Python中则是通过MySQLdb 这个模块完成与数据库链接等操作,然而有些系统并没有装这个模块,那么就要sudo pip install MySQL-python安装之。[吐槽:为什么这里模块名和pip install的名字不一样?]
还有因为MySQLdb是C编写的,因此需要C的编译器,而且有可能在window中安装 MySQLdb时候会出现问题(Error:unable to find vcvarsall.bat),外加python3不支持MySQLdb, 所以你会发现有些项目会用到pymysql这个模块替代MySQLdb模块,因为这个模块是纯种python编写的的mysql链接模块,只要你的python能跑,它就能正常运作,具备对付python2和python3很强的兼容性,虽然效率上会比MySQLdb慢上许多,如果你对效率有需求,在python3的世界中还有几种MySQLdb的替代,比如mysqlclient(A fork of MySQLdb with Python3)或者使用MySQL提供的模块亦可. ORM?SQLAICherry?peewee?
16.10.8更新: pip install MySQL时候可能会出现错误
EnvironmentError: mysql_config not found
Command:"python setup.py egg_info" fail with Error Code 1 /tmp/pip-build-foo/MySQL-python/
解决办法:sudo apt-get install libmysqlclient-dev 少数情况下还要把python-dev装上
这里存入MySQL数据库实现起来其实并不复杂,而且都是套路:
def save_As_Mysql(extracted_data_):
print 'connecting to mysql....'
#套路一.链接数据库,别忘记开启MySQL服务
conn=MySQLdb.connect(
host='localhost',
port=3306,
user='root',
passwd='填你的Mysql数据库密码',
db='填你要接到的db名字',
charset='utf8'
)#charset指定连接编码格式
#套路二.创建游标
cur=conn.cursor()
#测试用
# sql_dropTable='drop table if exists '+str(from_city)+'到'+str(to_city)
# cur.execute(sql_dropTable)
# print '删除原表成功'
#套路三.创建表
sql_newTable='create table if not exists table_name(Field1 varchar(10),Field2 varchar(20))'
cur.execute(sql_newTable)
print '新表建立成功'
#套路四.往表中插入数据
sql_insert='insert into table_name values(%s,%s)'
cur.executemany(sql_insert,extracted_data_)#extracted_data_列表中列表
#cur.fetchall()
conn.commit()
cur.close()
conn.close()
更加准确来说其实MySQLdb要用到的只是套路一的链接数据库,套路二的创建游标,套路三的execute(sql,list/tuple)单次执行sql语句,套路四executemany(sql,[list,list,…]/[tuple,tuple,…])多次执行sql语句,conn.commit()把已经有的修改动作真实提交,cur.close()游标关闭,conn.close()链接关闭. 这些东西都是死的,都是一些包装的东西,我们真正起作用的地方是SQL语句的设计编写,MySQLdb只是负责execute或者executemany罢了
说明几点:
①MySQL中的字段类型之字符串
1.char(n):
定长,char不管实际value长度,都会占用固定的几个字符空间,速度快,而且处理字符串尾部空格,超过设置长度n的部分会截断
2.varchar(n):
变长,速度慢,不处理字符串尾部空格(UpperLimit:65535字节),超过设置长度n的部分会截断
3.text:
速度慢,不处理字符串尾部空格,而且会用额外空间去存放数据长度这个量
P.s.char(n)和varchar(n)中的n代表字符个数,并非代表字节个数,当使用中文(utf-8)时,意味着可以插入m个汉字,但是实际上会占用3m个字节,当然如果只是英文的话就是m个字母,实际上占用m个字节
当超过255长度后,varchar和text没有区别,只需要考虑两者类型和特性。
②SQL语句是str格式的
③mysql默认是lantin1编码,因为是由瑞典开发的.要改变的话,在mysql的shell下输入 set names utf8
④还有个花了我很久去解决的Error,我一定要在这里说出来- -#:
ProgrammingError:not all arguments converted during string formatting
TypeError:not all arguments converted during string formatting
解决办法:第一,请仔细check一下你的SQL语句有木有写错!第二,cur.execute()和cur.executemany()的区别和用法有没有弄清楚!
很不幸,我就是死在第二点,所以我要特别地在这里说说这两种的区别:
①cur.execute(sql,list/tuple),这里的list不能是那种list包括list的状况,只能单纯的一个list,比如[“16-8-26”,”16年08月30日”]这样的,而不是[[“16-8-26”,”16年08月30日”],[“16-8-26”,”16年08月31日”]]这样的列表嵌套列表,不然以我被它折腾了我一天的经验来看,分分钟给你报not all arguments converted during string formatting 。
②cur.executemany(sql,list-list/list-tuple),所谓list-list就是[[“16-8-26”,”16年08月30日”],[“16-8-26”,”16年08月31日”]]这种了,第一次就会取出list中的第一个list——[“16-8-26”,”16年08月30日”],过来就像execute时候一样,把这个取出的list中每一项取出放到前面的%s(占位符)位置,弄完了就去最外层list的第二个list,以此类推….