关于作者及以往案例

关于我

6 年 c/python 程序开发经验,以前做银行服务器开发(使用 c),现在主做 web 后端开发和数据抓取(使用 python)。服务端开发经验丰富,擅长解决问题。

空闲时在淘宝开了个店铺帮人写代码抓数据,误打误撞进入了帮留学生写作业的行业,才发现国内外的教育差距很大,国外学生的作业复杂度对于学生来说,有时候还是比较难的,所以如果有需要的同学,可以找我帮忙哈,作者本人自己接活,自己做,负责认真的帮大家把作业做好。

主要作业方向

因为我主要擅长 c/python 程序开发,故主要接以 c/python 为开发语言的程序,其他任务暂时无法接待。

以往案例列表

案例列表见此

交易方式

交易方式可以才用淘宝支付宝担保交易的方式,也可以使用微信红包/支付宝转账等方式。
在确认交易方式前,你可以先把作业文档及相关数据资料等信息发送到我的邮箱,一般半个小时会有回复报价和完成的时间点等信息。

联系我

文档接收邮箱: [email protected]

微信(wechat): zenglsong

QQ: 86369340

旺旺ID: lylesong

淘宝店铺: https://shop115794951.taobao.com/
商品链接: https://item.taobao.com/item.htm?id=543397733956

代写程序-百度移动版网页搜索工具

需求

做 seo 时,需要监控一些关键词,查看他们在百度网页上的标题、描述、链接等信息,客户的需求是在手机版网页上查看。

需求分析及实现

整个需求很明确,从命令行或者文本文件中加载关键词,输入到百度移动版网页搜索框中,从搜索结果中提取需要的信息。

整个实现过程主要使用到的库包有:

  • requests # 网络网页请求
  • lxml # 解析网页,提取信息
  • argparse # 解析命令行参数

完成时间

2017/05/18 日上午

代写程序-自动提交知识产权投诉到美国亚马逊

需求

亚马逊网站有一个侵权商品投诉页面,用户可以在这里提交侵权的商铺、商品等信息。本需求是自动从已有配置文件中读取商品和要投诉的商家信息,然后提交给亚马逊。

需求分析及实现

亚马逊的网站做的很复杂,即使这样看起来很简单的需求,实现过程的步骤也很多。

第一个就是输入商品 id 后会出来销售该商品的卖家,这里是第一步要动态加载的信息。

第二个就是当信息输入完毕后,亚马逊会给提交资料上的邮箱发送一个验证码,需要输入此验证码后,才能继续后续的步骤,这里就需要程序自动登录邮箱,获取数据。

第三个就是当上述验证码获取到了,也提交给亚马逊后,还要组织复杂的 payload 给亚马逊。

至此,整个提交过程才算完成。

实现代码图如下所示:

完成时间

2017/05/15 日下午

代写程序-抓取微博用户及其评论及其所发微博信息

需求

抓取新浪微博的热门微博,在这些热门微博下,提取发表评论的人、他们发的评论、他们自己发的微博,把这些信息存储在不同的 csv 文件中,方便后续机器学习。

需求分析及实现

客户指明要求使用 scrapy 进行抓取,在实现时,第一个要解决的问题就是新浪微博的很多信息需要登录后才能查看,所以第一步就是登陆,获取到 cookies 信息。为了处理上的简单,使用移动版微博页面,而不是 pc 版的,数据提取时要方便很多。

下面是代码结构:

完成时间

2017/5/7 耗时大概 3 天。

代写程序-抓取美国亚马逊网站的商品评论信息

需求

用户提供美国亚马逊的商品 id,程序根据商品 id,抓取回来用户评论的所有信息,存储在 sqlite 中,并提供数据清洗功能。

需求分析及实现

需求明确,耗时部分主要是分析 amazon.com 网站的网页结构,数据提交时的参数,返回的数据中,如何提取出来需要的信息,同时还要实现对运行状态的控制,要求能够在程序失败后,重新启动程序后,还能够继续从上次失败的地方继续运行抓取程序。

同时程序还要能支持增量更新。

完成时间

2017/04/25 日上午

代写程序-抓取 123cha.com 的查询数据

需求

用户提供 excel 文件,内含域名列表,一行一条数据,需要提交这些数据到 123cha.com 去,查询 alexa 的一些数据,把查询回来的数据写入到 csv 文件中。

需求分析及实现

需求明确,耗时部分主要是分析 123cha.com 网站的报文结构等信息。程序支持多线程查询,也可以单线程查询。

实现代码图如下所示:

完成时间

2016/12/21 日上午

python 打包压缩文件

用 python 来压缩文件,可以使用 python 自带的包 zipfile,python 的说明文档在此

说一下我的实际使用代码,
首先创建压缩对象, z = zipfile.ZipFile(),它的原型是:
class zipfile.ZipFile(file[, mode[, compression[, allowZip64]]])
我们可以选择是否压缩,一般情况下,如果是压缩文本,可以选择压缩。

创建后的 ZipFile() 对象有一个 write() 方法,它的原型是:
ZipFile.write(filename[, arcname[, compress_type]])
这里就是把要压缩的文件名传递过来,然后进行压缩。

压缩完毕后,调用 close() 关闭打开的压缩文件。至此,整个压缩过程就结束了。

关于异常,主要是有文件是否可读、可写,是否存在等,下面是一个简单的例子代码。

python 程序渲染 markdown 文件到 HTML 的过程

python 程序来渲染 markdown 文件到 HTML 的过程

安装必备的软件

  1. markdowns
  2. pygments

主要使用如上两个软件包,其他软件包可以根据情况使用。

实际渲染时,为了让代码着色,还需要一些额外的操作,才能让最终显示的代码有颜色。

一些命令行命令

代写程序-政务新闻-大型数据抓取项目

需求

客户是 mit 的一个老师和博士,他的一个项目需要抓取国内政务网站的市长/书记他们的各种言行、会议、考察等各种工作信息,涉及的网站有 200+,客户明确要求使用 postgrepsql 进行存储,并能进行增量更新,还要支持导出为 json 格式的数据。

需求分析及实现

这个需求的难点主要在网站非常多,每个网站都有一套自己的规则需要维护,虽然很多时候规则有些通用的地方,但是还是要对每一个网站进行分析。这是最耗时的部分。

最后采用的是以 scrapy 为基础进行开发,对每一个网站编写一个数据提取配置文件。在实际运行时,根据预定义的网站列表,动态的导入抓取配置提取对应网站的数据,最后存储到数据库中。

整个项目前后大概花了一个月的时间开发完毕,那段时间,天天分析网站的数据的 xpath 结构,真是不想再回忆了。

最后的实现代码结构如下:

网站提取规则如下图所示:

完成时间

2016/1/20 耗时 月 1 个月。

celery 实践方面的内容记录

celery 实践方面的内容记录

配置

去年的一个项目中,使用到了 celery 的部分功能,当时主要是作为一个异步调度来使用的。最近的项目中需要定时任务,消息发布等功能,我就在项目中用上了 celery,又一次看了它的文档,这里做一个记录。

首先要说的是,celery 的 import 规则和一般情况不一样,需要按照文档上的方法来编写代码。

一般的 celery 工程的项目结构都是一个目录中包含了所有的 celery 相关的信息,然后在外层使用相关命令进行调度。

1
2
3
4
tasks/
├── __init__.py
├── celery.py
└── younixue_tasks.py

上面这样就是一个最简单的 celery 目录,在运行时,可以使用 celery -A tasks worker -l debug 这样的命令进行运行。

先来看看 celery.py 中的内容。这里以定时任务为模板,进行的配置。