如何使用Python爬虫抓取手机APP的数据-电子发烧友网

大多数APP里面返回的是json格式数据，或者一堆加密过的数据。这里以超级课程表APP为例，抓取超级课程表里用户发的话题。

抓取APP数据包

表单：

私信小编01 领取完整项目代码！

表单中包括了用户名和密码，当然都是加密过了的，还有一个设备信息，直接post过去就是。

另外必须加header,一开始我没有加header得到的是登录错误，所以要带上header信息。

登录代码：

import urllib2 from cookielib import CookieJar loginUrl = 'http://120.55.151.61/V2/StudentSkip/loginCheckV4.ac tion' headers = { 'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8', 'User-Agent': 'Dalvik/1.6.0 (Linux; U; Android 4.1.1; M040 Build/JRO03H)', 'Host': '120.55.151.61', 'Connection': 'Keep-Alive', 'Accept-Encoding': 'gzip', 'Content-Length': '207', } loginData = 'phoneBrand=Meizu&platform=1&deviceCode=868033014919494&account=FCF030E1F2F6341C1C93BE5BBC422A3D&phoneVersion=16&password=A55B48BB75C79200379D82A18C5F47D6&channel=MXMarket&phoneModel=M040&versionNumber=7.2.1&' cookieJar = CookieJar() opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookieJar)) req = urllib2.Request(loginUrl, loginData, headers) loginResult = opener.open(req).read() print loginResult

登录成功会返回一串账号信息的json数据

和抓包时返回数据一样，证明登录成功

抓取数据

用同样方法得到话题的url和post参数

做法就和模拟登录网站一样。详见：http://my.oschina.net/jhao104/blog/547311

下见最终代码，有主页获取和下拉加载更新。可以无限加载话题内容。

#!/usr/local/bin/python2.7 # -*- coding: utf8 -*- """ 超级课程表话题抓取 """ import urllib2 from cookielib import CookieJar import json ''' 读Json数据 ''' def fetch_data(json_data): data = json_data['data'] timestampLong = data['timestampLong'] messageBO = data['messageBOs'] topicList = [] for each in messageBO: topicDict = {} if each.get('content', False): topicDict['content'] = each['content'] topicDict['schoolName'] = each['schoolName'] topicDict['messageId'] = each['messageId'] topicDict['gender'] = each['studentBO']['gender'] topicDict['time'] = each['issueTime'] print each['schoolName'],each['content'] topicList.append(topicDict) return timestampLong, topicList ''' 加载更多 ''' def load(timestamp, headers, url): headers['Content-Length'] = '159' loadData = 'timestamp=%s&phoneBrand=Meizu&platform=1&genderType=-1&topicId=19&phoneVersion=16&selectType=3&channel=MXMarket&phoneModel=M040&versionNumber=7.2.1&' % timestamp req = urllib2.Request(url, loadData, headers) loadResult = opener.open(req).read() loginStatus = json.loads(loadResult).get('status', False) if loginStatus == 1: print 'load successful!' timestamp, topicList = fetch_data(json.loads(loadResult)) load(timestamp, headers, url) else: print 'load fail' print loadResult return False loginUrl = 'http://120.55.151.61/V2/StudentSkip/loginCheckV4.action' topicUrl = 'http://120.55.151.61/V2/Treehole/Message/getMessageByTopicIdV3.action' headers = { 'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8', 'User-Agent': 'Dalvik/1.6.0 (Linux; U; Android 4.1.1; M040 Build/JRO03H)', 'Host': '120.55.151.61', 'Connection': 'Keep-Alive', 'Accept-Encoding': 'gzip', 'Content-Length': '207', } ''' ---登录部分--- ''' loginData = 'phoneBrand=Meizu&platform=1&deviceCode=868033014919494&account=FCF030E1F2F6341C1C93BE5BBC422A3D&phoneVersion=16&password=A55B48BB75C79200379D82A18C5F47D6&channel=MXMarket&phoneModel=M040&versionNumber=7.2.1&' cookieJar = CookieJar() opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookieJar)) req = urllib2.Request(loginUrl, loginData, headers) loginResult = opener.open(req).read() loginStatus = json.loads(loginResult).get('data', False) if loginResult: print 'login successful!' else: print 'login fail' print loginResult ''' ---获取话题--- ''' topicData = 'timestamp=0&phoneBrand=Meizu&platform=1&genderType=-1&topicId=19&phoneVersion=16&selectType=3&channel=MXMarket&phoneModel=M040&versionNumber=7.2.1&' headers['Content-Length'] = '147' topicRequest = urllib2.Request(topicUrl, topicData, headers) topicHtml = opener.open(topicRequest).read() topicJson = json.loads(topicHtml) topicStatus = topicJson.get('status', False) print topicJson if topicStatus == 1: print 'fetch topic success!' timestamp, topicList = fetch_data(topicJson) load(timestamp, headers, topicUrl)

结果：

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

APP

APP

+关注

关注
33

文章
1576

浏览量
72640
python

python

+关注

关注
56

文章
4805

浏览量
84928
爬虫

爬虫

+关注

关注
0

文章
82

浏览量
6959

IP地址数据信息和爬虫拦截的关联

IP地址数据信息和爬虫拦截的关联主要涉及到两方面的内容，也就是数据信息和爬虫。IP 地址数据信息的内容丰富，包括所属地域、所属网络运营商、访

发表于 12-23 10:13 •80次阅读

Python库解析：通过库实现代理请求与数据抓取

在Python中，有多个库可以帮助你实现代理请求和数据抓取。这些库提供了丰富的功能和灵活的API，使得你可以轻松地发送HTTP请求、处理响应、解析HTML/XML/JSON数据，以及进

发表于 10-24 07:54 •214次阅读

海外爬虫IP的合法边界：合规性探讨与实践

海外爬虫IP的合法边界主要涉及合规性探讨与实践。

发表于 10-12 07:56 •252次阅读

如何利用海外爬虫IP进行数据抓取

利用海外爬虫IP进行数据抓取需要综合考虑多个方面。

发表于 10-12 07:54 •245次阅读

详细解读爬虫多开代理IP的用途，以及如何配置！

爬虫多开代理IP是一种在爬虫开发中常用的技术策略，主要用于提高数据采集效率、避免IP被封禁以及获取地域特定的数据。

发表于 09-14 07:55 •528次阅读

单片机WiFi模块怎样连接手机APP

将单片机WiFi模块连接到手机APP通常涉及以下几个步骤：选择单片机和WiFi模块：选择合适的单片机（如Arduino, ESP32等）和WiFi模块（如ESP8266, ESP32等）。硬件

发表于 09-10 15:31 •1219次阅读

怎么导出python边缘计算中的APP？

怎么导出python边缘计算中的APP，想进行修改又找不到源码

发表于 07-25 06:13

使用ESP8266时，需要接收手机APP发送的数据，用什么AT指令？

在使用ESP8266时，需要接收手机APP发送的数据，不知道用什么AT指令？麻烦告知一下，谢谢了

发表于 07-17 07:14

网络爬虫,Python和数据分析

电子发烧友网站提供《网络爬虫,Python和数据分析.pdf》资料免费下载

发表于 07-13 09:27 •2次下载

用pycharm进行python爬虫的步骤

以下是使用PyCharm进行Python爬虫的步骤：安装PyCharm和Python 首先，您需要安装PyCharm和Python。PyCharm是一个流行的

发表于 07-11 10:11 •916次阅读

常见的数据采集工具的介绍

Scraping）网络爬虫是一种自动化的程序，用于从互联网上提取信息。它们可以访问网页，解析HTML内容，并从中提取所需的数据。 Scrapy : 一个快速且强大的Python框架，用于抓

发表于 07-01 14:51 •953次阅读

通过手机APP来组网成功后，如果Node断电了，下次上电是否还要用手机APP重新组网？

1.通过手机APP来组网成功后，如果Node断电了，下次上电是否还要用手机APP重新组网？ 2.手机AP

发表于 06-25 07:38

ESP32蓝牙发送的数据，手机接收不全怎么解决？

请教一个问题原来使用的是V3.5，ESP32作为蓝牙服务端，手机APP作为蓝牙客户端，一直没有问题。最近更新到了V4.4上，功能一样，手机APP向ESP32请求

发表于 06-18 06:39

python解析netflow数据到csv的流程详解

本文主要讲解了linux下通过tcpdump抓取netflow数据包，并将其导入到wireshark进行解析，然后通过wireshark导出数据为json文件，再通过python脚本将

发表于 05-01 11:18 •704次阅读

iot可以使用手机开发APP来云端控制吗？

iot可以使用手机开发APP来云端控制吗？

发表于 03-20 08:00

搜索历史

如何使用Python爬虫抓取手机APP的数据

评论