init

5 years ago · c70bbf113d
commit c70bbf113d
9 changed files with 779 additions and 0 deletions
--- a/.gitignore
+++ b/.gitignore
@ -0,0 +1,131 @@
+# Created by .ignore support plugin (hsz.mobi)
+### Python template
+# Byte-compiled / optimized / DLL files
+__pycache__/
+*.py[cod]
+*$py.class
+
+# C extensions
+*.so
+
+# Distribution / packaging
+.Python
+build/
+develop-eggs/
+dist/
+downloads/
+eggs/
+.eggs/
+lib/
+lib64/
+parts/
+sdist/
+var/
+wheels/
+pip-wheel-metadata/
+share/python-wheels/
+*.egg-info/
+.installed.cfg
+*.egg
+MANIFEST
+
+# PyInstaller
+#  Usually these files are written by a python script from a template
+#  before PyInstaller builds the exe, so as to inject date/other infos into it.
+*.manifest
+*.spec
+
+# Installer logs
+pip-log.txt
+pip-delete-this-directory.txt
+
+# Unit test / coverage reports
+htmlcov/
+.tox/
+.nox/
+.coverage
+.coverage.*
+.cache
+nosetests.xml
+coverage.xml
+*.cover
+.hypothesis/
+.pytest_cache/
+
+# Translations
+*.mo
+*.pot
+
+# Django stuff:
+*.log
+local_settings.py
+db.sqlite3
+db.sqlite3-journal
+
+# Flask stuff:
+instance/
+.webassets-cache
+
+# Scrapy stuff:
+.scrapy
+
+# Sphinx documentation
+docs/_build/
+
+# PyBuilder
+target/
+
+# Jupyter Notebook
+.ipynb_checkpoints
+
+# IPython
+profile_default/
+ipython_config.py
+
+# pyenv
+.python-version
+
+# pipenv
+#   According to pypa/pipenv#598, it is recommended to include Pipfile.lock in version control.
+#   However, in case of collaboration, if having platform-specific dependencies or dependencies
+#   having no cross-platform support, pipenv may install dependencies that don't work, or not
+#   install all needed dependencies.
+#Pipfile.lock
+
+# celery beat schedule file
+celerybeat-schedule
+
+# SageMath parsed files
+*.sage.py
+
+# Environments
+.env
+.venv
+env/
+venv/
+ENV/
+env.bak/
+venv.bak/
+
+# Spyder project settings
+.spyderproject
+.spyproject
+
+# Rope project settings
+.ropeproject
+
+# mkdocs documentation
+/site
+
+# mypy
+.mypy_cache/
+.dmypy.json
+dmypy.json
+
+# Pyre type checker
+.pyre/
+
+/.idea/
+/log/
+/login.png
+*.xlsx
--- a/Crawler.py
+++ b/Crawler.py
@ -0,0 +1,48 @@
+# 手机爬虫
+import gzip
+import zlib
+
+
+class MobilePhoneCrawler():
+    def __init__(self) -> None:
+        super().__init__()
+        # 限制5000条数据
+        self._max_count = 5000
+        # 手机列表数据
+        self._mobile_list = []
+
+    @property
+    def max_count(self):
+        return self._max_count
+
+    @max_count.setter
+    def max_count(self, value):
+        self._max_count = value
+
+    @property
+    def mobile_list(self):
+        return self._mobile_list
+
+    # 获取列表数据
+    def get_page(self):
+        pass
+
+    # 获取手机详情数据
+    def get_mobile(self, base_url,param_url,**kwargs):
+        pass
+
+    # 保存手机数据
+    def save_mobile(self, mobile):
+        pass
+
+    def get_req(self,url,**kwargs):
+        pass
+
+    # 解压网页数据
+    def uzipData(self, data):
+        if data.startswith(b'\x1f\x8b'):
+            return gzip.decompress(data)
+        elif data.startswith(b'\xec\xbd'):
+            return zlib.decompress(data, -zlib.MAX_WBITS)
+        else:
+            return data
--- a/chromedriver.exe
+++ b/chromedriver.exe
--- a/config.ini
+++ b/config.ini
@ -0,0 +1,23 @@
+[file]
+;日志文件名
+logFile = log.txt
+[selenium]
+;chrome浏览器执行路径
+binary_location = I:\ChromeUpdater\chrome.exe
+;浏览器用户数据路径
+user_data_dir=I:\ChromeUpdater\User Data
+[excel]
+;采集数据报表
+file1=excel1.xlsx
+;清洗脏数据报表
+file2=excel2.xlsx
+;参数列表
+param_name=手机名称,参考价格,电商报价,上市时间,网友综合评分,屏幕尺寸,机身容量,屏幕色数,运营商支持,网络模式,SIM卡类型,WiFi,蓝牙,手机类型,机身结构,电池类型,电池更换,屏幕材质,屏幕分辨率,像素密度,触控方式,触摸特性,操作系统,CPU型号,核心数,CPU制程,运行内存,容量扩展,传感器类型,后置相机,前置相机,变焦,闪光灯,视频拍摄,拍照特性,视频格式,视频播放,音乐格式,图片格式,文档格式,GPS,感应器,USB接口,耳机接口,无线连接,日常功能,键盘类型,输入方式,输入法,包装清单
+;非空参数个数(从左到右保留指定个数的参数)
+param_required_index=8
+;达到指定缓冲数据量写入一次报表
+data_size=10
+;线程池大小
+thread_count=5
+;采集数据量
+max_count=30
--- a/config/config.py
+++ b/config/config.py
@ -0,0 +1,31 @@
+import configparser
+import logging
+from logging.handlers import TimedRotatingFileHandler
+import os
+BASE_DIR = os.path.dirname(os.path.dirname(os.path.abspath(__file__)))
+
+cf = configparser.ConfigParser()
+config_path=BASE_DIR+"//config.ini"
+if not os.path.exists(config_path):
+    raise Exception("配置文件:%s不存在" % config_path)
+cf.read(config_path,encoding='utf-8')
+logFile = cf.get('file', 'logFile')
+logger=logging.getLogger()
+logger.setLevel(logging.INFO)
+def init():
+    log_format=logging.Formatter(fmt="%(asctime)s %(levelname)s : %(message)s",datefmt='%Y-%m-%d %H:%M:%S')
+    # 在控制台打印日志
+    streamHandler = logging.StreamHandler()
+    streamHandler.setFormatter(log_format)
+    logger.addHandler(streamHandler)
+
+    logpath=BASE_DIR+"\\log\\"
+    if not os.path.exists(BASE_DIR+"\\log\\"):
+        os.mkdir(logpath)
+
+    timedRotatingFileHandler=TimedRotatingFileHandler(filename=logpath+"all.log",when='H',interval=1,encoding='utf-8')
+    timedRotatingFileHandler.setFormatter(log_format)
+
+    logger.addHandler(timedRotatingFileHandler)
+
+
--- a/config/log.py
+++ b/config/log.py
@ -0,0 +1,21 @@
+import time
+
+from config.config import init
+from config.config import logger
+
+start = int(time.time())
+init()
+
+def getRunTimeInt():
+    return (int(time.time()) - start)
+
+def getRunTime():
+    return '程序已经执行%d秒' % (int(time.time()) - start)
+
+
+def writeInfo(msg):
+    logger.info('%s\t(%s)' % (msg, getRunTime()))
+
+
+def writeError(msg):
+    logger.error('%s\t(%s)' % (msg, getRunTime()))
--- a/main.py
+++ b/main.py
@ -0,0 +1,501 @@
+import gzip
+import json
+import os
+import random
+import re
+import threading
+import time
+import zlib
+
+import io
+from typing import Optional, Callable, Any, Iterable, Mapping
+
+import requests
+import win32api
+import win32con
+from PIL import Image
+from bs4 import BeautifulSoup
+# 手机实体类
+from openpyxl import load_workbook, Workbook
+from pynput.mouse import Controller, Button
+from selenium.common.exceptions import NoSuchElementException
+from selenium.webdriver.chrome import webdriver
+from selenium.webdriver.chrome.options import Options
+from urllib3.exceptions import HeaderParsingError
+
+from Crawler import MobilePhoneCrawler
+from config.config import cf, config_path
+from config.log import writeInfo, writeError
+from bs4 import BeautifulSoup
+import re
+
+headers = {
+    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36',
+    'cookie': 'hng=CN%7Czh-CN%7CCNY%7C156; lid=tb84443556; enc=Di1rYCRWDQZC0UbccH38rIzuBg8LLFGKPSeQNu0fJ6Atw1lfF%2BtBE6Jm3vKtkZ%2FcJwoY%2FA2OAFq1CCgzrB0Wmg%3D%3D; t=2ce95276273d2f0fec4b735114efb9f0; uc3=id2=UonSf2s8K7H57A%3D%3D&nk2=F5RNYQezF9ZVJA%3D%3D&lg2=URm48syIIVrSKA%3D%3D&vt3=F8dByuPZuePp%2FK4exO4%3D; tracknick=tb84443556; uc4=nk4=0%40FY4Gtg6GE3gLVPH74U0sgDg9VVYt&id4=0%40UOE4tAnGHWIKt7PI5bS6f4noV%2Bbp; lgc=tb84443556; _tb_token_=e83ebbe73eeff; cookie2=170434fc3c4cae5b8d05c6ca3e035a7d; cna=3uL0FRGpQX4CAdoUCaGR7Dw2; UM_distinctid=16d0a0bd4f67e9-0657eeb9eeb382-5373e62-384000-16d0a0bd4f7aff; otherx=e%3D1%26p%3D*%26s%3D0%26c%3D0%26f%3D0%26g%3D0%26t%3D0; _med=dw:2560&dh:1440&pw:2560&ph:1440&ist:0; cq=ccp%3D1; swfstore=175036; res=scroll%3A1613*5900-client%3A1613*924-offset%3A1613*5900-screen%3A2560*1440; CNZZDATA1256793290=2086205104-1567833369-%7C1567844169; pnm_cku822=098%23E1hvKpvUvbpvUpCkvvvvvjiPRFS96jtjn2MWsjD2PmPp1jr8RLqwtjY8RFdUsjtbRpGCvvLMMQvvmphvLhbyi9mFecXPjV5vsEe4jVDQpGoHbdiQpznCwaZOecXPjV5vsEe4jVDQpYLhbdiQpzwBwaZOecEvjV5vsCkwjVDQpGFvbdiQpzvxwa7ivpvUphvhrpcsXvmEvpvVpyUUCE%2BfKphv8hCvCbyvvh89phvOJpvvpYYvpm9vvvCHtZCv8vvvvhcDphvOKpvvBHvCvpvVphhvvvvvRphvChCvvvm5vpvhphvhHv%3D%3D; isg=BHBwqfKM2QBI7oUELIuAZ-OhQT7CuVQDVfnti2rBAUuPJRHPEs91k6SXeW3gtQzb; l=cBO-RSocq17jyErCBOCZlurza77TvIRAguPzaNbMi_5QN1TQITQOkrDBxe96cjWdtj8B4JuaUMv9-etuigILNzGHtBUV.'
+}
+
+# 获取字典cookie
+cookies = headers['cookie'].split(';')
+cookie_list = []
+for cookie in cookies:
+    cookie_list.append({'name': cookie.split('=')[0], 'value': cookie.split('=')[1]})
+
+
+# 天猫手机爬虫
+# https://list.tmall.com/search_product.htm?q=%CA%D6%BB%FA&click_id=%CA%D6%BB%FA&from=mallfp..pc_1.7_hq&spm=875.7931836%2FB.a1z5h.8.66144265MD9ShM
+class TmallCrawler(MobilePhoneCrawler):
+
+    def __init__(self) -> None:
+        super().__init__()
+        # 手机实体数据
+        self.session = requests.Session()
+        # 登录
+        # self.login()
+        self.get_page()
+
+    '''
+    登录
+    '''
+
+    def login(self):
+        # 获取验证码图片
+        login_url = 'https://qrlogin.taobao.com/qrcodelogin/generateQRCode4Login.do?from=tmall&appkey=00000000&umid_token=T4C16243DC287A311CA928E0D5EA177D443B864009178BBAA55A4CB86A4'
+        writeInfo(login_url)
+        login_res = self.session.get(login_url)
+        res_content = login_res.content.decode()
+        res_json = json.loads(res_content[res_content.index("{"):res_content.index("}") + 1])
+        writeInfo(json.dumps(res_json, indent=1))
+        img_url = res_json["url"]
+        img_res = self.session.get("http:%s" % img_url)
+        if img_res.status_code == 200:
+            img_name = 'login.png'
+            # 保存二维码图片
+            with open(img_name, 'wb') as file:
+                file.write(img_res.content)
+            # 打开二维码图片
+            Image.open(img_name).show()
+            win32api.MessageBox(0, "请打开手机淘宝扫描二维码", "提醒", win32con.MB_ICONWARNING | win32con.MB_SYSTEMMODAL)
+            while True:
+                login_url = "https://qrlogin.taobao.com/qrcodelogin/qrcodeLoginCheck.do?lgToken={0}&defaulturl=https%3A%2F%2Fwww.tmall.com".format(
+                    res_json['lgToken'])
+                writeInfo("login_url:{0}".format(login_url))
+                check_login_res = self.session.get(login_url)
+                # 检查扫码结果
+                if check_login_res.status_code == 200:
+                    check_login_res_json = json.loads(check_login_res.content.decode())
+                    writeInfo(json.dumps(check_login_res_json, indent=1))
+                    if check_login_res_json['code'] == '10006':
+                        # 扫码成功
+                        check_login_url = check_login_res_json['url']
+                        writeInfo("check_login_url={0}".format(check_login_url))
+                        login_res = self.session.get(check_login_url)
+                        if login_res.status_code == 200:
+                            # 重定向登陆身份验证
+                            login_res_html = BeautifulSoup(login_res.content, 'html.parser')
+                            check_url = login_res_html.select_one("iframe")["src"]
+                            writeInfo("check_url={0}".format(check_url))
+                            # 登录身份验证
+                            check_login_res = self.session.get(check_url)
+                            if check_login_res.status_code == 200:
+                                check_login_res_content = check_login_res.content.decode()
+                                # 阿里巴巴集团 |  身份验证
+                                verify_modes_url = re.search("http.*verify_modes.*=",
+                                                             check_login_res_content).group() + '1'
+                                verify_modes_res = self.session.get(verify_modes_url)
+                                if verify_modes_res.status_code == 200:
+                                    verify_modes_res_content = verify_modes_res.content.decode()
+                                    if '你最近购买过什么商品' in verify_modes_res_content:
+                                        raise Exception("触发图片验证，模拟请求失败")
+                                    else:
+                                        win32api.MessageBox(0, "请在手机淘宝上点击确认按钮登录", "提醒",
+                                                            win32con.MB_ICONWARNING | win32con.MB_SYSTEMMODAL)
+                                        # 检测手机淘宝确认状态
+                                        htoken = re.search("htoken\".*[a-zA-Z]", verify_modes_res_content).group()
+                                        htoken = htoken[htoken.index(":") + 2:]
+                                        while True:
+                                            time.sleep(1)
+                                            check_status_res = self.session.get(
+                                                "https://passport.taobao.com/iv/onekey/check_status.do?htoken={0}".format(
+                                                    htoken))
+                                            if check_status_res.status_code == 200:
+                                                check_status_res_json = json.loads(check_status_res.content.decode())
+                                                if check_status_res_json['content']['code'] == '1':
+                                                    login_safe_res = self.session.get(
+                                                        check_status_res_json['content']['url'])
+                                                    if login_safe_res.status_code == 200:
+                                                        # login_safe_res_content=login_safe_res.content.decode(login_safe_res.apparent_encoding)
+                                                        # login_safe_href=re.search("https.*pass.tmall.com.*\w",login_safe_res_content).group()
+                                                        # index_res = self.session.get(login_safe_href)
+                                                        writeInfo("登录成功")
+                                                        break
+                                                    else:
+                                                        raise Exception("模拟登陆请求失败！！！")
+                                                else:
+                                                    writeInfo(json.dumps(check_status_res_json, indent=1))
+                                            else:
+                                                raise Exception("模拟登陆请求失败！！！")
+                                        break
+                                else:
+                                    raise Exception("模拟登陆请求失败！！！")
+                            else:
+                                raise Exception("模拟登陆请求失败！！！")
+                        else:
+                            raise Exception("模拟登陆请求失败！！！")
+                    elif check_login_res_json['code'] == '10004':
+                        self.login()
+                time.sleep(1)
+        else:
+            raise Exception("获取登陆二维码图片失败")
+
+    '''
+    获取分页数据
+    url:分页url
+    '''
+
+    def get_page(self):
+        # 商品列表页地址
+        domain = "https://list.tmall.com/search_product.htm"
+        url = '{0}?q=%CA%D6%BB%FA&type=p&vmarket=&spm=875.7931836%2FB.a2227oh.d100&xl=shouji_1&from=mallfp..pc_1_suggest'.format(
+            domain)
+        while True:
+            # 获取分页响应数据
+            res = self.session.get(url, headers=headers)
+            # 判断响应状态码200才做处理
+            if res.status_code == 200:
+                try:
+                    # 使用BeautifulSoup解析html
+                    res_html = BeautifulSoup(res.content, 'html.parser')
+                    # 验证码检测
+                    if 'security-X5' == res_html.select_one("title").text:
+                        self.clickCaptcha(url)
+                    # 获取当前页
+                    current_page = res_html.select_one("b[class=ui-page-cur]")
+                    writeInfo("开始解析第{0}页的数据,url:{1}".format(current_page.text, url))
+                    # 获取商品列表里的每个超链接
+                    product_hrefs = res_html.select("#J_ItemList .productTitle>a")
+                    for product_href in product_hrefs:
+                        # 轮询超链接获取商品详情数据
+                        self.get_mobile("https:{0}".format(product_href['href']))
+                        # 超过指定数据量结束循环
+                        if len(self.mobile_list) == self.max_count:
+                            break
+                except Exception as e:
+                    writeError(e)
+            else:
+                writeError("获取分页信息失败，url:%s响应状态码：%d" % (url, res.status_code))
+            url = "{0}{1}".format(domain, current_page.find_next_siblings()[0]['href'])
+
+    '''
+    滑动认证
+    res_html：滑动验证码页面源代码
+    url：滑动验证码页面url
+    '''
+
+    def clickCaptcha(self, url):
+        try:
+            chrome_options = Options()
+            chrome_options.binary_location = cf.get('selenium', 'binary_location')
+            # 以root权限运行
+            chrome_options.add_argument('--no-sandbox')
+            chrome_options.add_argument('--disable-dev-shm-usage')
+            # chrome_options.add_argument('--headless')
+            # 设置用户数据路径
+            chrome_options.add_argument('--user-data-dir={0}'.format(cf.get('selenium', 'user_data_dir')))
+            # 不加载图片
+            chrome_options.add_argument('blink-settings=imagesEnabled=false')
+            # 禁用gpu加速
+            chrome_options.add_argument('--disable-gpu')
+            # 最大化
+            chrome_options.add_argument('--start-maximized')
+            # 全屏模式
+            chrome_options.add_argument('start-fullscreen')
+            # 设置为开发者模式，防止被识别出来使用了Selenium
+            chrome_options.add_experimental_option('excludeSwitches', ['enable-automation'])
+            driver = webdriver.WebDriver(options=chrome_options, service_log_path="I:\ChromeUpdater\selenium.log")
+            # driver.set_window_rect(0,0,1024,768)
+            # 访问滑动验证页面
+            driver.get(url)
+            try:
+                # 获取滑块
+                nc_1_n1z = driver.find_element_by_css_selector("#nc_1_n1z")
+                # 获取滑动条
+                nc_1__scale_text = driver.find_element_by_css_selector("#nc_1__scale_text")
+                # 滑块坐标中心
+                mouse = Controller()
+                # 移动到滑块坐标中心
+                x = nc_1_n1z.rect['x'] + nc_1_n1z.rect['width'] / 2
+                y = nc_1_n1z.rect['y'] + nc_1_n1z.rect['height'] / 2
+                mouse.position = (x, y)
+                time.sleep(0.5)
+                mouse.press(Button.left)
+                time.sleep(0.5)
+                mouse.move(x + nc_1__scale_text.rect['width'] - nc_1_n1z.rect['width'], y)
+                time.sleep(0.5)
+                mouse.release(Button.left)
+                while True:
+                    if len(driver.find_elements_by_css_selector(".errloading")) > 0:
+                        driver.quit()
+                        self.clickCaptcha(url)
+                        break
+                    else:
+                        pass
+                        # sub_slide_width = random.randint(30, 50)
+                        # action.move_by_offset(sub_slide_width, 0).perform()  # 移动滑块
+                        # start += sub_slide_width
+                    time.sleep(random.randint(1, 10) / 10)
+                cookie_list = driver.get_cookies()
+                # 关闭浏览器
+                driver.quit()
+            except NoSuchElementException as e:
+                writeError(e)
+                driver.quit()
+                self.clickCaptcha(url)
+        except Exception as e:
+            writeError(e)
+            raise Exception("模拟滑动验证失败")
+
+    '''
+    获取手机详情数据
+    url：手机链接
+    '''
+
+    def get_mobile(self, url, param_url=None, **kwargs):
+        res = self.session.get(url)
+        if res.status_code == 200:
+            res_html = BeautifulSoup(res.content, 'html.parser')
+            # 验证码检测
+            if 'security-X5' == res_html.select_one("title").text:
+                self.clickCaptcha(url)
+            # 获取手机规格参数
+            # 判断手机是否有规格参数
+            if res_html.select_one("#J_Attrs") is None:
+                writeInfo("手机详情url：%s没有规格参数" % url)
+            else:
+                try:
+                    ths = res_html.select("table:contains('规格参数') tbody>tr:not([class='tm-tableAttrSub']) th")
+                    # 轮询规格参数表格里的每一行参数
+                    mobile_dict = {}
+                    for th in ths:
+                        if 'colspan' in th.attrs:
+                            continue
+                        # 字典存储规格参数
+                        key = str(th.text).strip()
+                        value = str(th.next_sibling.text).strip()
+                        mobile_dict[key] = value
+                    # 存放到列表里
+                    self.mobile_list.append(mobile_dict)
+                    writeInfo("添加手机:{0}信息".format(str(res_html.select_one("div[class=tb-detail-hd]>h1").text).strip()))
+                except Exception as e:
+                    writeError(e)
+        else:
+            writeError("手机url:%s响应状态码：%d" % (url, res.status_code))
+
+    # 保存手机数据
+    def save_mobile(self, mobile):
+        self.mobile_list.append(mobile)
+
+
+# 评测中心手机爬虫
+# http://product.cnmo.com/all/product.html
+class CnmoCrawler(MobilePhoneCrawler):
+    def __init__(self) -> None:
+        super().__init__()
+        self.threads = []
+        self.threadLock = threading.Lock()
+        try:
+            # 线程池大小
+            self.thread_count = int(cf.get('excel', 'thread_count'))
+            # 数据指定缓存数写入一次excel
+            self.data_size = int(cf.get('excel', 'data_size'))
+            # 获取文件保存路径
+            self.file1 = cf.get('excel', 'file1')
+            self.file2 = cf.get('excel', 'file2')
+            # 获取保存参数列表
+            self.param_name_list = cf.get('excel', 'param_name').split(',')
+            # 获取非空参数个数
+            self.param_required_index = int(cf.get('excel', 'param_required_index'))
+            #     采集数据量
+            self.max_count = int(cf.get('excel', 'max_count'))
+        except Exception as e:
+            writeError("初始化参数失败，异常信息{0}，请检查配置文件{1}的配置".format(e, config_path))
+            raise
+            # 清空上次采集数据
+        if os.path.exists(self.file1):
+            os.remove(self.file1)
+        if os.path.exists(self.file2):
+            os.remove(self.file2)
+
+    def get_page(self):
+        # 起始页链接
+        start_url = 'http://product.cnmo.com/all/product.html'
+        # 下一页链接
+        next_page_url = None
+        while True:
+            current_page_url = start_url if next_page_url is None else next_page_url
+            writeInfo("开始解析列表页：{0}".format(current_page_url))
+            # 调用解析器解析网页请求体
+            res = self.get_req(current_page_url)
+            # 判断响应状态码，200正常返回
+            if res is not None and res.status_code == 200:
+                try:
+                    writeInfo("列表页：{0}解析成功".format(current_page_url))
+                    res_html = BeautifulSoup(self.uzipData(res.content), 'html.parser')
+                    # 解析列表数据
+                    li_s = res_html.select("ul.all-con-con-ul.cf>li")
+                    for li in li_s:
+                        if len(self.mobile_list) > self.max_count:
+                            return
+                        p = li.select_one('p.red')
+                        # 多线程获取手机详情参数
+                        time_to_market = re.search('\d{4}年\d{2}月', p.text)
+                        thread = myThread(self, 'http:{0}'.format(li.select_one('a.name')['href']),
+                                          'http:{0}'.format(li.select_one('div.info>a:contains(参数)')['href']),
+                                          上市时间=None if time_to_market is None else time_to_market.group())
+                        thread.start()
+                        if len(self.threads) == self.thread_count:
+                            for t in self.threads:
+                                t.join()
+                            writeInfo("清空线程池")
+                            self.threads.clear()
+
+                        self.threads.append(thread)
+
+                    #         获取下一页链接
+                    next_page_url = 'http:{0}'.format(res_html.select_one(".pnext")["href"])
+                except Exception as e:
+                    writeError("解析列表页出现异常信息：{0}".format(e))
+            else:
+                raise Exception("列表页：{0}解析失败".format(current_page_url))
+
+    def run(self):
+        self.get_page()
+        writeInfo('采集数据完毕，开始清洗脏数据')
+        self.clear_data()
+        writeInfo('清洗脏数据完毕')
+
+    def get_mobile(self, base_url, param_url, **kwargs):
+        # 字典存储手机详细参数
+        param_dict = {}
+        writeInfo("开始解析手机详情参数页{0}".format(param_url))
+
+        # 获取网友综合评分
+        score_res = self.get_req(base_url)
+        if score_res is not None and score_res.status_code == 200:
+            score_res_html = BeautifulSoup(self.uzipData(score_res.content), 'html.parser')
+            param_dict['网友综合评分'] = score_res_html.select_one('div.pro-comm-stars').find_next('span',
+                                                                                             {'class': 'red'}).text
+        mobile_res = self.get_req(param_url)
+
+        # 判断响应状态码，200正常返回
+        if mobile_res is not None and mobile_res.status_code == 200:
+            # 调用解析器解析网页请求体
+            try:
+                mobile_res_html = BeautifulSoup(self.uzipData(mobile_res.content), 'html.parser')
+                phone_name = mobile_res_html.select_one('#proName>a').text
+                param_dict['手机名称'] = phone_name
+                writeInfo("开始解析手机{0}详细参数".format(phone_name))
+                #     参考价格
+                param_dict['参考价格'] = mobile_res_html.select_one('span:contains(参考价格)').find_next().text
+                #    电商报价
+                param_dict['电商报价'] = mobile_res_html.select_one('span:contains(电商报价)').next_sibling.strip()
+                # 获取参数名
+                param_name_list = mobile_res_html.select('div.right>p')
+                for param_name in param_name_list:
+                    # 获取参数值
+                    param_dict[param_name['paramname']] = param_name['paramvalue']
+                # 获取锁，用于线程同步
+                self.threadLock.acquire()
+                self.save_mobile(dict(param_dict, **kwargs))
+                # 释放锁，开启下一个线程
+                self.threadLock.release()
+            except Exception as e:
+                writeError("解析手机出现异常信息：{0}".format(e))
+        else:
+            writeError("解析手机详情参数页{0}失败".format(param_url))
+
+    def save_mobile(self, mobile, ingore=False):
+        self.mobile_list.append(mobile)
+        writeInfo("当前已爬取{0}台手机".format(len(self.mobile_list)))
+        if not ingore and len(self.mobile_list) % self.data_size == 0:
+            self.save_excel(self.mobile_list[-self.data_size:])
+        elif ingore and len(self.mobile_list) % self.data_size != 0:
+            self.save_excel(self.mobile_list[-(len(self.mobile_list) % self.data_size):])
+        else:
+            writeInfo('缓存数据不足{0}条或没有剩余数据，不需要写入'.format(self.data_size))
+
+    def init_excel(self, file, max_index=None):
+        wb = Workbook()
+        ws = wb.active
+        for index, param_name in enumerate(self.param_name_list):
+            if max_index is None or index < max_index:
+                ws.cell(row=1, column=index + 1, value=param_name)
+        wb.save(file)
+        wb.close()
+
+    # 保存数据到excel
+    def save_excel(self, data_list):
+        # 文件不存在，初始化表头
+        if not os.path.exists(self.file1):
+            self.init_excel(self.file1)
+        wb = load_workbook(self.file1)
+        ws = wb.active
+        # 写入数据
+        max_row = ws.max_row
+        for row_index, data in enumerate(data_list):
+            for column_index, param_name in enumerate(self.param_name_list):
+                ws.cell(row=max_row + row_index + 1, column=column_index + 1,
+                        value=data[param_name] if param_name in data else None)
+        wb.save(self.file1)
+        wb.close()
+
+    # 清洗脏数据
+    def clear_data(self):
+        # 源数据
+        source_wb = load_workbook(self.file1)
+        source_ws = source_wb.active
+        # 清洗脏数据后的新报表
+        self.init_excel(self.file2,max_index=self.param_required_index)
+        target_wb = load_workbook(self.file2)
+        target_ws = target_wb.active
+        write_row = 2
+        for current_row in range(2, source_ws.max_row + 1):
+            for current_column in range(1, self.param_required_index + 1):
+                val = source_ws.cell(row=current_row, column=current_column).value
+                if val is None or len(val) == 0 or (
+                        current_column == 2 and val == '曝光' or val == '即将上市'):
+                    for i in range(1, self.param_required_index + 1):
+                        target_ws.cell(row=write_row, column=i, value='')
+                    break
+                else:
+                    target_ws.cell(row=write_row, column=current_column, value=val)
+                    if current_column == self.param_required_index:
+                        write_row += 1
+        # 保存清洗结果
+        target_wb.save(self.file2)
+
+    def get_req(self, url, max_retries=3, **kwargs):
+        try:
+            return requests.get(url, headers=dict({
+                'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36',
+            },
+                **kwargs))
+        except Exception as e:
+            writeError(e)
+            time.sleep(10)
+            max_retries -= 1
+            if max_retries > 0:
+                self.get_req(url, max_retries, **kwargs)
+            else:
+                return None
+
+
+class myThread(threading.Thread):
+    def __init__(self, crawler, base_url, param_url, **kwargs):
+        threading.Thread.__init__(self)
+        self.crawler = crawler
+        self.base_url = base_url
+        self.param_url = param_url
+        self.kwargs = kwargs
+
+    def run(self) -> None:
+        self.crawler.get_mobile(self.base_url, self.param_url, **self.kwargs)
--- a/requirements.txt
+++ b/requirements.txt
@ -0,0 +1,10 @@
+beautifulsoup4==4.8.0
+bs4==0.0.1
+certifi==2019.6.16
+chardet==3.0.4
+idna==2.8
+Pillow==6.1.0
+pywin32==224
+requests==2.22.0
+soupsieve==1.9.3
+urllib3==1.25.3
--- a/test.py
+++ b/test.py
@ -0,0 +1,14 @@
+
+import requests
+
+from main import TmallCrawler, CnmoCrawler
+
+def abc():
+    pass
+
+if __name__ == '__main__':
+    # 天猫爬虫测试
+    # TmallCrawler().get_page()
+    # 评测中心爬虫测试
+    CnmoCrawler().run()
+    # print(int(300/100))