add more spider & async

cwjokaka · cwjokaka · commit 6adf3be9d3b4 · 2019-09-17T16:45:26.000+08:00
diff --git a/main.py b/main.py
@@ -1,7 +1,6 @@
 import asyncio
 import typing
 
-from apscheduler.schedulers.asyncio import AsyncIOScheduler
 from apscheduler.schedulers.background import BackgroundScheduler
 
 from src.database.sqlite_opt import sqlite_opt
@@ -34,19 +33,11 @@ def save(proxies: typing.List[ProxyEntity]):
         sqlite_opt.add_proxy(proxy)
 
 
-def init_db():
-    sqlite_opt.init_db()
-
-
-def check():
-    validator.run()
-
-
 if __name__ == '__main__':
-    init_db()
+    sqlite_opt.init_db()
     scheduler = BackgroundScheduler()
-    # scheduler.add_job(crawl, 'interval', seconds=SPIDER['crawl_interval'])
-    scheduler.add_job(crawl, 'interval', seconds=10)
-    # scheduler.add_job(check, 'interval', seconds=VALIDATOR['validate_interval'])
+    scheduler.add_job(crawl, 'interval', seconds=SPIDER['crawl_interval'])
+    # scheduler.add_job(crawl, 'interval', seconds=60)
+    scheduler.add_job(validator.run, 'interval', seconds=VALIDATOR['validate_interval'])
     scheduler.start()
     app.run(host=WEB_SERVER['host'], port=WEB_SERVER['port'])
diff --git a/setting.py b/setting.py
@@ -1,25 +1,31 @@
+# 代理爬虫配置
 SPIDER = {
-    'crawl_interval': 75,       # 爬取IP代理的间隔(秒)
-    'list': [
-        # 'Spider66Ip',
-        # 'SpiderQuanWangIp',
+    'crawl_interval': 60,       # 爬取IP代理的间隔(秒)
+    'list': [                   # 使用的代理爬虫(类名)
+        'Spider66Ip',
+        'SpiderQuanWangIp',
         'SpiderXiciIp',
-        # 'SpiderKuaiDaiLiIp'
+        'SpiderKuaiDaiLiIp',
+        'SpiderYunDaiLiIp',
+        'SpiderIpHaiIp',
+        'SpiderMianFeiDaiLiIp'
     ]
 }
 
+# 校验器配置
 VALIDATOR = {
     'test_url': 'http://www.baidu.com',
-    'request_timeout': 4,
-    'validate_interval': 60
+    'request_timeout': 4,           # 校验超时时间
+    'validate_interval': 30
 }
 
-# sqlite
+# 数据库配置
 DB = {
     'db_name': 'test.db',
     'table_name': 'proxy'
 }
 
+# WEB配置(Flask)
 WEB_SERVER = {
     'host': 'localhost',
     'port': '8080'
diff --git a/src/spider/abs_spider.py b/src/spider/abs_spider.py
@@ -13,7 +13,6 @@ async def crawl(self):
         print(f'{self._name}开始爬取...')
         try:
             res.extend(await self.do_crawl())
-            # print(f'{self._name}爬取完毕!共:{len(res)}个代理')
         except Exception as e:
             print(f'{self._name}爬取失败:e:{e}')
         return res
diff --git a/src/spider/spiders.py b/src/spider/spiders.py
@@ -1,8 +1,7 @@
-import time
+import asyncio
 from typing import List
 
 import aiohttp
-import requests
 
 from setting import HEADERS
 from src.entity.proxy_entity import ProxyEntity
@@ -211,27 +210,31 @@ def __init__(self) -> None:
             'https://www.kuaidaili.com/free/intr'      # 透明
             ]
 
-    def do_crawl(self) -> List[ProxyEntity]:
+    async def do_crawl(self) -> List[ProxyEntity]:
         result = []
         for base_url in self._base_urls:
-            for page in range(1, 4):
-                res = requests.get(f'{base_url}/{page}', headers=HEADERS)
-                soup = BeautifulSoup(res.text, 'lxml')
-                trs = soup.find('table').find('tbody').find_all('tr')
-                for tr in trs:
-                    tds = tr.find_all('td')
-                    ip = tds[0].text
-                    port = tds[1].text
-                    proxy_cover = tds[2].text
-                    proxy_type = tds[3].text
-                    region = tds[4].text
-                    result.append(ProxyEntity(f'{proxy_type.lower()}://{ip}:{port}',
-                                              # ip, port, protocol=proxy_type.lower(),
-                                              source=self._name,
-                                              proxy_type=self._judge_proxy_type(proxy_type),
-                                              proxy_cover=self._judge_proxy_cover(proxy_cover),
-                                              region=region))
-                time.sleep(3)
+            for page in range(1, 3):
+                async with aiohttp.ClientSession() as session:
+                    async with session.get(f'{base_url}/{page}', headers=HEADERS) as resp:
+
+                        # res = requests.get(f'{base_url}/{page}', headers=HEADERS)
+                        soup = BeautifulSoup(await resp.text(), 'lxml')
+                        trs = soup.find('table').find('tbody').find_all('tr')
+                        for tr in trs:
+                            tds = tr.find_all('td')
+                            ip = tds[0].text
+                            port = tds[1].text
+                            proxy_cover = tds[2].text
+                            proxy_type = tds[3].text
+                            region = tds[4].text
+                            result.append(ProxyEntity(f'{proxy_type.lower()}://{ip}:{port}',
+                                                      # ip, port, protocol=proxy_type.lower(),
+                                                      source=self._name,
+                                                      proxy_type=self._judge_proxy_type(proxy_type),
+                                                      proxy_cover=self._judge_proxy_cover(proxy_cover),
+                                                      region=region))
+                # 爬太快会被封
+                await asyncio.sleep(3)
         return result
 
     def _judge_proxy_type(self, type_str: str):
@@ -250,3 +253,195 @@ def _judge_proxy_cover(self, cover_str: str):
             return ProxyCoverEnum.HIGH_COVER.value
         else:
             return ProxyCoverEnum.UNKNOWN.value
+
+
+@spider_register
+class SpiderYunDaiLiIp(AbsSpider):
+    """
+    云代理IP 刷新速度: 快
+    http://www.ip3366.net/free
+    """
+    def __init__(self) -> None:
+        super().__init__('云代理IP爬虫')
+        self._base_urls = [
+            'http://www.ip3366.net/free/?stype=1',     # 高匿
+            'http://www.ip3366.net/free/?stype=2'      # 透明 or 普匿
+            ]
+
+    async def do_crawl(self) -> List[ProxyEntity]:
+        result = []
+        for base_url in self._base_urls:
+            for page in range(1, 3):
+                async with aiohttp.ClientSession() as session:
+                    async with session.get(f'{base_url}&page={page}', headers=HEADERS) as resp:
+
+                        # res = requests.get(f'{base_url}/{page}', headers=HEADERS)
+                        soup = BeautifulSoup(await resp.text(), 'lxml')
+                        trs = soup.find('table').find('tbody').find_all('tr')
+                        for tr in trs:
+                            tds = tr.find_all('td')
+                            ip = tds[0].text
+                            port = tds[1].text
+                            proxy_cover = tds[2].text
+                            proxy_type = tds[3].text
+                            region = tds[4].text
+                            result.append(ProxyEntity(f'{proxy_type.lower()}://{ip}:{port}',
+                                                      # ip, port, protocol=proxy_type.lower(),
+                                                      source=self._name,
+                                                      proxy_type=self._judge_proxy_type(proxy_type),
+                                                      proxy_cover=self._judge_proxy_cover(proxy_cover),
+                                                      region=region))
+        return result
+
+    def _judge_proxy_type(self, type_str: str):
+        type_low = type_str.lower()
+        if type_low == 'http':
+            return ProxyTypeEnum.HTTP.value
+        elif type_low == 'https':
+            return ProxyTypeEnum.HTTPS.value
+        else:
+            return ProxyTypeEnum.UNKNOWN.value
+
+    def _judge_proxy_cover(self, cover_str: str):
+        if cover_str == '透明代理IP':
+            return ProxyCoverEnum.TRANSPARENT.value
+        elif cover_str == '高匿代理IP':
+            return ProxyCoverEnum.HIGH_COVER.value
+        elif cover_str == '普通代理IP':
+            return ProxyCoverEnum.NORMAL_COVER.value
+        else:
+            return ProxyCoverEnum.UNKNOWN.value
+
+
+@spider_register
+class SpiderIpHaiIp(AbsSpider):
+    """
+    IP海代理IP 刷新速度: 8分钟/1个
+    有时会连不上
+    http://www.iphai.com
+    """
+    def __init__(self) -> None:
+        super().__init__('IP海代理IP爬虫')
+        self._base_urls = [
+            'http://www.iphai.com/free/ng',         # 国内高匿
+            'http://www.iphai.com/free/np',         # 国内普通
+            'http://www.iphai.com/free/wg',         # 国外高匿
+            'http://www.iphai.com/free/wp',         # 国外普通
+            ]
+
+    async def do_crawl(self) -> List[ProxyEntity]:
+        result = []
+        for base_url in self._base_urls:
+            async with aiohttp.ClientSession() as session:
+                async with session.get(base_url, headers=HEADERS) as resp:
+                    soup = BeautifulSoup(await resp.text(), 'lxml')
+                    table = soup.find('table')
+                    if table is None:
+                        continue
+                    tbody = soup.find('tbody')
+                    if tbody is None:
+                        continue
+                    trs = tbody.find_all('tr')
+                    for i, tr in enumerate(trs):
+                        if i == 0:
+                            continue
+                        tds = tr.find_all('td')
+                        ip = tds[0].text
+                        port = tds[1].text
+                        proxy_cover = tds[2].text
+                        proxy_type = tds[3].text if tds[3].text != '' else 'http'
+                        region = tds[4].text
+                        result.append(ProxyEntity(f'{proxy_type.lower()}://{ip}:{port}',
+                                                  # ip, port, protocol=proxy_type.lower(),
+                                                  source=self._name,
+                                                  proxy_type=self._judge_proxy_type(proxy_type),
+                                                  proxy_cover=self._judge_proxy_cover(proxy_cover),
+                                                  region=region))
+            await asyncio.sleep(2)
+        return result
+
+    @staticmethod
+    def _judge_proxy_type(type_str: str):
+        type_low = type_str.lower()
+        if type_low == 'http':
+            return ProxyTypeEnum.HTTP.value
+        elif type_low == 'https':
+            return ProxyTypeEnum.HTTPS.value
+        else:
+            return ProxyTypeEnum.UNKNOWN.value
+
+    @staticmethod
+    def _judge_proxy_cover(cover_str: str):
+        if cover_str == '透明':
+            return ProxyCoverEnum.TRANSPARENT.value
+        elif cover_str == '高匿':
+            return ProxyCoverEnum.HIGH_COVER.value
+        elif cover_str == '普匿':
+            return ProxyCoverEnum.NORMAL_COVER.value
+        else:
+            return ProxyCoverEnum.UNKNOWN.value
+
+
+@spider_register
+class SpiderMianFeiDaiLiIp(AbsSpider):
+    """
+    免费代理IP库
+    http://ip.jiangxianli.com/
+    """
+    def __init__(self) -> None:
+        super().__init__('免费代理IP爬虫')
+        self._base_url = 'http://ip.jiangxianli.com/?page={}'
+
+    async def do_crawl(self) -> List[ProxyEntity]:
+        result = []
+        for page in range(1, 4):
+            async with aiohttp.ClientSession() as session:
+                async with session.get(self._base_url.format(page), headers=HEADERS) as resp:
+                    soup = BeautifulSoup(await resp.text(), 'lxml')
+                    table = soup.find('table')
+                    if table is None:
+                        continue
+                    tbody = soup.find('tbody')
+                    if tbody is None:
+                        continue
+                    trs = tbody.find_all('tr')
+                    for i, tr in enumerate(trs):
+                        if i == 0:
+                            continue
+                        tds = tr.find_all('td')
+                        ip = tds[1].text
+                        port = tds[2].text
+                        proxy_cover = tds[3].text
+                        proxy_type = tds[4].text if tds[3].text != '' else 'http'
+                        region = tds[5].text
+                        supplier = tds[6].text
+                        result.append(ProxyEntity(f'{proxy_type.lower()}://{ip}:{port}',
+                                                  # ip, port, protocol=proxy_type.lower(),
+                                                  source=self._name,
+                                                  supplier=supplier,
+                                                  proxy_type=self._judge_proxy_type(proxy_type),
+                                                  proxy_cover=self._judge_proxy_cover(proxy_cover),
+                                                  region=region))
+            await asyncio.sleep(2)
+        return result
+
+    @staticmethod
+    def _judge_proxy_type(type_str: str):
+        type_low = type_str.lower()
+        if type_low == 'http':
+            return ProxyTypeEnum.HTTP.value
+        elif type_low == 'https':
+            return ProxyTypeEnum.HTTPS.value
+        else:
+            return ProxyTypeEnum.UNKNOWN.value
+
+    @staticmethod
+    def _judge_proxy_cover(cover_str: str):
+        if cover_str == '透明':
+            return ProxyCoverEnum.TRANSPARENT.value
+        elif cover_str == '高匿':
+            return ProxyCoverEnum.HIGH_COVER.value
+        elif cover_str == '普匿':
+            return ProxyCoverEnum.NORMAL_COVER.value
+        else:
+            return ProxyCoverEnum.UNKNOWN.value
diff --git a/src/web/web_flask.py b/src/web/web_flask.py
@@ -10,8 +10,9 @@ def index():
     """主页
     """
     return '''
-        <h1>Welcome to Home Page😄</h1>
-        <h2>APIS:</h2>
+        <h1>😘Welcome to Home Page😄</h1>
+        <h1>🙆‍♂️🤷‍♀️🙆‍♂️🤷‍♀️🙆‍♂️🤷‍♀️🙆‍♂️🤷‍♀️🙆‍♂️🤷‍♀️🙆‍♂️🤷‍♀️🙆‍♂️🤷‍♀️</h1>
+        <h2>APIs:</h2>
         <h3>Get a usable proxy:</h3>
         <p>/get</p>
         <h3>Get all usable proxies:</h3>
diff --git a/test/spider/test_spider_66_ip.py b/test/spider/test_spider_66_ip.py
@@ -10,8 +10,6 @@ def setUp(self) -> None:
         self._spider = Spider66Ip()
 
     def test_crawl(self):
-        # async def dodo():
-        #     return await
         result = asyncio.run(self._spider.crawl())
         assert result
         assert len(result) > 0
diff --git a/test/spider/test_spider_ip_hai_ip.py b/test/spider/test_spider_ip_hai_ip.py
@@ -0,0 +1,15 @@
+import asyncio
+import unittest
+
+from src.spider.spiders import SpiderIpHaiIp
+
+
+class TestSpiderXiciIp(unittest.TestCase):
+
+    def setUp(self) -> None:
+        self._spider = SpiderIpHaiIp()
+
+    def test_crawl(self):
+        result = asyncio.run(self._spider.crawl())
+        assert result
+        assert len(result) > 0
diff --git a/test/spider/test_spider_kuai_dai_li_ip.py b/test/spider/test_spider_kuai_dai_li_ip.py
@@ -1,3 +1,4 @@
+import asyncio
 import unittest
 
 from src.spider.spiders import SpiderKuaiDaiLiIp
@@ -9,6 +10,6 @@ def setUp(self) -> None:
         self._spider = SpiderKuaiDaiLiIp()
 
     def test_crawl(self):
-        result = self._spider.crawl()
+        result = asyncio.run(self._spider.crawl())
         assert result
         assert len(result) > 0
diff --git a/test/spider/test_spider_mian_fei_dai_li_ip.py b/test/spider/test_spider_mian_fei_dai_li_ip.py
diff --git a/test/spider/test_spider_xici_Ip.py b/test/spider/test_spider_xici_Ip.py
diff --git a/test/spider/test_spider_yun_dai_li_ip.py b/test/spider/test_spider_yun_dai_li_ip.py