spa

8f595ff1 · 邱阿朋 · 028d0f9d · 8f595ff1 · 8f595ff1 · 8f595ff1
Commit 8f595ff1 authored Dec 18, 2024 by 邱阿朋
Hide whitespace changes
Inline Side-by-side

Showing with 114 additions and 78 deletions

excel.py src/helper/excel.py +4 -4

payment.py src/payment.py +2 -2

spa_search.py src/spa_search.py +108 -72

No files found.
--- a/src/helper/excel.py
+++ b/src/helper/excel.py
@@ -25,14 +25,14 @@ def save_xls(data, output_file, sheet_name='Sheet1', adjusted=True):
            df = pd.DataFrame(data)
            df.to_excel(writer, index=False, sheet_name=sheet_name)
+    if not adjusted:
+        return
    # 使用 openpyxl 重新加载工作簿
    wb = load_workbook(output_file)
    ws = wb[sheet_name]
-    if not adjusted:
+    # 自动调整列宽
-        return
-        # 自动调整列宽
    for column in ws.columns:
        max_length = 0
        column_letter = column[0].column_letter

--- a/src/payment.py
+++ b/src/payment.py
@@ -399,11 +399,11 @@ def main():
    if all_normal_pay_data:
        # 将所有数据合并为一个 DataFrame
        normal_pay_summary = pd.concat(all_normal_pay_data, ignore_index=True)
-        excel.save_xls(normal_pay_summary, new_file_name, "正常回款导出明细")
+        excel.save_xls(normal_pay_summary, new_file_name, "正常回款导出明细",False)
    if all_price_pay_data:
        price_pay_summary = pd.concat(all_price_pay_data, ignore_index=True)
-        excel.save_xls(price_pay_summary, new_file_name, "Price导出明细")
+        excel.save_xls(price_pay_summary, new_file_name, "Price导出明细",False)
 if __name__ == '__main__':

--- a/src/spa_search.py
+++ b/src/spa_search.py
@@ -3,6 +3,7 @@
 import math
 import os
 import shutil
+from concurrent.futures import ThreadPoolExecutor
 from datetime import datetime
 from urllib.parse import urlparse, parse_qs
@@ -84,7 +85,7 @@ def export_item_read_data(invoice_id):
        page.download(host + link, report_file_tmp_dir, show_msg=False)
        report_file = report_file_tmp_dir + "BackupReport.xls"
-        file.wait_for_downloads(report_file)
+        file.wait_for_downloads(report_file, 120)
        try:
            df = pd.read_excel(report_file)
@@ -106,93 +107,128 @@ def export_item_read_data(invoice_id):
 def main():
+    # 获取数据
    relation_data = api.sku_relations(country)  # 获取 ASIN 与 SKU 的对应关系数据
    coop_list = export_list_read_data()  # 获取合作数据列表
-    log.info(f"共计:{len(coop_list)} 条数据")
+    log.info(f"共计: {len(coop_list)} 条数据")
    # 获取当前日期和时间并格式化
-    current_datetime = datetime.now().strftime('%Y%m%d%H%M')  # 格式化为 'YYYY-MM-DD_HH-MM-SS'
+    current_datetime = datetime.now().strftime('%Y%m%d%H%M')
-    # 原文件名
    file_name = "spa.xlsx"
-    # 拼接新的文件名
    new_file_name = f"{current_datetime}_{file_name}"
-    i = 0
+    sheet_data = []  # 用于保存小数据
-    new_coop_data = []
+    large_sheet_data = {}  # 保存大数据（需要分 Sheet）
-    sheet_data = {}
+    max_sheet_data = {}  # 保存超大数据（行数 > 5000）
-    for _, coop in coop_list.iterrows():
+    # 遍历合作列表
-        i += 1
+    for index, coop in coop_list.iterrows():
+        index += 1
        invoice_id = coop.get("Invoice ID")  # 获取发票 ID
-        log.info({"index": i, "invoice_id": invoice_id})
+        log.info({"index": index, "invoice_id": invoice_id})
-        item_coop_data = []
+        if not invoice_id:
-        # 根据发票 ID 获取 item 列表
+            log.warning(f"缺少 Invoice ID，跳过第 {index} 条数据")
+            continue
+        # 获取当前发票的 item 列表
        item_list = export_item_read_data(invoice_id)
        if item_list is None:
            log.warning(f"{invoice_id} 暂无报告信息")
            continue
-        for _, item in item_list.iterrows():
+        # 按 item_list 的长度处理小数据或大数据
-            asin = item.get("Asin")
+        if len(item_list) >= 10:
+            processed_items = process_large_items(item_list, relation_data)
-            # 判断 ASIN 是否为空或无效
+            if processed_items:
-            if not asin or (isinstance(asin, float) and math.isnan(asin)):
+                if len(processed_items) > 5000:
-                break
+                    max_sheet_data[invoice_id] = processed_items
+                else:
-            relation = relation_data.get(asin)
+                    large_sheet_data[invoice_id] = processed_items
+        else:
-            # 如果未匹配到 SKU，记录空值
+            processed_items = process_small_items(item_list, coop, relation_data)
-            if not relation:
+            sheet_data.extend(processed_items)
-                item['Asin'] = asin
-                item['ERP SKU'] = ""
+        # 保存数据到 Excel 文件
-                item['Group Name'] = ""
+    save_excel(sheet_data, large_sheet_data, max_sheet_data, new_file_name)
-                item_coop_data.append(item)
-                continue  # 跳过当前条目，继续下一个
+def process_large_items(item_list, relation_data):
-            # 如果 item_list 长度大于 10，使用原有数据
+    """处理大数据列表 (item_list 长度 >= 10)"""
-            if len(item_list) >= 10:
+    processed_items = []
-                new_item = item.copy()
+    for _, item in item_list.iterrows():
-                new_item.pop("Asin")
+        asin = item.get('Asin', None)
-                new_item['Asin'] = asin
+        if not validate_asin(asin):
-                new_item['ERP SKU'] = relation.get("erp_sku")
+            continue
-                new_item['Group Name'] = relation.get("name")
-                item_coop_data.append(new_item)
+        relation = relation_data.get(asin, {})
-            else:
-                new_item = coop.copy()
-                rebate_in_agreement_currency = item.get("Rebate In Agreement Currency")
-                if rebate_in_agreement_currency:
-                    new_item['Original balance'] = rebate_in_agreement_currency
-                vendor_funding_in_agreement_currency = item.get("Vendor Funding In Agreement Currency")
-                if vendor_funding_in_agreement_currency:
-                    new_item['Original balance'] = vendor_funding_in_agreement_currency
-                new_item['Asin'] = asin
-                new_item['ERP SKU'] = relation.get("erp_sku")
-                new_item['Group Name'] = relation.get("name")
-                new_coop_data.append(new_item)
-            # 保存已处理的 item 数据到 Excel 文件中
-        if item_coop_data:
-            sheet_data[invoice_id] = item_coop_data
-    # 保存最终的合作数据
-    if new_coop_data:
-        excel.save_xls(new_coop_data, new_file_name)
-    max_sheet_data = {}
-    if sheet_data:
-        # 循环遍历 sheet_data 字典
-        for key, value in sheet_data.items():
-            if len(value) > 5000:
-                max_sheet_data[key] = value
-                continue
-            excel.save_xls(value, new_file_name, key)
+        processed_item = item.copy()
+        processed_item.pop("Asin")
+        processed_item['Asin'] = asin
+        processed_item['ERP SKU'] = relation.get("erp_sku")
+        processed_item['Group Name'] = relation.get("name")
+        processed_items.append(processed_item)
+    return processed_items
+def process_small_items(item_list, coop, relation_data):
+    """处理小数据列表 (item_list 长度 < 10)"""
+    processed_items = []
+    for _, item in item_list.iterrows():
+        asin = item.get('Asin', None)
+        if not validate_asin(asin):
+            continue
-    if max_sheet_data:
+        relation = relation_data.get(asin, {})
-        for key, value in max_sheet_data.items():
+        rebate = item.get("Rebate In Agreement Currency", None)
-            excel.save_xls(value, new_file_name, key)
+        vendor_funding = item.get("Vendor Funding In Agreement Currency", None)
+        processed_item = coop.copy()  # 复制 coop 数据
+        processed_item["Asin"] = asin
+        processed_item["ERP SKU"] = relation.get("erp_sku")
+        processed_item["Group Name"] = relation.get("name")
+        processed_item["Original balance"] = rebate or vendor_funding
+        processed_items.append(processed_item)
+    return processed_items
+def validate_asin(asin):
+    """验证 ASIN 是否有效"""
+    return asin and not (isinstance(asin, float) and math.isnan(asin))
+def save_excel(sheet_data, large_sheet_data, max_sheet_data, new_file_name):
+    """保存数据到 Excel 文件"""
+    # 创建一个写入函数
+    def write_sheet(writer, data, sheet_name):
+        log.info(f"开始写入 {sheet_name}, 共计 {len(data)} 条")
+        df = pd.DataFrame(data)  # 将数据转换为 DataFrame
+        df.to_excel(writer, sheet_name=sheet_name, index=False)
+    # 初始化 Excel 写入器
+    with pd.ExcelWriter(new_file_name, engine="openpyxl") as writer:
+        # 写入小数据
+        if sheet_data:
+            log.info(f"保存小数据，共计 {len(sheet_data)} 条")
+            write_sheet(writer, sheet_data, "Sheet1")
+        # 写入大数据（使用多线程并行写入不同表）
+        if large_sheet_data:
+            log.info(f"保存大数据，共计 {sum(len(data) for data in large_sheet_data.values())} 条")
+            with ThreadPoolExecutor() as executor:
+                for sheet_name, data in large_sheet_data.items():
+                    executor.submit(write_sheet, writer, data, sheet_name)
+        # 写入超大数据
+        if max_sheet_data:
+            log.info(f"保存超大数据，共计 {sum(len(data) for data in max_sheet_data.values())} 条")
+            with ThreadPoolExecutor() as executor:
+                for sheet_name, data in max_sheet_data.items():
+                    executor.submit(write_sheet, writer, data, sheet_name)
+    log.info(f"文件 {new_file_name} 保存完成，路径：{os.path.abspath(new_file_name)}")
 if __name__ == '__main__':