Python批量识别增值税发票并导出表格（exe版）

作者：很菜不狗2025.09.19 10:40浏览量：0

简介：本文介绍如何使用Python实现增值税发票批量识别，并将结果导出为Excel表格，最终打包成exe可执行文件，方便非技术人员使用。

Python批量识别增值税发票并导出表格（exe版）

摘要

本文详细介绍如何使用Python实现增值税发票的批量识别，并将识别结果导出到Excel表格中。为了方便非技术人员使用，我们将整个程序打包成exe可执行文件。整个过程包括发票图像的预处理、OCR 文字识别、数据解析和格式化、Excel表格生成，以及最终的程序打包。

内容

一、背景与需求

增值税发票是企业财务管理中的重要凭证，手动录入发票信息不仅效率低下，而且容易出错。随着OCR（Optical Character Recognition，光学字符识别）技术的发展，通过计算机自动识别发票信息成为可能。本文将介绍如何使用Python实现增值税发票的批量识别，并将识别结果导出到Excel表格中，最终打包成exe可执行文件，方便非技术人员使用。

二、技术选型与工具准备

Python环境：Python 3.x版本，推荐使用Anaconda或Miniconda进行环境管理。
OCR库：Tesseract OCR，一个开源的OCR引擎，支持多种语言。
图像处理库：OpenCV，用于图像的预处理。
表格处理库：Pandas，用于生成和操作Excel表格。
打包工具：PyInstaller，用于将Python程序打包成exe可执行文件。

三、发票图像预处理

在OCR识别之前，需要对发票图像进行预处理，以提高识别准确率。常见的预处理步骤包括：

灰度化：将彩色图像转换为灰度图像，减少计算量。
二值化：将灰度图像转换为黑白图像，增强文字与背景的对比度。
去噪：使用滤波算法去除图像中的噪声。
倾斜校正：检测并校正图像的倾斜角度，使文字水平。

import cv2
import numpy as np
def preprocess_image(image_path):
    # 读取图像
    image = cv2.imread(image_path)
    # 灰度化
    gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
    # 二值化
    _, binary = cv2.threshold(gray, 128, 255, cv2.THRESH_BINARY | cv2.THRESH_OTSU)
    # 去噪
    denoised = cv2.medianBlur(binary, 3)
    # 倾斜校正（简化版，实际应用中可能需要更复杂的算法）
    # 这里假设图像没有明显倾斜，跳过此步骤
    return denoised

四、OCR文字识别

使用Tesseract OCR对预处理后的图像进行文字识别。需要先安装Tesseract OCR引擎，并下载中文语言包（如果识别中文发票）。

import pytesseract
from PIL import Image
def ocr_recognize(image_path):
    # 预处理图像
    processed_image = preprocess_image(image_path)
    # 转换为PIL图像格式
    pil_image = Image.fromarray(processed_image)
    # 使用Tesseract进行OCR识别
    text = pytesseract.image_to_string(pil_image, lang='chi_sim')  # 中文简体
    return text

五、数据解析和格式化

识别出的文本需要进一步解析，提取出发票的关键信息，如发票号码、开票日期、金额等。这一步通常需要结合正则表达式或规则引擎来实现。

import re
def parse_invoice_text(text):
    # 示例：提取发票号码
    invoice_number_pattern = r'发票号码[:：]\s*(\d+)'
    invoice_number = re.search(invoice_number_pattern, text)
    invoice_number = invoice_number.group(1) if invoice_number else None
    # 示例：提取开票日期
    date_pattern = r'开票日期[:：]\s*(\d{4}[-年]\d{1,2}[-月]\d{1,2}日?)'
    date_match = re.search(date_pattern, text)
    invoice_date = date_match.group(1).replace('年', '-').replace('月', '-').replace('日', '') if date_match else None
    # 示例：提取金额（简化版，实际应用中可能需要更复杂的处理）
    amount_pattern = r'金额[:：]\s*(\d+\.?\d*)'
    amount_match = re.search(amount_pattern, text)
    amount = amount_match.group(1) if amount_match else None
    return {
        '发票号码': invoice_number,
        '开票日期': invoice_date,
        '金额': amount,
    }

六、Excel表格生成

使用Pandas库将解析后的数据生成Excel表格。

import pandas as pd
def generate_excel(invoice_data_list, output_path):
    df = pd.DataFrame(invoice_data_list)
    df.to_excel(output_path, index=False)

七、批量处理与主程序

将上述功能整合到一个主程序中，实现批量处理多张发票图像。

import os
def batch_process_invoices(image_folder, output_excel):
    invoice_data_list = []
    for filename in os.listdir(image_folder):
        if filename.lower().endswith(('.png', '.jpg', '.jpeg')):
            image_path = os.path.join(image_folder, filename)
            text = ocr_recognize(image_path)
            invoice_data = parse_invoice_text(text)
            invoice_data_list.append(invoice_data)
    generate_excel(invoice_data_list, output_excel)
if __name__ == '__main__':
    image_folder = 'path/to/invoice/images'  # 替换为实际的发票图像文件夹路径
    output_excel = 'output_invoices.xlsx'  # 输出的Excel文件名
    batch_process_invoices(image_folder, output_excel)

八、程序打包成exe

使用PyInstaller将Python程序打包成exe可执行文件，方便非技术人员使用。

安装PyInstaller：
```
pip install pyinstaller
```
打包程序：
```
pyinstaller --onefile --windowed your_script_name.py
```
其中，--onefile表示生成单个exe文件，--windowed表示不显示命令行窗口。

九、总结与展望

本文介绍了如何使用Python实现增值税发票的批量识别，并将识别结果导出到Excel表格中，最终打包成exe可执行文件。这种方法大大提高了发票信息录入的效率，减少了人为错误。未来，可以进一步优化OCR识别算法，提高识别准确率；或者集成更复杂的发票解析逻辑，处理更多类型的发票。

发表评论

开发者关注产品榜

最热文章

关于作者

被阅读数
被赞数
被收藏数

开发者热搜

Python批量识别增值税发票并导出表格（exe版）

Python批量识别增值税发票并导出表格（exe版）

摘要

内容

一、背景与需求

二、技术选型与工具准备

三、发票图像预处理

四、OCR文字识别

五、数据解析和格式化

六、Excel表格生成

七、批量处理与主程序

八、程序打包成exe

九、总结与展望

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

百度千帆·大模型服务及Agent开发平台

百度千帆·数据智能平台

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者