Camelot：Python超强大的PDF表格提取器-电子发烧友网

如果你有从PDF中批量提取表格的需求，那么这篇文章就是你的福音。

Python 第三方模块 Camelot 能够精准识别PDF中的表格信息，并提取为pandas数据结构，而且还能导出为多种格式：JSON，Excel，HTML和Sqlite。

下面给大家介绍这个模块的使用方法：

1.准备

开始之前，你要确保Python和pip已经成功安装在电脑上，如果没有，可以访问这篇文章：超详细Python安装指南进行安装。

如果你用Python的目的是数据分析，可以直接安装Anaconda：Python数据分析与挖掘好帮手—Anaconda，它内置了Python和pip.

此外，推荐大家用VSCode编辑器，它有许多的优点：Python 编程的最好搭档—VSCode 详细指南。

请选择以下任一种方式输入命令安装依赖 ：

Windows 环境打开 Cmd (开始-运行-CMD)。
MacOS 环境打开 Terminal (command+空格输入Terminal)。
如果你用的是 VSCode编辑器或 Pycharm，可以直接使用界面下方的Terminal.

pip install camelot-py[cv]

2.使用

最简单的使用方式如下：

import camelot
# 1.读取pdf
tables = camelot.read_pdf('foo.pdf', flavor='stream')
# 2.导出pdf所有的表格为csv文件
tables.export('foo.csv', f='csv') # json, excel, html, sqlite

第一行，导入了camelot这个模块。

第二行，以stream的模式读取当前目录的foo.pdf文件。

第三行，将所有表格数据导出为 foo.csv 文件，并保存在当前文件夹下。

相当简单，请注意，read_pdf 的 flavor 参数是可选的，如果你不带这个参数，请注意需要安装 ghostscript 这个驱动，因为它默认使用 ghostscript 去用 lattice 模式。

3.进阶

3.1 处理背景线：

可以看到，很多表格的线都隐藏在背景中。这种表格默认是不支持的，这时候我们需要让程序能够自动识别这样的表格：

tables = camelot.read_pdf('background_lines.pdf', process_background=True)

增加 process_background=True 参数即可。

3.2 指定表格区域

某些情况下无法正确识别到PDF中的表格，此时手动设定左上角和右下角的边界可能是有效果的：

tables = camelot.read_pdf('table_areas.pdf', flavor='stream', table_areas=['316,499,566,337'])

其中 table_areas 接受格式为 x1，y1，x2，y2 的字符串，其中(x1，y1) -> 左上角, (x2，y2) -> 右下角。在PDF坐标空间中，页面的左下角是原点，坐标为（0，0）。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据结构

数据结构

+关注

关注
3

文章
573

浏览量
40121
python

python

+关注

关注
56

文章
4792

浏览量
84627
提取器

提取器

+关注

关注
0

文章
14

浏览量
8123

基于python读取excel表格

Python：利用python读取excel表格的那些七七八八事

发表于 12-28 14:23

2021年度python13本电子书单含源码PDF电子版百度网盘下载

2021年度python书单PDF电子版下载链接：https://pan.baidu.com/s/10bR41hpAXpsWZWkbSPxaRA提取码：cn85

发表于 05-08 15:45

python教程之如何使用XlsxWriter模块创建aexcel表格

本文档的主要内容详细介绍的是python教程之如何使用XlsxWriter模块创建aexcel表格。

发表于 01-18 17:01 •10次下载

<b class='flag-5'>python</b>教程之如何使用XlsxWriter模块创建aexcel<b class='flag-5'>表格</b>

使用Python操作excel表格的xlrd介绍

本文档的主要内容详细介绍的是使用Python操作excel表格的xlrd介绍。

发表于 07-02 08:00 •2次下载

《Python编程入门》.pdf

《Python编程入门》.pdf

发表于 02-11 16:03 •0次下载

如何使用OpenCV和Python从图像中提取感兴趣区域

今天我们将一起探究如何使用OpenCV和Python从图像中提取感兴趣区域（ROI）。在之间的文章中，我们完成了图像边缘提取，例如从台球桌中提取桌边。使用了简单的OpenC

发表于 02-07 14:42 •1840次阅读

Python的PDF表格提取器-Camelot

Python 第三方模块 Camelot 能够精准识别PDF中的表格信息，并提取为pandas数据结构，而且还能导出为多种格式：JSON，E

发表于 02-24 11:04 •2190次阅读

<b class='flag-5'>Python</b>的<b class='flag-5'>PDF</b><b class='flag-5'>表格</b><b class='flag-5'>提取</b><b class='flag-5'>器</b>-<b class='flag-5'>Camelot</b>

如何提取Word文档表格保存到Excel

据提取到Excel表中。例如，提取word文档中的财务数据、考勤数据等，将数据存储到 Excel表中，本次项目我们专门针对word文档中的表格数据进行解析与提取。

发表于 02-24 16:00 •2776次阅读

如何<b class='flag-5'>提取</b>Word文档<b class='flag-5'>表格</b>保存到Excel

只需2行代码，轻松将PDF转换成Word

可将 PDF 转换成 docx 文件的 Python 库。该项目通过 PyMuPDF 库提取 PDF 文件中的数据，然后采用 python-

发表于 05-08 14:23 •994次阅读

只需2行代码，轻松将<b class='flag-5'>PDF</b>转换成Word

Python教你用 Rows 快速操作csv文件

, 我认为 Rows 的优势在于其易于理解的计算语法和各种方便的导出和转换语法。它能非常方便地提取pdf中的文字、将csv转换为sqlite文件、合并csv等，还能对csv文件执行sql语法，还是比较强大

发表于 10-21 10:18 •602次阅读

Camelot：超强大的PDF表格提取器

如果你有从PDF中批量提取表格的需求，那么这篇文章就是你的福音。 Python 第三方模块 Camelot 能够精准识别

发表于 10-30 09:44 •1004次阅读

<b class='flag-5'>Camelot</b>：<b class='flag-5'>超强大</b>的<b class='flag-5'>PDF</b><b class='flag-5'>表格</b><b class='flag-5'>提取</b><b class='flag-5'>器</b>

Newspaper：用于提取和整理文章的python库

Newspaper 是一个很棒的python库，用于提取和整理文章。它有以下的优点：多线程文章下载框架识别新闻网址从html提取文本从html提取顶部图像从html

发表于 10-30 14:24 •752次阅读

Camelot模块的使用方法

如果你有从PDF中批量提取表格的需求，那么这篇文章就是你的福音。 Python 第三方模块 Camelot 能够精准识别

发表于 11-01 10:02 •1023次阅读

Python中Excel转PDF的实现步骤

将Excel文件转换为PDF可以方便储存表格数据，此外在打印或共享文档时也能确保表格样式布局等在不同设备和操作系统上保持一致。今天给大家分享一个使用第三方Python库Spire.XL

发表于 11-20 15:02 •1121次阅读

<b class='flag-5'>Python</b>中Excel转<b class='flag-5'>PDF</b>的实现步骤

python如何遍历列表并提取

遍历列表是Python中非常常见的操作之一，可以使用for循环或者while循环来实现。下面我将详细介绍如何使用for循环遍历列表并提取元素。首先，让我们简单了解一下Python中的列表。列表

发表于 11-23 15:55 •1368次阅读

搜索历史

Camelot：Python超强大的PDF表格提取器

评论