0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Camelot:超强大的PDF表格提取器

科技绿洲 来源:Python实用宝典 作者:Python实用宝典 2023-10-30 09:44 次阅读

如果你有从PDF中批量提取表格的需求,那么这篇文章就是你的福音。

Python 第三方模块 Camelot 能够精准识别PDF中的表格信息,并提取为pandas数据结构,而且还能导出为多种格式:JSON,Excel,HTML和Sqlite。

下面给大家介绍这个模块的使用方法:

1.准备

开始之前,你要确保Python和pip已经成功安装在电脑上,如果没有,可以访问这篇文章:超详细Python安装指南 进行安装。

如果你用Python的目的是数据分析,可以直接安装Anaconda:Python数据分析与挖掘好帮手—Anaconda,它内置了Python和pip.

此外,推荐大家用VSCode编辑器,它有许多的优点:Python 编程的最好搭档—VSCode 详细指南

请选择以下任一种方式输入命令安装依赖

  1. Windows 环境 打开 Cmd (开始-运行-CMD)。
  2. MacOS 环境 打开 Terminal (command+空格输入Terminal)。
  3. 如果你用的是 VSCode编辑器 或 Pycharm,可以直接使用界面下方的Terminal.
pip install camelot-py[cv]

2.使用

最简单的使用方式如下:

import camelot
# 1.读取pdf
tables = camelot.read_pdf('foo.pdf', flavor='stream')
# 2.导出pdf所有的表格为csv文件
tables.export('foo.csv', f='csv') # json, excel, html, sqlite

第一行,导入camelot这个模块。

第二行,以stream的模式读取当前目录的foo.pdf文件。

第三行,将所有表格数据导出为 foo.csv 文件,并保存在当前文件夹下。

相当简单,请注意,read_pdf 的 flavor 参数是可选的,如果你不带这个参数,请注意需要安装 ghostscript 这个驱动,因为它默认使用 ghostscript 去用 lattice 模式。

3.进阶

3.1 处理背景线:

图片

可以看到,很多表格的线都隐藏在背景中。这种表格默认是不支持的,这时候我们需要让程序能够自动识别这样的表格:

tables = camelot.read_pdf('background_lines.pdf', process_background=True)

增加 process_background=True 参数即可。

3.2 指定表格区域

某些情况下无法正确识别到PDF中的表格,此时手动设定左上角和右下角的边界可能是有效果的:

tables = camelot.read_pdf('table_areas.pdf', flavor='stream', table_areas=['316,499,566,337'])

其中 table_areas 接受格式为 x1,y1,x2,y2 的字符串,其中(x1,y1) -> 左上角, (x2,y2) -> 右下角。在PDF坐标空间中,页面的左下角是原点,坐标为(0,0)。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • PDF
    PDF
    +关注

    关注

    1

    文章

    166

    浏览量

    33635
  • 数据结构
    +关注

    关注

    3

    文章

    569

    浏览量

    40070
  • 提取器
    +关注

    关注

    0

    文章

    14

    浏览量

    8110
收藏 人收藏

    评论

    相关推荐

    [分享]超强的压缩内存

     和大家分享一款超强的压缩内存  
    发表于 05-27 14:18

    关于从Labview表格提取一列数值生成数组问题

    我把txt文件里的内容分别导入到如图所示的表格中,一共4列,现在我想把最后一列也就是数据值提取出来,生成一个数组。能不能通过不写入EXCEL,再提取完成。
    发表于 04-27 21:16

    如何将文件pdf转换成excel格式的表格

    机制能够准确读取各种文件内容,并可以非常准确地全文件识别转化中文、英文、表格。除了具备较好的转换效果之外,迅捷PDF转换还在此基础上集成了较好的批量PDF转换功能。换句话说,用户可以
    发表于 11-08 16:18

    NLPIR在文本信息提取方面的优势介绍

    ,NLPIR平台KGB知识图谱在文本信息提取的优势: 1、能够解析不同格式文档和图片KGB知识图谱引擎,能够对不同版本和格式的文档进行解析:TXT、DOC、EXCEL、PPT、PDF、XML等,对于图片,OCR
    发表于 09-12 15:33

    word表格小技巧

    word表格小技巧 一、快速插入表格   拖动“插入表格”能插入的最大表格跟该图标位置、显示分辨率有关。如使用800×600分辨率时最大为18行×28
    发表于 01-08 09:56 1557次阅读

    Matlab经典超强教程

    电子发烧友网站提供《Matlab经典超强教程.pdf》资料免费下载
    发表于 07-15 15:21 37次下载

    Python的PDF表格提取-Camelot

    Python 第三方模块 Camelot 能够精准识别PDF中的表格信息,并提取为pandas数据结构,而且还能导出为多种格式:JSON,Excel,HTML和Sqlite。
    的头像 发表于 02-24 11:04 2099次阅读
    Python的<b class='flag-5'>PDF</b><b class='flag-5'>表格</b><b class='flag-5'>提取</b><b class='flag-5'>器</b>-<b class='flag-5'>Camelot</b>

    如何提取Word文档表格保存到Excel

    提取到Excel表中。例如,提取word文档中的财务数据、考勤数据等,将数据存储到 Excel表中,本次项目我们专门针对word文档中的表格数据进行解析与提取
    的头像 发表于 02-24 16:00 2647次阅读
    如何<b class='flag-5'>提取</b>Word文档<b class='flag-5'>表格</b>保存到Excel

    Camelot:Python超强大PDF表格提取

    如果你有从PDF中批量提取表格的需求,那么这篇文章就是你的福音。 Python 第三方模块 Camelot 能够精准识别PDF中的
    的头像 发表于 10-21 10:57 1384次阅读
    <b class='flag-5'>Camelot</b>:Python<b class='flag-5'>超强大</b>的<b class='flag-5'>PDF</b><b class='flag-5'>表格</b><b class='flag-5'>提取</b><b class='flag-5'>器</b>

    Camelot模块的使用方法

    如果你有从PDF中批量提取表格的需求,那么这篇文章就是你的福音。 Python 第三方模块 Camelot 能够精准识别PDF中的
    的头像 发表于 11-01 10:02 915次阅读
    <b class='flag-5'>Camelot</b>模块的使用方法

    表格vlookup函数的使用方法

    表格 VLOOKUP 函数是 Microsoft Excel 中非常强大和常用的函数之一。它可以在一个表格中查找特定的值,并在另一个表格中返回对应的结果。跨
    的头像 发表于 12-01 10:56 2617次阅读

    wps能不能用vlookup函数与数组结合提取多列数据

    WPS表格是一个功能强大的电子表格软件,它提供了一系列函数,包括VLOOKUP函数,用于在表格中查找和提取数据。VLOOKUP函数能够根据某
    的头像 发表于 12-01 11:07 1393次阅读

    何为Teable多维表格数据库,它仅仅是一个在线的智能表格吗?

    表格是一种创新的数据管理和协作工具,它结合了传统电子表格的直观界面与关系数据库的强大功能。用户不仅可以像在Excel中一样在二维表格内记录和编辑数据,还能享受到基于数据结构的灵活管理
    的头像 发表于 10-14 16:13 262次阅读

    多维表格属于低代码平台吗?

    Teable多维表格数据库是一款功能强大的云端数据库和协作工具,结合了电子表格的灵活性和数据库的强大功能,适用企业内部项目管理 数据收集与整理 内容管理与创意协作 客户关系管理 项目跟
    的头像 发表于 10-17 14:22 169次阅读

    传统电子表格Excel和Teable多维表格数据库的区别?

    传统Excel是一款功能强大的电子表格软件,它的数据处理 分析以及图表制作等功能给工作带来了很多便利,但也有自身的局限性,本文介绍的多维表格Teable数据库将在传统电子表格Excel
    的头像 发表于 10-23 16:44 179次阅读