Извлечь контент из PDF через Python

20.01.2025 16:32

«Фрилансим»

Извлечь все элементы PDF файла (текст, изображения, графики, формулы)
ссылка на файл

используя Python-библиотеки:

PyPDF2 или pdfplumber для текста.

PyMuPDF (fitz) для извлечения изображений и графиков.

pytesseract для OCR, для текста встроеного в изображения.

Код для извлечения:

import fitz # PyMuPDF для PDF

# Открываем PDF

pdf_file = "file.pdf"

doc = fitz.open(pdf_file)

# Извлекаем содержимое

for page_num in range(len(doc)):

page = doc[page_num]

text = page.get_text("text") # Извлекаем текст

images = page.get_images(full=True) # Извлекаем изображения

# Обрабатываем изображения

for img_index, img in enumerate(images):

xref = img[0]

base_image = doc.extract_image(xref)

image_bytes = base_image["image"]

# Сохраняем изображения как файл (например, PNG)

with open(f"image_page{page_num}_{img_index}.png", "wb") as img_file:

img_file.write(image_bytes)

print("Извлечение завершено.")

Moscow.media

Частные объявления сегодня

Rss.plus