Извлечь контент из PDF через Python
ссылка на файл
используя Python-библиотеки:
import fitz # PyMuPDF для PDF
# Открываем PDF
pdf_file = "file.pdf"
doc = fitz.open(pdf_file)
# Извлекаем содержимое
for page_num in range(len(doc)):
page = doc[page_num]
text = page.get_text("text") # Извлекаем текст
images = page.get_images(full=True) # Извлекаем изображения
# Обрабатываем изображения
for img_index, img in enumerate(images):
xref = img[0]
base_image = doc.extract_image(xref)
image_bytes = base_image["image"]
# Сохраняем изображения как файл (например, PNG)
with open(f"image_page{page_num}_{img_index}.png", "wb") as img_file:
img_file.write(image_bytes)
print("Извлечение завершено.")