Добавить новость
ru24.net
Работа
Январь
2025
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
21
22
23
24
25
26
27
28
29
30
31

Извлечь контент из PDF через Python

0
Извлечь все элементы PDF файла (текст, изображения, графики, формулы)
ссылка на файл

используя Python-библиотеки:

  • PyPDF2 или pdfplumber для текста.
  • PyMuPDF (fitz) для извлечения изображений и графиков.
  • pytesseract для OCR, для текста встроеного в изображения.
  • Код для извлечения:
  • import fitz # PyMuPDF для PDF
    # Открываем PDF
    pdf_file = "file.pdf"
    doc = fitz.open(pdf_file)
    # Извлекаем содержимое
    for page_num in range(len(doc)):
    page = doc[page_num]
    text = page.get_text("text") # Извлекаем текст
    images = page.get_images(full=True) # Извлекаем изображения

    # Обрабатываем изображения
    for img_index, img in enumerate(images):
    xref = img[0]
    base_image = doc.extract_image(xref)
    image_bytes = base_image["image"]

    # Сохраняем изображения как файл (например, PNG)
    with open(f"image_page{page_num}_{img_index}.png", "wb") as img_file:
    img_file.write(image_bytes)

    print("Извлечение завершено.")



  • Moscow.media
    Частные объявления сегодня





    Rss.plus




    Спорт в России и мире

    Новости спорта


    Новости тенниса
    Australian Open

    «Я слишком стара, но иду дальше». Списанная русская теннисистка покоряет Австралию и готова мстить за Мирру






    Парки Реутова подготовили еженедельную программу мероприятий

    Генеральный директор АО «АК«Железные дороги Якутии» ответил на вопросы представителей региональных СМИ

    Пассажиропоток томского аэропорта "Камов" вырос на 8,9% в 2024 году

    Воробьев: Онлайн-собрания собственников жилья сделают смену УК прозрачной