'PDF' 태그의 글 목록

PDF

PDF 파일 합치기 (Merge PDF Files) 2025.03.10
PDF 파일을 그림 파일(PNG)로 변환하기 2025.02.02
주기적 화면 캡처 및 OCR 적용된 PDF 파일로 변환 (나만의 eBook 만들기) 2025.01.12
eBPF 스터디 자료 (eBook, PDF) 2024.12.16
PDF 일부 페이지만 분리하여 저장 (특정 페이지 추출 후 저장) 2023.09.19

PDF 파일 합치기 (Merge PDF Files)

2025. 3. 10. 15:12

작성일: 2025년 3월 10일

현재 폴더에 있는 모든 PDF 파일을 1개의 PDF 파일로 합치고 싶다면, 아래의 Python script를 실행하면 된다.

 ## File name: main.py
 
from PyPDF2 import PdfMerger
 
import os
files = os.listdir('./')
 
def merge_pdf_files():
    merger = PdfMerger()
    pdf_files = [x for x in files if x.endswith(".pdf")]
    [merger.append(pdf) for pdf in pdf_files]
    with open("merged_pdf_all.pdf", "wb") as new_file:
        merger.write(new_file)
 
if __name__ == "__main__":
    merge_pdf_files()

위 Python script를 아래와 같이 실행한다.

(만약 PyPDF2 패키지가 아직 설치되지 않았다면, PyPDF2 패키지를 먼저 설치하고 python script를 실행할 것!)

 $ pip3 install PyPDF2
 
$ python3 main.py

저작자표시 비영리 변경금지

'Python' 카테고리의 다른 글

PDF 파일을 그림 파일(PNG)로 변환하기 (0)	2025.02.02
주기적 화면 캡처 및 OCR 적용된 PDF 파일로 변환 (나만의 eBook 만들기) (0)	2025.01.12
Python 온라인 자습서(Tutorial), Reference, Howto, API 문서 (0)	2024.03.27
Python Log Class 및 예제 (0)	2024.03.26
Bind9 Zone 파일의 Serial 변경하는 Python Script, Bash Script (0)	2024.03.25

PDF 파일을 그림 파일(PNG)로 변환하기

2025. 2. 2. 08:17

작성일: 2025년 2월 2일

PDF 파일에 있는 각 페이지를 각각의 그림 파일(PNG)로 변환하고자 할 때, 아래처럼 따라하면 된다.

PyMuPDF 파이썬 패키지 설치하기

$ pip install pymupdf

PDF 파일을 이미지 파일(PNG)로 변환하기 위한 코드 작성하기

 ## File name: main.py
 
import sys, pymupdf
 
fname = sys.argv[1]
doc = pymupdf.open(fname)
 
for page in doc:  
    pix = page.get_pixmap(dpi=300)  ## 참고: 300 DPI 해상도로 이미지를 변환.
    pix.save("page-%i.png" % page.number)  # PNG 포맷의 이미지 파일로 저장

Python 코드 실행하기

$ python3 main.py myexample.pdf

위 python code를 실행하면, page-1.png page-2.png ... 처럼 각 페이지 단위로 그림 파일이 생성된다.

PyMuPDF 파이썬 패키지 - 공식 매뉴얼

https://pymupdf.readthedocs.io/en/latest/recipes-images.html#how-to-make-images-from-document-pages

저작자표시 비영리 변경금지

'Python' 카테고리의 다른 글

PDF 파일 합치기 (Merge PDF Files) (0)	2025.03.10
주기적 화면 캡처 및 OCR 적용된 PDF 파일로 변환 (나만의 eBook 만들기) (0)	2025.01.12
Python 온라인 자습서(Tutorial), Reference, Howto, API 문서 (0)	2024.03.27
Python Log Class 및 예제 (0)	2024.03.26
Bind9 Zone 파일의 Serial 변경하는 Python Script, Bash Script (0)	2024.03.25

주기적 화면 캡처 및 OCR 적용된 PDF 파일로 변환 (나만의 eBook 만들기)

2025. 1. 12. 12:30

작성일: 2025년 1월 12일

문서를 읽다보면, 한 화면씩 넘기면서 캡처한 내용을 PDF 파일로 만들어야 할 경우가 있다. (즉, eBook처럼 만들어야 하는 경우)

그리고 이 PDF 파일에서 문자열 검색이 가능하도록 OCR을 적용해야 할 경우도 발생한다.

그럴 때 아래와 같이 Python Script를 작성해서 실행하면 된다.

Step 1: 화면 캡처해서 PNG 파일로 저장하기

아래 Python source code 처럼 작성하고, -R 옵션 부분만 수정해서 사용하면 된다.

-R 옵션은 캡처할 화면의 위치(X, Y 좌표)이다.

그리고 maxPages는 내가 만들 PDF 파일의 전체 페이지이다.

 #!/opt/homebrew/bin/python3
 
import os
import time
import pyautogui
 
## 숫자 745를 2로 나눈 이유는 2 Page를 한 화면으로 캡처하기 위함.
maxPage = (745 // 2) + 1
 
time.sleep(5)
 
for idx in range(maxPage):
    ## 숫자 110,170,1785,1205는 캡처할 화면의 위치에 대한 X-Y 좌표 값이다.
    ## 캡처할 때마다 이 숫자를 조정해서 사용해야 한다.
    my_cmd = "screencapture -R110,170,1785,1205 p_%04d.png" % idx
    print("cmd:", my_cmd)
    os.system(my_cmd)
 
    ## 오른쪽 화살표 키를 누르면서 한 화면씩 캡처하기.
    pyautogui.press('right')
    time.sleep(1)

Step 2: 여러 개의 PNG 파일을 PDF 파일로 변환하기

Python source code를 작성하기 전에 "img2pdf" package를 설치한다.

$ pip3 install img2pdf

자세한 내용은 아래 Web document를 참고;

https://pypi.org/project/img2pdf/

img2pdf 명령어도 제공하기 때문에 python source code를 작성하지 않아도 image 파일을 PDF 파일로 변환할 수 있다.

그러나 여러 image 파일간의 순서(sorting) 같은 것도 필요해서 아래와 같이 source code를 작성해야 할 필요가 있을 것이다.

 #!/opt/homebrew/bin/python3
 
import os
import img2pdf
 
# Replace the directory path with the folder containing JPEG images to be converted
directory_path = "."
 
image_files = [idx for idx in sorted(os.listdir(directory_path)) if idx.endswith(".png")]
 
# Convert the list of JPEG images to a single PDF file
pdf_data = img2pdf.convert(image_files)
 
# Write the PDF content to a file (make sure you have write permissions for the specified file)
with open("my-book.pdf", "wb") as file:
    file.write(pdf_data)

위에서 작성한 python code를 실행한다.

$ ./my-img2pdf

참고: 위와 같이 PDF 파일로 변환하면, 글자가 그림으로 표현되기 때문에 "문자열" 검색이 되도록 하려면 OCR을 적용해야 한다.

Step 3: PDF 파일에 OCR 적용하기

OCR 관련 소프트웨어 패키지를 설치하기

OCRmyPDF 패키지와 다국어 관련 패키지 tesseract-lang을 설치한다.

 $ brew install ocrmypdf
 
## 영어 이외에 언어(예: 한국어, 일본어, 중국어)를 사용하려면 아래와 같이 tesseract-lang 패키지를 설치
$ brew install tesseract-lang

기존 PDF 파일을 OCR 적용된 PDF 파일로 변환하기

 ## "eng+kor" 옵션을 설정하여 Image에 있는 영어, 한국어를 인식하도록 함.
$ ocrmypdf -l eng+kor my-book.pdf my-book-ocr.pdf

Apple m2 CPU를 사용했을 경우, 만약 500 Page 분량이면 ocymypdf 명령이 완료되기 까지 10분 정도 소요된다.

그리고 8개의 CPU Core 사용률이 모두 95% 이상이 된다.

자세한 내용은 아래 웹 문서를 참고;

https://github.com/ocrmypdf/OCRmyPDF

이렇게 하면, 여러 개의 그림 파일(.jpg, .png, .gif, .tiff 등)을 1개의 PDF 파일로 만들 수 있다. 나만의 eBook이 만들어지는 셈이다.

저작자표시 비영리 변경금지

'Python' 카테고리의 다른 글

PDF 파일 합치기 (Merge PDF Files) (0)	2025.03.10
PDF 파일을 그림 파일(PNG)로 변환하기 (0)	2025.02.02
Python 온라인 자습서(Tutorial), Reference, Howto, API 문서 (0)	2024.03.27
Python Log Class 및 예제 (0)	2024.03.26
Bind9 Zone 파일의 Serial 변경하는 Python Script, Bash Script (0)	2024.03.25

eBook(PDF) - Learning eBPF

https://isovalent.com/books/learning-ebpf/

O'Reilly book: Learning eBPF by Liz Rice

The O'Reilly book Learning eBPF by Liz Rice now available for download!

isovalent.com

참고: 위 책에 소개된 예제 코드는 아래 github에서 열람할 것.

https://github.com/lizrice/learning-ebpf?tab=readme-ov-file

GitHub - lizrice/learning-ebpf: Learning eBPF, published by O'Reilly - out now! Here's where you'll find a VM config for the exa

Learning eBPF, published by O'Reilly - out now! Here's where you'll find a VM config for the examples, and more - lizrice/learning-ebpf

github.com

libbpfgo-beginners

https://github.com/lizrice/libbpfgo-beginners

GitHub - lizrice/libbpfgo-beginners: Basic eBPF examples in Golang using libbpfgo

Basic eBPF examples in Golang using libbpfgo. Contribute to lizrice/libbpfgo-beginners development by creating an account on GitHub.

github.com

책 저자 - Liz Rice

https://www.lizrice.com/#6

Liz Rice - containers, eBPF, security, Kubernetes, software engineering

Liz Rice is a software engineer and entrepreneur based in London, UK. As Chief Open Source Officer for eBPF experts Isovalent, she travels the world speaking about containers, security and distributed systems. Her programming language of choice is Golang,

www.lizrice.com

eBPF - Official Web Site

https://ebpf.io/get-started/

eBPF - Introduction, Tutorials & Community Resources

eBPF is a revolutionary technology that can run sandboxed programs in the Linux kernel without changing kernel source code or loading a kernel module.

ebpf.io

저작자표시 비영리 변경금지

'IT General' 카테고리의 다른 글

오픈소스 라이선스(라이센스) 가이드 - BSD, Apache, GPL, MPL, EPL (0)	2025.01.11
Download Linux Kernel Source Code from GitHub - Git Clone (0)	2025.01.10
VPN 시장 점유율 통계 (0)	2024.12.13
Intel Xeon CPU 성능 정보 (성능 지표, GFLOPS, APP 측정값) (0)	2024.11.13
[ IT 용어, 축약어 ] BMT, SVT, DVT, CVT, EVT, UAT (0)	2024.08.07

PDF 일부 페이지만 분리하여 저장 (특정 페이지 추출 후 저장)

2023. 9. 19. 00:07

작성일: 2025년 3월 14일

수백 페이지 분량의 PDF 문서를 읽다보면, 특정 페이지 몇 장만 골라서 저장하고 싶을 때가 있다.

PDF 편집기 같은 유료 프로그램이 있다면, 원하는대로 편집해서 저장할 수 있지만

돈을 지출하지 않고 PDF 문서에서 몇 페이지만 추출하여 저장하고 싶다면,

인쇄 버튼을 누르고 추출하고 싶은 페이지 번호만 입력하고, PDF 문서로 출력하기를 선택하면 된다.

내 느낌인지는 모르겠지만, 이렇게 PDF 문서를 "PDF 문서로 저장"하면 약간 품질이 떨어지는 것 같다. ^^

또 다른 방법: Python script로 특정 페이지만 골라서 새 PDF 파일에 저장하기

아래의 python script를 실행하면 된다.

 import PyPDF2
 
with open("origin.pdf", "rb") as origin_pdf_file:
    pdf_reader = PyPDF2.PdfReader(origin_pdf_file)
    pdf_writer = PyPDF2.PdfWriter()
    ## 아래 코드 중에 '1, 3, 5' 부분을 본인이 추출하기를 원하는 페이지 번호로 지정할 것!
    for page_num in [1, 3, 5]:  # 추출할 페이지 번호 (0부터 시작)
        page = pdf_reader.pages[page_num]
        pdf_writer.add_page(page)
 
    with open("new.pdf", "wb") as new_pdf:
        pdf_writer.write(new_pdf)

아래와 같이 명령을 실행한다.

 $ pip3 install PyPDF2
 
$ python3 pdf-extract.py

위 명령을 실행하고 나면, 'new.pdf' 파일이 생성될 것이고

이 'new.pdf' 파일을 PDF Reader로 열어서 확인해보면 된다.

저작자표시 비영리 변경금지

'Life' 카테고리의 다른 글

[노트 앱] 개발자에게 적절한 노트앱 비교 (Notion, Evernote, OneNote) (0)	2024.01.05
[전원 주택, 모듈 주택, 모듈러 주택] 땅 선택 요령, 건설 업체 리서치 (0)	2023.12.04
롯데마트 매장별 재고 확인 (0)	2023.08.18
대한민국 전국 인구 통계 (0)	2023.07.22
과천 꽃 가게 - 자연인의집 (0)	2023.07.12

PREV 1 NEXT

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

sejong.jeonjo@gmail.com

PDF

PDF 파일 합치기 (Merge PDF Files)

'Python' 카테고리의 다른 글

PDF 파일을 그림 파일(PNG)로 변환하기

PyMuPDF 파이썬 패키지 설치하기

PDF 파일을 이미지 파일(PNG)로 변환하기 위한 코드 작성하기

Python 코드 실행하기

PyMuPDF 파이썬 패키지 - 공식 매뉴얼

'Python' 카테고리의 다른 글

주기적 화면 캡처 및 OCR 적용된 PDF 파일로 변환 (나만의 eBook 만들기)

Step 1: 화면 캡처해서 PNG 파일로 저장하기

Step 2: 여러 개의 PNG 파일을 PDF 파일로 변환하기

Step 3: PDF 파일에 OCR 적용하기

OCR 관련 소프트웨어 패키지를 설치하기

기존 PDF 파일을 OCR 적용된 PDF 파일로 변환하기

'Python' 카테고리의 다른 글

eBPF 스터디 자료 (eBook, PDF)

eBook(PDF) - Learning eBPF

libbpfgo-beginners

책 저자 - Liz Rice

eBPF - Official Web Site

'IT General' 카테고리의 다른 글

PDF 일부 페이지만 분리하여 저장 (특정 페이지 추출 후 저장)

또 다른 방법: Python script로 특정 페이지만 골라서 새 PDF 파일에 저장하기

'Life' 카테고리의 다른 글

+ Recent posts

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

	## File name: main.py

	from PyPDF2 import PdfMerger

	import os
	files = os.listdir('./')

	def merge_pdf_files():
	merger = PdfMerger()
	pdf_files = [x for x in files if x.endswith(".pdf")]
	[merger.append(pdf) for pdf in pdf_files]
	with open("merged_pdf_all.pdf", "wb") as new_file:
	merger.write(new_file)

	if __name__ == "__main__":
	merge_pdf_files()

	## File name: main.py

	import sys, pymupdf

	fname = sys.argv[1]
	doc = pymupdf.open(fname)

	for page in doc:
	pix = page.get_pixmap(dpi=300) ## 참고: 300 DPI 해상도로 이미지를 변환.
	pix.save("page-%i.png" % page.number) # PNG 포맷의 이미지 파일로 저장

	#!/opt/homebrew/bin/python3

	import os
	import time
	import pyautogui

	## 숫자 745를 2로 나눈 이유는 2 Page를 한 화면으로 캡처하기 위함.
	maxPage = (745 // 2) + 1

	time.sleep(5)

	for idx in range(maxPage):
	## 숫자 110,170,1785,1205는 캡처할 화면의 위치에 대한 X-Y 좌표 값이다.
	## 캡처할 때마다 이 숫자를 조정해서 사용해야 한다.
	my_cmd = "screencapture -R110,170,1785,1205 p_%04d.png" % idx
	print("cmd:", my_cmd)
	os.system(my_cmd)

	## 오른쪽 화살표 키를 누르면서 한 화면씩 캡처하기.
	pyautogui.press('right')
	time.sleep(1)

	#!/opt/homebrew/bin/python3

	import os
	import img2pdf

	# Replace the directory path with the folder containing JPEG images to be converted
	directory_path = "."

	image_files = [idx for idx in sorted(os.listdir(directory_path)) if idx.endswith(".png")]

	# Convert the list of JPEG images to a single PDF file
	pdf_data = img2pdf.convert(image_files)

	# Write the PDF content to a file (make sure you have write permissions for the specified file)
	with open("my-book.pdf", "wb") as file:
	file.write(pdf_data)

	$ brew install ocrmypdf

	## 영어 이외에 언어(예: 한국어, 일본어, 중국어)를 사용하려면 아래와 같이 tesseract-lang 패키지를 설치
	$ brew install tesseract-lang

	## "eng+kor" 옵션을 설정하여 Image에 있는 영어, 한국어를 인식하도록 함.
	$ ocrmypdf -l eng+kor my-book.pdf my-book-ocr.pdf

	import PyPDF2

	with open("origin.pdf", "rb") as origin_pdf_file:
	pdf_reader = PyPDF2.PdfReader(origin_pdf_file)
	pdf_writer = PyPDF2.PdfWriter()
	## 아래 코드 중에 '1, 3, 5' 부분을 본인이 추출하기를 원하는 페이지 번호로 지정할 것!
	for page_num in [1, 3, 5]: # 추출할 페이지 번호 (0부터 시작)
	page = pdf_reader.pages[page_num]
	pdf_writer.add_page(page)

	with open("new.pdf", "wb") as new_pdf:
	pdf_writer.write(new_pdf)