혹시나 해서 어도비 애크로뱃 리더에서 확인했는데, 정상입니다.
이런 문제가 생기면 어도비 애크로뱃 리더를 사용하세요. 끝.
(추가) 어도비 애크로뱃 리더에서도 같은 문제가 생기는 텍스트가 있네요. 좀 더 나을 뿐 완벽하지는 않다는 ㅠㅠ
ChatGPT에게 물어보니 PDF 문서의 구조 때문에 생기는 문제라고 합니다.
PDF는 원래 “문서”가 아니라 글자와 좌표를 찍어 놓은 그림에 가까운 구조입니다.
그래서 텍스트를 복사할 때는 내부적으로 "좌표에 있는 글자들을 사람이 읽는 순서대로 재조합"하는 과정이 필요하니다.
예를 들어 "있고, (3자에게)"라는 표현이 있다고 할 때 내부적으로 좌표값은 아래와 같이 지정됩니다.
(실제로는 좀 더 복잡한 구조로 저장이 됩니다).
(100, 500) → "있고"
(130, 498) → "("
(140, 498) → "3"
(150, 500) → "자에게"
(180, 498) → ")"
숫자와 기호만 y 좌표가 달라지면서 줄바꿈된 행으로 인식이 된다는 겁니다. 일반적으로 약간의 차이가 있을 수 있어서 뷰어에서 이를 보정해 주는데, 크롬 pdf 뷰어에서 보정해 주는 범위가 벗어나면 제대로 복사가 안될 수 있다는 설명입니다. 애크로뱃 리더는 좀 더 보정 로직이 튼튼하고 그래서 이런 문제를 어느 정도 커버해 주는 것이구요.
PDF 스펙 문서는 아래 링크에서 확인할 수 있는데 1310 페이지 분량입니다. 제대로 된 PDF 리더를 만드는 것은 쉬운 일이 아니겠네요.
https://opensource.adobe.com/dc-acrobat-sdk-docs/pdfstandards/pdfreference1.7old.pdf

728x90
반응형