If-Koubou

Как мога да копирам текст от PDF като запазвам форматирането?

Как мога да копирам текст от PDF като запазвам форматирането? (Как да)

PDF, вездесъщият формат на документа, е чудесно за споделяне на документи, като запазва шрифтовете, изображенията и общото оформление между платформите. Има ли обаче лесен начин да запазите това много форматиране, когато копирате и поставяте текст извън документа?

Днешната сесия за въпроси и отговори ни идва с любезното съдействие на SuperUser - подразделение на Stack Exchange - обединяване на уеб сайтове с въпроси и отговори.

Въпроса

Четецът на SuperUser Colen търси начин за извличане на текст от PDF файлове, като същевременно запазва форматирането:

Когато копирам текст от PDF файл и в текстов редактор, той се смалява по различни начини. Форматирането като получер и курсив е изгубено; меките прекъсвания в рамките на един параграф от текста се превръщат в прекъсвания на твърдия ред; тирета да разчупят една дума над два реда се запазват, дори когато те не трябва да бъдат; и единичните и двойни котировки се заменят с? знаци.

В идеалния случай бих искал да мога да копирам текст от PDF формат и да преобразувам форматирането в HTML кодове, "интелигентни кавички", преобразувани в "и", и правилните прекъсвания на реда. Има ли някакъв начин да направите това?

Има ли бърз и лесен начин за Колин (и останалите от нас) да вземете текст, без да жертвате форматирането?

Отговорът

Сътрудникът на SuperUser Frabjous предлага решение, комбинирано с голяма доза предпазливост:

Първо, трябва да разберете какво е PDF. PDF файловете са предназначени да имитират отпечатана страница и са проектирани само като изходен формат, а не като входен формат. PDF по същество е карта, съдържаща точното местоположение на знаците (отделни букви или пунктуация и т.н.) или изображения. В повечето случаи PDF файлът дори не съхранява информация за това, къде една дума завършва и друга започва, много по-малко неща като меки прекъсвания или тежки почивки за крайни точки.

(Няколко скорошни PDF файла съхраняват известна информация за тези неща, но това е нова технология и ще имате късмета да намерите PDF файлове по този начин. Дори и да е, вашият PDF viewer може да не знае за него.)

Както и да е, вашият софтуер трябва да въведе някакъв "изкуствен интелект", който да извлече само от местоположенията на отделните знаци какво е дума, какъв е параграф и т.н. Различен софтуер ще направи това по-добре от други, и това също ще зависи от това как е направено PDF. Във всеки случай никога не трябва да очаквате перфектни резултати. Извеждането на изходния PDF файл не е същото като това на документа източник. Много по-добре да се опитате да получите това, ако можете.

Стандартното решение на проблема ви е да използвате Adobe Acrobat Professional (скъпият, а не безплатен четец), за да преобразувате PDF файла в HTML. Дори това няма да постигне перфектни резултати.

Има свободен софтуер, който може да се използва за извличане на текст от PDF файлове, като част от форматирането е непокътнат, но отново не очаквайте перфектни резултати. Вижте например калибър (който може да се конвертира във формат RTF), pdftohtml / pdfreflow или AbiWord текстообработващ процесор (с активирани всички внос / износ). Има и плъгин за импортиране на PDF файлове за OpenOffice.

Но моля, не очаквайте съвършенство с някой от тези резултати. Ти отиваш срещу зърното тук. PDF просто не е предназначен като редактируем формат на вход.

Ако имате проблеми с това кой инструмент да започнете, калибърът е истински документ на швейцарския армейски нож. Можете също така да го използвате, за да конвертирате PDF файлове за използване на вашия четец на електронни книги и да организирате библиотеката си за електронни книги / документи.

Имате ли нещо, което да добавите към обяснението? Звучи в коментарите. Искате ли да прочетете повече отговори от други потребители на Stack Exchange? Вижте цялата тема на дискусията тук.