Имате PDF документ, от който бихте искали да извлечете целия текст? Ами файловете с изображения на сканиран документ, който искате да конвертирате в редактируем текст? Това са някои от най-често срещаните проблеми, които съм виждал на работното място при работа с файлове.
В тази статия ще говоря за няколко различни начина, по които може да се опитате да извлечете текст от PDF или от изображение. Резултатите от екстракцията ви ще варират в зависимост от типа и качеството на текста в PDF файла или изображението. Също така, резултатите ви ще варират в зависимост от инструмента, който използвате, затова е най-добре да изпробвате колкото се може повече от опциите по-долу, за да постигнете най-добри резултати.
Най-простият и бърз начин да започнете е да опитате онлайн услуга за извличане на PDF текст. Те обикновено са безплатни и могат да ви дадат точно това, което търсите, без да се налага да инсталирате нищо на компютъра си. Ето две, които съм използвал с много добри до отлични резултати:
ExtractPDF е безплатен инструмент за извличане на изображения, текст и шрифтове от PDF файл. Единственото ограничение е, че максималният размер на PDF файла е 10 MB. Това е малко малко; така че ако имате по-голям файл, опитайте някои от другите методи по-долу. Изберете файла си и след това кликнете върху Изпратете файла бутон. Резултатите обикновено са много бързи и трябва да видите предварителен преглед на текста, когато кликнете върху раздела Текст.
Също така е хубаво добавена полза, която извлича изображения от PDF файла, само в случай, че имате нужда от тях! Като цяло, онлайн инструментът работи чудесно, но аз имам разбрани няколко PDF документа, които ми дават забавна продукция. Текстът се извлича добре, но по някаква причина ще има прекъсване на реда след всяка дума! Не е огромен проблем за кратък PDF файл, но със сигурност е проблем за файлове с много текст. Ако това се случи с вас, опитайте следващия инструмент.
Онкологично разпознаваемите реклами обикновено тенденцират да работят за документите, които не са конвертирали правилно с ExtractPDF, така че е добра идея да опитате и двете услуги, за да видите кои ви дават по-добра производителност. Онлайн OCR също има някои по-хубави функции, които могат да се окажат полезни за всеки с голям PDF файл, който само трябва да конвертира текст на няколко страници, а не на целия документ.
Първото нещо, което искате да направите, е да продължите и да създадете безплатен профил. Това е малко досадно, но ако не създадете безплатния акаунт, той ще преобразува само частично вашия PDF, а не целия документ. Освен това, вместо да можете да качвате само 5 MB документ, можете да качите до 100 MB на файл с профил.
Първо, изберете език и след това изберете типа изходни формати, които бихте искали за преобразувания файл. Имате няколко опции и можете да изберете повече от една, ако искате. при Многостраничен документ, можете да изберете Номерата на страниците и след това изберете само страниците, които искате да конвертирате. След това изберете файла и кликнете върху него превръщам!
След преобразуването ще бъдете отведени в секцията Документи (ако сте влезли в профила си), където можете да видите колко свободни свободни страници имате и връзки, за да изтеглите конвертираните файлове. Изглежда, че имате само 25 страници безплатно на ден, така че ако имате нужда от повече от това, ще трябва или да изчакате малко, или да купите повече страници.
Онлайн OCR направи отлична работа за преобразуване на моите PDF файлове, защото беше в състояние да поддържа действителното оформление на текста. В моя тест, взех док на Word, който използва куршуми, различни размери на шрифтове и т.н. и го превръща в PDF файл. След това използвах онлайн OCR, за да го преобразувам обратно в Word формат и беше около 95% същата като оригинала. Това е доста впечатляващо за мен.
Освен това, ако искате да конвертирате изображение в текст, то онлайн OCR може да направи това толкова лесно, колкото и извличането на текст от PDF файлове.
Тъй като се говори за изображение на текст OCR, нека да спомена друг добър сайт, който работи много добре на изображения. Безплатният OCR беше много добър и много точен при извличането на текст от моите тестови изображения. Взех няколко снимки от моя iPhone на страници от книги, брошури и т.н. и бях изненадан колко добре успя да превърне текста.
Изберете файла си и след това кликнете върху бутона Качване. На следващия екран има няколко опции и визуализация на изображението. Можете да я изрежете, ако не искате да отразявате цялата информация. След това просто кликнете върху бутона OCR и вашият преобразуван текст ще се появи под визуализацията на изображението. Той също така няма никакви ограничения, което е наистина хубаво.
В допълнение към онлайн услугите, има два безплатни PDF конвертора, които искам да спомена в случай, че имате нужда от софтуер, работещ локално на вашия компютър, за да извършите реализациите. С онлайн услугите винаги ще се нуждаете от интернет връзка и това може да не е възможно за всички. Забелязах обаче, че качеството на реализациите от безплатните програми е значително по-лошо от това на уеб сайтовете.
A-PDF Text Extractor е безплатна програма, която прави доста добра работа при извличане на текст от PDF файлове. След като го изтеглите и инсталирате, щракнете върху бутона Отвори, за да изберете вашия PDF файл. След това кликнете върху Извличане на текст, за да започнете процеса.
Той ще ви попита къде да съхраните текстовия файл и след това той ще започне да се извлича. Можете също да кликнете върху опция който ви позволява да избирате само определени страници за извличане и типа извличане. Вторият вариант е интересен, защото извлича текста в различни оформления и си заслужава да опитате и трите, за да видите кои ви дават най-добрия резултат.
PDF2Text Пилотът прави добре работата по извличане на текст. Тя няма опции; просто добавяте файлове или папки, конвертирате и се надявате за най-доброто. Тя работи добре на някои PDF файлове, но за мнозинството от тях имаше многобройни проблеми.
Трябва само да кликнете върху Добавяне на файлове и след това върху превръщам, Щом приключи преобразуването, кликнете върху Преглед, за да отворите файла. Пробегът ще варира с тази програма, така че не очаквайте много.
Също така си струва да споменем, че ако сте в корпоративна среда или може да получите ръцете си от копие на Adobe Acrobat от работа, тогава наистина можете да получите много по-добри резултати. Acrobat очевидно не е безплатен, но има опции за конвертиране на PDF в Word, Excel и HTML формат. Също така прави най-добрата задача да поддържа структурата на оригиналния документ и да преобразува сложния текст.