Đánh dấu văn bản trong tài liệu PDF rất tiện lợi để đánh dấu các khu vực quan trọng mà bạn có thể truy cập sau này một cách nhanh chóng. Bạn có thể dùng Microsoft Edge để đánh dấu PDF hoặc bất kỳ phần mềm nào khác có tính năng tô sáng PDF. Đôi khi, bạn cũng có thể cảm thấy cần chỉ có văn bản được đánh dấu để bạn có thể có bản tóm tắt PDF chứa tất cả các văn bản cần thiết. Nếu bạn đang tìm kiếm một số cách để chỉ lưu văn bản được đánh dấu từ PDF dưới dạng tệp TXT, thì bài đăng này có thể hữu ích.
Nội dung
Trích xuất văn bản được đánh dấu từ PDF
Có một số phần mềm miễn phí và dịch vụ để trích xuất văn bản được đánh dấu từ tệp PDF và lưu dưới dạng tệp văn bản:
- PDF Highlight Extractor
- Foxit Reader
- Sumnotes.net
- DyAnnotationExtractor.
Hãy kiểm tra từng phần mềm PDF Highlight Extractor.
1]Trình trích xuất tô sáng PDF
PDF Highlight Extractor là một trong những tùy chọn dễ dàng nhất để trích xuất văn bản được đánh dấu từ tệp PDF. Điều này mã nguồn mở Trình trích xuất đánh dấu văn bản PDF có hai tính năng thu hút sự chú ý. Bạn có thể xem trước văn bản được đánh dấu PDF trên giao diện phần mềm.
Tính năng thứ hai là bạn có thể đặt trang bắt đầu hoặc trang kết thúc hoặc phạm vi trang để trích xuất văn bản. Vì vậy, thay vì quét toàn bộ PDF, bạn có thể xác định số trang để lấy văn bản được đánh dấu.
Một tính năng tốt khác là bạn có tùy chọn lưu văn bản dưới dạng văn bản thuần túy hoặc là Tệp Excel.
Trên giao diện của nó, thêm tệp PDF của bạn bằng cách sử dụng tùy chọn đã cho, sau đó nhấn Trích xuất. Bỏ chọn Tất cả các trang nếu bạn muốn đặt phạm vi trang hoặc để nguyên. Khi văn bản được tìm nạp, bạn có thể xem trước nó. Cuối cùng, nhấn Bản văn hoặc là Excel để lưu văn bản được đánh dấu.
Bạn có thể tải xuống phần mềm này từ đây. Java cũng cần thiết để sử dụng phần mềm này. Vì vậy, hãy cài đặt Java (nếu chưa có) và thực thi phần mềm này để sử dụng.
2]Trình đọc Foxit
Foxit Reader là một trong những trình đọc PDF miễn phí tốt nhất. Bạn có thể mở nhiều tệp PDF trong các tab riêng biệt, đánh dấu PDF, thêm ghi chú, xuất bình luận, thêm chữ ký, và hơn thế nữa. Trong số danh sách khổng lồ các tính năng, trích xuất văn bản được đánh dấu từ PDF cũng có ở đó. Phần tốt nhất của tính năng này là nó cũng lưu số trang cùng với văn bản được trích xuất.
Để tìm nạp văn bản được đánh dấu từ PDF, hãy mở tệp PDF trên giao diện của nó và truy cập Bình luận. Trong tab đó, nhấp vào Xuất khẩu có sẵn trong Quản lý nhận xét. Bạn sẽ thấy Văn bản được đánh dấu. Sử dụng tùy chọn đó và sau đó bạn có thể lưu tất cả văn bản được đánh dấu dưới dạng tệp văn bản.
Đây là liên kết tải xuống phần mềm này. Trong quá trình cài đặt, bạn nên chọn cài đặt tùy chỉnh chỉ bao gồm các thành phần bắt buộc của phần mềm này.
3]Sumnotes.net
Sumnotes.net là một dịch vụ miễn phí cho phép bạn chú thích PDF cũng như trích xuất văn bản được đánh dấu. Tất cả văn bản được đánh dấu sẽ hiển thị riêng biệt trên thanh bên trái. Sử dụng thanh bên đó, bạn cũng có thể xóa văn bản được đánh dấu mà bạn không cần và sau đó tải xuống phần còn lại của văn bản được đánh dấu.
Trước khi tải xuống văn bản được đánh dấu, bạn cũng có thể bao gồm số trang và loại trừ các văn bản được đánh dấu bằng màu cụ thể.
Bạn cũng có tùy chọn để lưu văn bản được đánh dấu từ PDF dưới dạng Excel hoặc là Word. Vì vậy, các tính năng là tốt. Bạn có thể đăng ký với một gói miễn phí và sau đó trích xuất 50 điểm nổi bật hoặc chú thích mỗi lần tải xuống, điều này là đủ trong hầu hết các trường hợp.
Đây là liên kết đến trang chủ của nó. Để trích xuất văn bản được đánh dấu từ PDF, hãy thêm PDF từ PC hoặc Google Drive. Khi tệp PDF được tải lên, chú thích và văn bản được đánh dấu sẽ hiển thị ở phía bên trái. Sử dụng Tải xuống chú thích và sau đó bạn có thể lưu văn bản được đánh dấu trong TXT, XLSX, hoặc là DOC.
4]DyAnnotationExtractor
Phần mềm DyAnnotationExtractor có thể giúp bạn trích xuất văn bản được đánh dấu và bình luận từ tài liệu PDF. Nó là một dòng lệnh mềm, nhưng sử dụng nó rất đơn giản. Chỉ một lệnh duy nhất sẽ tìm nạp văn bản được đánh dấu trong tệp PDF đầu vào.
Bạn có thể tải phần mềm này bằng cách sử dụng liên kết này. Tải xuống tệp ZIP của nó và sau đó giải nén nó. Để chạy lệnh dễ dàng hơn, bạn cũng nên đặt PDF vào cùng thư mục nơi bạn đã giải nén phần mềm này. Sau đó, mở Command Prompt trong thư mục đó. Bạn có thể làm điều đó bằng cách gõ cmd trong hộp địa chỉ của thư mục đó và sau đó nhấn Enter.
Khi cửa sổ CMD được mở, hãy thêm tệp BAT của phần mềm này, lệnh đầu vào bao gồm đường dẫn của PDF đầu vào, lệnh đầu ra và tên của tệp đầu ra cùng với phần mở rộng ‘.txt’. Lệnh đầy đủ sẽ là-
DyAnnotationExtractor.bat -input path of input PDF -output outputfilename.txt
Thực hiện lệnh. Chờ trong vài giây và tệp văn bản thuần túy sẽ sẵn sàng chứa tất cả văn bản được đánh dấu và nhận xét được tải xuống từ tệp PDF đó. Tệp đầu ra được lưu trong cùng một thư mục đầu vào.
Vì vậy, đây là một số tùy chọn bạn có thể sử dụng để trích xuất văn bản được đánh dấu từ PDF và sau đó lưu đầu ra dưới dạng tệp văn bản. Hy vọng những sự giúp đỡ.
Cảm ơn các bạn đã theo dõi TOP Thủ Thuật trên đây là những chia sẻ của chúng tôi về Làm thế nào để trích xuất văn bản được đánh dấu từ PDF dưới dạng tệp văn bản thuần túy?. Hy vọng bài viết tại chuyên mục Thủ Thuật Phần Mềm sẽ giúp ích được cho bạn. Trân trọng !!!