显然,这不是一件容易的事,PDF格式比HTML格式丰富得多(此外,您必须提取图像并将其链接等)。
简单的文本提取要简单得多(尽管不小…)。
我在问题的侧边栏中看到一个类似的问题:使用Python将PDF转换为HTML,这指向一个库(poppler,它显然是用C
++编写的,也许可以用JNI / JNA进行访问),还涉及到一个相关的问题,甚至更多答案。

显然,这不是一件容易的事,PDF格式比HTML格式丰富得多(此外,您必须提取图像并将其链接等)。
简单的文本提取要简单得多(尽管不小…)。
我在问题的侧边栏中看到一个类似的问题:使用Python将PDF转换为HTML,这指向一个库(poppler,它显然是用C
++编写的,也许可以用JNI / JNA进行访问),还涉及到一个相关的问题,甚至更多答案。