依赖引入与适用场景
Maven 配置(推荐)
<repositories> <repository> <id>com.e-iceblue</id> <name>e-iceblue</name> <url>https://repo.e-iceblue.com/nexus/content/groups/public/</url> </repository> </repositories> <dependencies> <dependency> <groupId>e-iceblue</groupId> <artifactId>spire.doc.free</artifactId> <version>14.3.1</version> </dependency> </dependencies>
Gradle 配置
implementation 'e-iceblue:spire.doc.free:14.3.1@jar'

#2.2 适用场景

  • 文档在线预览系统:将本地 Word 转为 HTML 直接在网页展示
  • 内容迁移:Word 文案批量转为网页格式
  • 轻量文档处理:无付费需求、仅需基础格式转换的小型业务场景

#2.3 支持格式

输入:.doc(Word 97-2003)、.docx(Word 2007+) 输出:标准 HTML 格式


三、Word 转 HTML 核心技术

#3.1 转换原理

该库会解析 Word 文档结构(段落、表格、图片、样式等),并映射为 HTML 标签 + CSS 样式,支持文本、表格、图片、超链接、页眉页脚等绝大多数常用元素。

#3.2 核心 API

  • Document:Word 文档的核心操作类,负责加载、保存文档
  • FileFormat.Html:指定转换格式为 HTML
  • HtmlExportOptions:HTML 导出配置类(高级定制)

#3.3 基础转换代码

import com.spire.doc.*; public class WordToHtml { public static void main(String[] args) { // 1. 创建 Document 实例 Document doc = new Document(); // 2. 加载 Word 文档 doc.loadFromFile("C:\input\sample.docx"); // 3. 保存为 HTML 文件 doc.saveToFile("C:\output\toHtml.html", FileFormat.Html); // 4. 释放资源 doc.dispose(); System.out.println("Word 转 HTML 基础转换完成!"); } }

四、高级定制转换(HtmlExportOptions)

通过HtmlExportOptions可以自定义 CSS 样式、图片存储、页眉页脚等核心配置。

#4.1 核心配置项

  1. CSS 样式策略
    • Internal:CSS 内嵌到 HTML 文件(默认)
    • External:CSS 生成独立.css文件
  2. 图片存储策略
    • 外部存储:图片生成_images文件夹(默认)
    • Base64 嵌入:图片直接写入 HTML,单文件分发
  3. 页眉页脚:可选择是否导出(hasHeadersFooters

#4.2 完整高级定制代码

import com.spire.doc.Document; import com.spire.doc.FileFormat; import com.spire.doc.documents.html.HtmlExportOptions; import com.spire.doc.documents.html.CssStyleSheetType; public class WordToHtmlAdvanced { public static void main(String[] args) { Document doc = null; try { doc = new Document(); doc.loadFromFile("sample.docx"); // ===================== 高级配置 =====================