MarkItDown 是一个由 Microsoft 开发的 Python 工具,主要用于将各种文件和办公文档转换为 Markdown 格式。这个工具的主要用途包括文本分析、索引和文档处理等。以下是 MarkItDown 的一些关键特性和用途:
支持的文件格式
MarkItDown 支持多种文件格式的转换,包括:
- PDF (.pdf)
- PowerPoint (.pptx)
- Word (.docx)
- Excel (.xlsx)
- 图像(支持 EXIF 元数据和 OCR)
- 音频(支持 EXIF 元数据和语音转录)
- HTML(特别处理维基百科等)
- 其他文本格式(如 CSV、JSON、XML 等)
- ZIP 文件(可以迭代内容并转换每个文件)
安装与使用
你可以通过以下方式安装 MarkItDown:
- 使用 pip 安装:
pip install markitdown
- 从源代码安装。
基本用法
使用 MarkItDown 的 API 非常简单。以下是一个基本的示例:
from markitdown import MarkItDown
markitdown = MarkItDown()
result = markitdown.convert("test.xlsx")
print(result.text_content)
命令行工具
MarkItDown 也可以作为命令行工具使用:
markitdown path-to-file.pdf
这将输出 Markdown 格式的内容到标准输出。你也可以将输出保存到文件中:
markitdown path-to-file.pdf document.md
高级功能
MarkItDown 还可以配置为使用大型语言模型(如 GPT-4)来描述图像。你需要提供相应的参数来初始化 MarkItDown 对象。
Docker 支持
该项目还支持 Docker,可以通过以下命令构建和运行:
docker build -t markitdown:latest .
docker run --rm -i markitdown:latest /your-file.pdf output.md
贡献与社区
MarkItDown 欢迎社区的贡献和建议。提交贡献时需要同意贡献者许可协议(CLA),以确保你有权利并实际授予使用你的贡献的权利。
总结
MarkItDown 是一个功能强大的工具,适合需要将多种文件格式转换为 Markdown 的用户,尤其是在文本分析和文档处理方面。它的易用性和多样的支持格式使其成为开发者和内容创作者的理想选择。
[1] https://github.com/microsoft/markitdown