AI自动识别图片内容工具

1.目标

自动识别图片内容工具

价值：程序的目标是简化人为操作

痛点：每一步都需要人为操作

原来流程：

ocr工具流程

步骤1：把图片都下载到本地

步骤2: 通过ocr程序进行识别

步骤3: 把识别出的整体文档放入一个集合中

步骤4: 通过提示词调用openai的gpt接口

步骤5: gpt返回json格式数据，转换成对象，放入到一个集合中

步骤6: 把集合数据通过esayexcel 导出excel文件

目前一共对接了几家gpt

1.阿里的通义千问

对接阿里的感想，效果一般，识别的不正确，有些时候返回的不是json格式。

2.openai gpt

对接openai 的3.5模型，目前唯一识别比较不错的，而且返回的格式也正确。

3.Azure gpt

对接Azure 是相当于国内代理，但是有一个致命的缺点，当地址中有一些违禁词，Azure是什么都不返回。

目前一直在用的是openai的3.5模型的api，这三个对比中效果比较好的，回复也是比较准确的。

借用ai的能力，作为项目流程中的一环，并且能够过准确的回复用户想要的数据，目前行业内比较前沿的。

2023年是大模型的元年，2024年是ai应用的元年，2024年会有更多的应用进行面世。