AI自动识别图片内容工具

1.目标

自动识别图片内容工具

价值:程序的目标是简化人为操作

痛点:每一步都需要人为操作

2.整体流程

原来流程:

ocr工具流程

步骤1:把图片都下载到本地

步骤2: 通过ocr程序进行识别

步骤3: 把识别出的整体文档放入一个集合中

步骤4: 通过提示词调用openai的gpt接口

步骤5: gpt返回json格式数据,转换成对象,放入到一个集合中

步骤6: 把集合数据通过esayexcel 导出excel文件

3.对接gpt api

目前一共对接了几家gpt

1.阿里的通义千问

对接阿里的感想,效果一般,识别的不正确,有些时候 返回的不是json格式。

2.openai gpt

对接openai 的3.5模型,目前唯一识别比较不错的,而且返回的格式也正确。

3.Azure gpt

对接Azure 是相当于国内代理,但是有一个致命的缺点,当地址中有一些违禁词,Azure是什么都不返回。

目前一直在用的是openai的3.5模型的api,这三个对比中效果比较好的,回复也是比较准确的。

4.心得与感想

借用ai的能力,作为项目流程中的一环,并且能够过准确的回复用户想要的数据,目前行业内比较前沿的。

2023年是大模型的元年,2024年是ai应用的元年,2024年会有更多的应用进行面世。