1.目标
自动识别图片内容工具
价值:程序的目标是简化人为操作
痛点:每一步都需要人为操作
2.整体流程
原来流程:
ocr工具流程
步骤1:把图片都下载到本地
步骤2: 通过ocr程序进行识别
步骤3: 把识别出的整体文档放入一个集合中
步骤4: 通过提示词调用openai的gpt接口
步骤5: gpt返回json格式数据,转换成对象,放入到一个集合中
步骤6: 把集合数据通过esayexcel 导出excel文件
3.对接gpt api
目前一共对接了几家gpt
1.阿里的通义千问
对接阿里的感想,效果一般,识别的不正确,有些时候 返回的不是json格式。
2.openai gpt
对接openai 的3.5模型,目前唯一识别比较不错的,而且返回的格式也正确。
3.Azure gpt
对接Azure 是相当于国内代理,但是有一个致命的缺点,当地址中有一些违禁词,Azure是什么都不返回。
目前一直在用的是openai的3.5模型的api,这三个对比中效果比较好的,回复也是比较准确的。
4.心得与感想
借用ai的能力,作为项目流程中的一环,并且能够过准确的回复用户想要的数据,目前行业内比较前沿的。
2023年是大模型的元年,2024年是ai应用的元年,2024年会有更多的应用进行面世。