输入“/”快速插入内容

入门篇:应用广场超多案例解析 2025年1月9日

1月9日修改
会议信息
会议主题:01-09 | 入门篇:应用广场超多案例解析
会议时间:1月9号(周四) 19:50 - 22:14 (GMT+08)
智能纪要
智能会议纪要由 AI 生成,可能不准确,请谨慎甄别后使用
📄
总结
会议讨论了 AI 实训营多模态相关内容,涵盖模型能力、平台应用、知识库构建等。主要内容包括:
AI 实训营的多模态能力及相关内容介绍
前两日课程回顾:带领大家体验阿里云百炼大模型的应用广场,进行案例解析,还指导搭建文本知识库并接入钉钉和微信公众号。
多模态能力介绍:讲解百炼大模型平台的多模态能力,包括图像识别、处理和生成等,以及在商家运营场景中的解决方案和原始能力 API。
应用案例体验:体验淘宝拍立淘、支付宝图像搜索引擎、诗歌相机等多模态应用,还将拆解拍立得的多模态能力并开源项目。
学习资源与作业:提供新用户注册和老用户领取资源包的途径,布置作业,打卡满两次可获礼品,1 月 17 号 0 点截止作业提交,以阿里云 UID 作为打卡依据。
未来合作与更新:1 月 10 号将迎来 50 个以上插件更新,会与通义灵码合作推出 AI 编程课程。
多模态模型与视觉智能开放平台的能力介绍与应用
通义千问模型应用:介绍了通义千问 Feel Max 模型的图片理解能力,可根据输入的图片生成详尽描述和文案。
Flux 模型图像生成:体验了 Flux 模型生成商品鞋、飞机、小丑等图像,其底模表现不错,还能进行原子能力调用。
视觉智能开放平台:展示了视觉智能开放平台适用于千行百业,具备人脸、人体、文字识别等多种原子级解决方案能力,如美肤瘦脸、人体检测、文本识别等,还有爆款场景如老照片修复等。
图像知识库的构建与应用演示
新建数据表:新建名为图像知识库的结构化数据表,设置名称、描述、价格、图片链接等字段,字段类型设为 link。
导入数据:通过模型广场生成模拟数据,从百度图片获取真实图片链接,导入数据并选择覆盖或增量上传。
创建知识索引:创建图像知识库数据,选择结构化数据,选中图片链接字段导入完成,等待数据清洗。
应用调用测试:新建图像数据库问答应用,选择多模态模型,配置知识库,输入提示词进行测试,如搜索智能手表的图片和价格等。
阿里云百炼大模型的多模态能力介绍
智能手表推荐:根据图像知识库为用户推荐智能手表,介绍其功能和价格。
视频交互能力:投屏展示扫码体验方式,可实现多模态能力。
音频合成细节:模型能实时生成语音,在生成文字的同时进行语音播报,可应用于客服电话等场景。
音频理解与识别:对生成的音频进行识别,专有词需调教,实时语音识别可用于直播。
会议助手应用:多个原子能力结合加上 UI 界面可生成会议助手类的独立 APP。
视频生成模型:通义万象发布最新视频模型,在权威评测中居榜首,能根据文字生成视频,效果出色。
百炼大模型平台的能力与应用
纹身 AI 调用:2025 年 1 月 9 号更新的模型可通过 API 调用纹身 AI 等,需将 Dash scope API key 替换为自己的,Windows 用户可在左下角开始运行输入命令提示符进行本地调用,生成过程较缓慢。
视频理解能力:应用广场里的影视传媒视频理解能力可对视频进行语音转写、视觉语言分析等处理并总结成文,有清晰使用步骤,可生成爆款文案,还能根据偏好调试提示词。
诗歌相机项目:百炼大模型平台提供 AI 硬件底层能力,AI 拍立得相机拍照可快速成诗并打印,其对接多模态能力可通过智能体应用或工作流形式的 API 调用。
AI 拍立得的介绍与应用
AI 融入生活:认为技术应融入生活,为 AI 加上眼睛是为了更好地欣赏日常,而非压缩人类空间,多模态能让人更好地欣赏世界。
拍立得诞生背景:因生成图片时写提示词、复制粘贴、上传等待等链路长且麻烦,为简化操作提升效率,萌生了 AI 拍立得概念。
拍立得交互逻辑:选择拍场景和拍照,白链上的 AI 大模型应用会自动识别照片信息,根据场景预测生成反馈信息,核心处理能力交给阿里云百炼大模型,工作流可集成垂直小模型。
拍立得应用场景:包括商品信息图片生成淘宝上架规格参数、智能手表文案生成、社交媒体内容生成、合同提取、拍照搜题、图片转换、模特换装等。
拍立得开源使用:有开源地址,可下载到本地,配置阿里云百炼平台的 API key 及 appid 实现场景,运行项目需特定 Python 包和依赖,可新建应用获取 appid,拍照时需设置 API key。
关于百炼大模型平台的交流与答疑
企业知识分类存储:探讨企业知识分类存储的方式,如利用模型辅助知识分类和标签化处理,再进行分类存储,企业自行设计知识标签更利于分类。
模型领取问题:老用户填写左侧表单领取 4 个模型各 100 万 token,5 点前填写当天发,5 点后次日发。
摩比工具群聊效果:摩比工具创建群聊效果有一定难度,样式能搭建,在线互动较难,可在共学钉钉群向产品经理咨询。
微信公众号语音回复:公众号不支持语音回复,可通过 API 将生成的文本丢给语音合成。
工作流调用模型:工作流可通过 API 形式调用模型,多模态模型可理解为插件能力。
插件市场:个人可成为服务商在云市场上架 API 售卖,期待百炼大模型平台丰富插件市场,提供低代码或无代码搭建能力。
直播音视频数据处理:将直播转成的 word 文档以知识库形式存放,处理大量直播数据时,先将数据写成结构化形式,让大模型生成键值,人工校对后存到结构化数据表。