蚂蚁金融:打造金融级智能中台的数据底座.pdf

本次分享的主题是“打造金融级智能中台的数据底座”,主讲人为太岳(王志勇)。
**1. 金融智能的应用场景**
* **蚂蚁金服的AI应用场景**:智能风控(基于深度学习的风险识别与防控)、智能营销(个性化智能营销决策,提升业务运营效率)、智能保险(智能保险定价、定损、理赔,线上自动化流程管理)、智能客服与助理(一站式金融场景机器人,智能业务决策和执行助理)、智能信贷(基于数据隐私加密共享学习的联合放贷)、智能理财(基于金融大数据提供智能理财策略分析和决策建议)。
* **蚂蚁AI能力大图**:涵盖银行业、保险业、证券、基金、投行等领域。金融大脑包括机器人平台、金融信息服务、生物识别、金融知识图谱 & NLP、金融视觉平台、金融算法(AutoML, 图推理, 隐私保护共享学习, 运筹优化, 无监督学习, 在线学习, 强化学习, 模型可解释)。
* **蚂蚁保险案例**:多收多保(2500万小商户,日均1万笔理赔)、相互宝(半年超过5000万用户,1000万老年用户)。
* **理赔宝背后的智能**:用户上传理赔信息 -> 图像识别 -> 实体抽取 -> 实体匹配 -> 系统智能核赔。涉及感知(图像分类、OCR、反欺诈等)、NLP & 知识图谱(健康知识图谱、亿级节点和边在线实时融合推理)、决策算法策略。
**2. 数据底座的背景分析**
* **智能中台的简略框架**:包括算法研发、数据研发、工程研发。算法研发包括数据清洗、数据标注;数据研发包括模型训练;工程研发包括模型部署、模型服务。研发平台包括智能标注平台、金融视觉平台、知识图谱 & NLP 平台,工程底座等。底层技术包括存储、计算、调度、训练 & 算法、搜索。
* **数据底座的重要性**:数据处理贯穿模型迭代始终;数据和特征决定机器学习的上限;数据安全是金融行业生命线。
* **金融智能的数据底座挑战**:效率(存储分散、滥用批处理、标注效率低),质量(标注质量、数据快速 refine),安全(标注安全、训练安全)。
**3. 高效:用AI解决AI的问题**
* **数据流转**:清洗过滤 -> 数据选择 -> 模型训练 -> 标注 -> 检查 -> 验收 -> 模型规则校验 -> 业务数据映射 -> 业务校验。
* **基于one ID的数据复用**:原始数据,标注数据,样本数据,模型数据。
* **智能标注:模型市场赋能标注**:移动标注、PC标注,样本算法平台、图像平台、NLP平台等。包括主动学习、数据增强、预标注、智能辅标工具、机器人、自训练模型、通用模型等。
**4. 精准:流程与工具并用**
* **数据选择:通过主动学习节省90%的标注量**:主动学习(Active Learning)不断选择对当前模型效果提升最有效的样本,优先进行标注;分类宝 case;能力集成到数据底座。
* **数据增强:解决样本少或者不均衡的问题**:复制、翻转、剪切、缩放、高斯噪声、高斯模糊、SMOTE、GAN。
* **智能辅标工具**:AntLable 支持视频、图像、语音、文字、地图等内容标注;很多业务场景带来数倍的效率提升;大部分实现基于前端算法,计划开源。
* **智能辅标**:倾斜校正、自动贴合+OCR;图像自动分割;视频人物跟踪;视频图像对齐。
* **标注质量:基于数据指标的流程管控体系**:工作流、工具、数据。
**5. 安全:金融的底线**
* 安全要求和解决思路:安全存储,拒绝人员查看。文件管控(加密、分割、脱敏、水印);访问控制(不落库、鉴权、频次、时效)。
* 安全标注:不落数据标后即焚
* 安全标注:分割标注
* 安全训练
**6. 总结**
* 数据底座总体功能框架:平台、产品封装、宽表、采集&接入、标注数据、标注 & 预测结果、抽取、加工数据。
* 未来,逐步通过mPaaS将AI能力开放:包括 iOS、Android、H5、小程序、iOS、Android、Server API 的应用,并进行一系列的研发测试、发布管理和分析运营。
**回到开头的问题**
* 某YC的创业团队,声称可以利用1/1000的数据就可以进行深度学习训练,是否值得投资?
* AI浪潮下,工程开发人员的思维方式是否要改变?
* 工程师生存指南?生存方法论?工程思维、数据思维、产品思维、人文思维...
相关报告
-
3.32 MB 34页 傅昊阳-基于多模态数据的医疗智能应用探索.pdf
-
5.19 MB 30页 2025数据与人工智能雷达:10挑战掌握您的数据2025年的AI转型.pdf
-
2.51 MB 27页 2024 AI智算产业趋势展望报告数据智能时代的到来-德勤-202312.pdf
-
17.15 MB 14页 主论坛-武连峰-打造数据驱动的未来创新企业.pdf
-
3.9 MB 23页 如何打造标准化的数据治理评估体系.pdf
-
5.23 MB 21页 甲子光年:2022中国空间智能行业前瞻报告 -打造XR AR元宇宙的技术基石.pdf
-
18.5 MB 56页 科技金融时代下,银行的智能金融之路-一本财经-2018.10-56页.pdf
-
5.62 MB 34页 阿里巴巴(黎槟华):通义灵码-基于代码大模型的智能编码.pdf
-
6.19 MB 33页 健康医疗数据的确权与流通2024.pdf
-
1.68 MB 13页 引领数据流通规范化与高效化的必由之路——构建数据标识体系2025.pdf
-
5.92 MB 24页 通过质量工程推动金融机构在通用人工智能领域的成功.pdf
-
4.64 MB 304页 影响对人工智能决策支持系统依赖度的关键因素.pdf
-
787.44 KB 22页 策略专题:经济金融高频数据周报.pdf
-
2.45 MB 13页 2025年3月经济数据点评:一季度经济的动力及亮点.pdf
-
4.79 MB 55页 中国消费品和零售行业纵览2025:挖掘消费结构升级中的增长新机遇报告-德勤-202504.pdf
-
5.57 MB 38页 2025中国人工智能公众态度追踪调查报告——AI的中国时代-澎湃-202504.pdf
-
2.77 MB 25页 超材料的智能设计研究进展.pdf