蚂蚁金融:打造金融级智能中台的数据底座.pdf

蚂蚁金融:打造金融级智能中台的数据底座.pdf
本次分享的主题是“打造金融级智能中台的数据底座”,主讲人为太岳(王志勇)。 **1. 金融智能的应用场景** * **蚂蚁金服的AI应用场景**:智能风控(基于深度学习的风险识别与防控)、智能营销(个性化智能营销决策,提升业务运营效率)、智能保险(智能保险定价、定损、理赔,线上自动化流程管理)、智能客服与助理(一站式金融场景机器人,智能业务决策和执行助理)、智能信贷(基于数据隐私加密共享学习的联合放贷)、智能理财(基于金融大数据提供智能理财策略分析和决策建议)。 * **蚂蚁AI能力大图**:涵盖银行业、保险业、证券、基金、投行等领域。金融大脑包括机器人平台、金融信息服务、生物识别、金融知识图谱 & NLP、金融视觉平台、金融算法(AutoML, 图推理, 隐私保护共享学习, 运筹优化, 无监督学习, 在线学习, 强化学习, 模型可解释)。 * **蚂蚁保险案例**:多收多保(2500万小商户,日均1万笔理赔)、相互宝(半年超过5000万用户,1000万老年用户)。 * **理赔宝背后的智能**:用户上传理赔信息 -> 图像识别 -> 实体抽取 -> 实体匹配 -> 系统智能核赔。涉及感知(图像分类、OCR、反欺诈等)、NLP & 知识图谱(健康知识图谱、亿级节点和边在线实时融合推理)、决策算法策略。 **2. 数据底座的背景分析** * **智能中台的简略框架**:包括算法研发、数据研发、工程研发。算法研发包括数据清洗、数据标注;数据研发包括模型训练;工程研发包括模型部署、模型服务。研发平台包括智能标注平台、金融视觉平台、知识图谱 & NLP 平台,工程底座等。底层技术包括存储、计算、调度、训练 & 算法、搜索。 * **数据底座的重要性**:数据处理贯穿模型迭代始终;数据和特征决定机器学习的上限;数据安全是金融行业生命线。 * **金融智能的数据底座挑战**:效率(存储分散、滥用批处理、标注效率低),质量(标注质量、数据快速 refine),安全(标注安全、训练安全)。 **3. 高效:用AI解决AI的问题** * **数据流转**:清洗过滤 -> 数据选择 -> 模型训练 -> 标注 -> 检查 -> 验收 -> 模型规则校验 -> 业务数据映射 -> 业务校验。 * **基于one ID的数据复用**:原始数据,标注数据,样本数据,模型数据。 * **智能标注:模型市场赋能标注**:移动标注、PC标注,样本算法平台、图像平台、NLP平台等。包括主动学习、数据增强、预标注、智能辅标工具、机器人、自训练模型、通用模型等。 **4. 精准:流程与工具并用** * **数据选择:通过主动学习节省90%的标注量**:主动学习(Active Learning)不断选择对当前模型效果提升最有效的样本,优先进行标注;分类宝 case;能力集成到数据底座。 * **数据增强:解决样本少或者不均衡的问题**:复制、翻转、剪切、缩放、高斯噪声、高斯模糊、SMOTE、GAN。 * **智能辅标工具**:AntLable 支持视频、图像、语音、文字、地图等内容标注;很多业务场景带来数倍的效率提升;大部分实现基于前端算法,计划开源。 * **智能辅标**:倾斜校正、自动贴合+OCR;图像自动分割;视频人物跟踪;视频图像对齐。 * **标注质量:基于数据指标的流程管控体系**:工作流、工具、数据。 **5. 安全:金融的底线** * 安全要求和解决思路:安全存储,拒绝人员查看。文件管控(加密、分割、脱敏、水印);访问控制(不落库、鉴权、频次、时效)。 * 安全标注:不落数据标后即焚 * 安全标注:分割标注 * 安全训练 **6. 总结** * 数据底座总体功能框架:平台、产品封装、宽表、采集&接入、标注数据、标注 & 预测结果、抽取、加工数据。 * 未来,逐步通过mPaaS将AI能力开放:包括 iOS、Android、H5、小程序、iOS、Android、Server API 的应用,并进行一系列的研发测试、发布管理和分析运营。 **回到开头的问题** * 某YC的创业团队,声称可以利用1/1000的数据就可以进行深度学习训练,是否值得投资? * AI浪潮下,工程开发人员的思维方式是否要改变? * 工程师生存指南?生存方法论?工程思维、数据思维、产品思维、人文思维...
下载完整报告 | 23.07 MB | 40页
阅读和下载会消耗积分;登录、注册、邀请好友、上传报告可获取积分。
成为VIP会员可免费阅读和下载报告