|

我叫梁增龑 我是一名AI算法程序员 我来自中国
年龄 : 35
学历 : 硕士
地址 : 北京,海淀
邮箱 : Lzy_Lyx@163.com
家乡 : 青海
项目 展示

本人目前在猿辅导公司担任高级AI算法程序员,从事相关工作已有8年。项目经历包括:大语言模型、多模态模型、增强检索生成(RAG)、计算机视觉、自然语言处理、搜索、机器车视觉、视频算法、座舱视觉感知、算法工程(SDK、Agent部署)等。最早接触相关工作是从本科毕设的DQ二维码识别开始,读研期间也一直在从事相关工作的研究,具备坚实的理论功底。

近几年工作成果是:

  • 2022至2024年:英语作文批改与润色(大语言模型)、你画AI猜(多模态模型)、作业美化(视觉)。全部线上使用,并受到教师与学生的广泛好评。会话缓存服务,减少了第三方模型请求,为公司节约了大量成本,独立完成了中文作文知识点、产品手册多Agent的RAG服务。共完成12项算法发明专利,其中大模型相关专利2项、多模态大模型相关专利1项、原创算法发明专利2项;期间还做了工业多模态大模型平台搭建与模型微调(网址:http://112.245.58.16:8852/),利用稀疏注意力检测模型搭建数据自动标注平台(网址:http://112.245.58.16:8851/);
  • 2022年:获得中国科学院颁发的人工智能中级职称,搭建视频画质分析框架,可以对画质进行静态分析,画质增强badcase分类,画质智能增强策略,期间完成1项原创算法发明专利;
  • 2020至2021年:完成移动端视频超帧算法,在技术上突破了移动端只能利用芯片进行超帧的壁垒,达到使用软件算法可以进行视频超帧的效果。完成6项原创算法发明专利,原创视频超帧率算法在相关数据集测试达到the-state-of-art水平,具体详见:https://github.com/lzylyx/VFI_FMSMI;
  • 2019年:完成机器车端仪表指针表的自动示数识别,该原创技术首次突破了用人眼读表的精度,为公司与南京华润燃气公司、巴斯夫公司的合作中带来了经济效益,期间完成1项原创算法发明专利;
  • 2018年:独立完成Alpha Note App的智能扫描SDK,该APP已经上架,为公司带来了经济效益,期间完成1项原创算法发明专利。带领团队开发了PDF文档转Word文档的字符识别系统;

职业技能

  • 编程语言
    c、c++、python、java、c#、shell、html
  • 专业
    opencv、dlib、ffmpeg、kornia、nltk、jieba、pillow、skimage...
  • AI
    框架:pytorch、tensorflow,深度学习与大模型:transformers、vllm、diffusers、deepspeed、faiss、pymilvus、openai、langchain、llamaindex、autogen
  • 工程
    平台:linux、windows、android、ros,数据库:mysql、sqlite,编译:make、cmake,优化与移植:cuda、onnx、libtorch、opencl、tensorrt、snpe、ncnn、mace,部署:http、rpc
  • 科研
    能快速复现论文代码并优化,完成技术发明专利及论文撰写

教育&工作

教育经历

2012 - 2015

计算机科学与技术

贵州大学 硕士

2007 - 2011

电子信息工程

成都信息工程大学 本科

工作经历

2022.11 - 2024.6

AI算法专家

北京飞象星球科技有限公司

2022.5 - 2022.11

资深视频算法研发

北京虾皮信息科技有限公司

2020.4 - 2022.5

高级计算机视觉算法研发

北京小米松果电子有限公司

2019.2 - 2020.3

高级机器视觉感知研发

北京眸视科技有限公司

2018.1 - 2019.1

计算机视觉算法研发

北京新橙科技有限公司

2017.3 - 2017.8

人脸识别算法研发

贵州华尚高新技术有限公司

项目经历

英语作文批改与润色(大模型)

简介:英语作文批改与润色是飞象星球学生端的一个重要产品,该产品主要用来提升学生写英语作文的能力; 工作:调研、数据工程(采集、清洗、GT制作、JSON生成),提示词工程(评分:内容、连贯性、单词语法、结构,纠错:单词、语法、格式,润色:单词、句子,共升级7个版本,正例反例),模型微调(基座模型llama2-7B-chat,PEFT:lora,MaxToken:4K,Type:FP16),模型优化(lora融合,torch编译,vllm:pp1,tp=2,gpu_util=0.9,swap_space=4G,max_token=4096,QPS是2,),生成(流式输出,贪婪检索),工程部署(RPC服务,Console云平台,双机房,CPU:8核,GPU:V100-32G,Mem:32G)

你画AI猜(多模态)

简介:你画AI猜是飞象双师课堂最受欢迎的产品之一,学生通过绘画来让AI实时去猜来提升学生绘画与想象能力,同时激发对人工智能的探索; 工作:数据工程(采集:quick_draw、筛选、图文对制作),模型优化(基座模型clip-Vit-32,微调:采用Wise-ft方法冻结backbone微调线性层),性能优化(文本向量数据库,向量库分组,模型预热warmup,QPS是19.97),工程部署(RPC服务,Console云平台,双机房,CPU:8核,GPU:V100,Mem:16G) 科研成果(算法专利:1项)

大模型缓存服务

简介:大模型缓存服务是飞象AI平台的产品,大模型缓存服务是大模型应用(解题、作文,双师AI)的前端,在请求大模型之前会先请求缓存服务,若缓存服务存有答案,则能快速返回答案,该产品主要降低公司使用海外大模型的投入成本,做到降本增效; 工作:向量数据框架搭建(Faiss-GPU,创建、保存、检索,插入、删除),向量库创建(命名规则,向量编码是text2vec-chinese,FLAT类型,cache配置进行多节点同步),会话机制(单轮策略是根据id找到对应response,多轮策略根据对话轮数存储时序向量数据库),工程部署(RPC服务,Console云平台,双机房,CPU:8核,GPU:V100,Mem:16G),科研成果(算法专利:2项)

大模型RAG服务

简介:大模型RAG服务应用在中文作品辅导、飞象FAQ,学情分析这些产品中,意指通过对公司私有数据进行检索增强,然后重新生成拟人化的答案提供给客户; 工作:RAG框架搭建(langcanin,文档创建、更新、保存,文档拆分器,向量库选择、向量存储、向量编码器),性能优化(文档同id多段拆分,faiss-gpu,QPS是20)工程部署(RPC服务,Console云平台,双机房,CPU:8核,GPU:V100,Mem:16G)

自动标注数据平台(视觉大模型)

简介:个人项目,帮助之前公司完成工业数据自动标注数据平台的建设,项目意义是通过自动标注数据平台来提高数据标注效率,减少人工标注成本; 工作:数据工程(采集、清洗、GT生成、多样性),模型训练(sparse-detr,数据增广,数据并行,微调,迁移学习),平台搭建(后端:Tornado,中间键:RabbitMQ,和后台工作进程:Celery,前端:Html+JQuery)

工业巡检多模型大模型平台(多模态)

简介:个人项目,帮助之前公司完成工业多模态大模型平台的建设,项目意义是通过工业多模态大模型平台完成工业巡检员遇到问题的FAQ解答,工业场景描述,工业目标检测,公司介绍与产品宣传; 工作:调研、数据工程(采集、清洗、图文对制作、文本对制作),模型微调(基座模型Qwen-VL-Chat,DeepSpeed:zero2,PEFT:lora,MaxToken:512,Type:FP16,数据并行),模型优化(lora融合,torch编译,QPS是1.3),生成(安全过滤,流式输出,贪婪检索),工程部署(Http服务:Garido,CPU:16核,GPU:A4000,Mem:64G)

作业美化

简介:作业美化是对上传的作业进行美化,达到干净清晰,用来帮助老师在飞象作业系统(Web、App)批改学生上传的作业,美化分为原始作业进行美化或重新渲染美化美化; 工作:原始作业美化包括:数据工程(采集、清洗、GT生成、多样性),模型训练(美化U2Net,清晰化MPR,数据增广,数据并行,微调),作业区域提取(形态学处理),模型优化(ONNX,TRT,美化【FP32是120ms,FP16是47ms】,清晰化【FP16:230ms】),工程部署(RPC服务,Console云平台,双机房,CPU:8核,GPU:V100,Mem:16G) 重新渲染美化:配准工程(rpc:二维码检测,KeyNet,仿射变换),提取作答文字区域(形态学处理),作业渲染(作答区域渲染到标注作业),科研成果(算法专利:5项)

教育学科知识点实体命名识别

简介:教育学科知识点实体命名识别项目是为了对猿辅导飞象学科图谱的知识点进行扩增,使得学科的知识点翻盖更全,细粒度更细,在学生个性化学习时可以根据完整细化的知识点来复习; 工作:调研NER方法、数据工程(题目采集、清洗、GT制作、JSON生成),提示词工程(根据题目生成对应知识点),模型微调(基座模型aton-7B-chat,PEFT:lora,MaxToken:4K,Type:FP16),模型优化(lora融合,torch编译,vllm:pp1,tp=2,gpu_util=0.9,swap_space=4G,max_token=4096,QPS是2,),生成(流式输出,贪婪检索),后处理(去重、剔除图谱知识点),工程部署(RPC服务,Console云平台,双机房,CPU:8核,GPU:V100-32G,Mem:32G)

个人知识点能力值估计推题数

简介:个人知识点能力值估计推题数是飞象个性化学习系统的一个模型,用于根据学生在该知识点的近几次能力值来预测推荐题目数量; 工作:数据工程(清洗、GT制作),特征工程(离散特征3个,连续特征9个),模型训练(基座模型DeepFM,推题数热编码,微调),性能优化(GPU推理,QPS是18.9),工程部署(RPC服务,Console云平台,双机房,CPU:8核,GPU:V100,Mem:16G) ,科研成果(算法专利:1项)

动态小车demo(生成大模型)

简介:双师素养课堂探索项目,项目是想让学生的手绘小汽车,通过拍摄后生成不同颜色与风格的小汽车,小汽车生成GIF图,然后投屏,在屏幕上动起来,该项目只做出了Demo,没有落地; 工作:手绘小车,抠出手绘小车,利用diffusion pix edit模型与stable diffusion进行风格渲染与颜色渲染,视觉算法完成车轮底部随机划痕,生成gif图,在背景图中添加并移动,科研成果(算法专利:1项)

提示词工程项目

简介:自己在很多大模型应用中完成的提示词工程项目; 工作:项目包括:英语作文批改与润色、数学解题、学情分析、中文作文辅导(头脑风暴、提纲、行文)、中文作文批改与润色、双视课堂AI老师、图文题目批改,提示词工程技巧(角色设定,简洁,有效,few-shot正反例)

视频画质分析理解

简介:对虾皮每天放量画质增强后的视频进行分析,找出增强视频的badcase,通过视频分析服务不断提升视频增强效果; 工作:工作包括用C++搭建Shopee Video画质分析理解框架,完成画质静态分析算法模块SDK,内容理解模块完成三明治检测与人脸检测算法,对画质清晰度评判算法采用最新Vision In Transformer模型(MUSIQ)来训练,通过SPAQ数据训练与少量SPV数据微调,plcc达到93.2%,对spv增强后视频,可准确抓出增强纹理模糊badcase与增强失败badcase,最新模型在spv清晰度测试集中对非清晰视频的召回率达到83%

低帧率视频插帧

简介:属于虾皮视频增强的一个应用,是对虾皮每天放量的低帧率视频进行插帧,以此提升视频的流畅度,提升视频的画质质量; 工作:工作包括对Shopee Video帧率低视频进行插帧,因低帧视频运动尺度过大,采用FILM算法对大尺度运动区域进行估计与补偿,已完成FILM算法复现并在SPV 25fps视频进行测试,推理速度在A100平均100ms,对整体运动区域的视频插帧效果显著

直播视频增强

简介:直播视频增强的pipeline是通过直播流解码成RGB帧,然后进行画质清晰度分析,对清晰度低的视频帧采用RESRGAN算法进行增强; 工作:工作是完成无参考画质清晰度模型,直播视频增强的pipeline是通过直播流解码成RGB帧,然后进行画质清晰度分析,对清晰度低的视频帧采用RESRGAN算法进行增强

移动端视频超帧

简介:小米手机视频播放器的一个插件,可以完成2倍超帧; 工作:工作包括对Vimeo90K、Adobe高帧、YouTube数据进行整理与清洗,利用AdaCoF算法训练视频超帧模型,对光流进行校正与精细化、判断视频场景切换、利用snpe和mace后端框架对前端超帧模型进行移动端移植和优化,利用opencl实现移动端不支持算子,针对AdaCoF对高分辨率视频超帧的问题,自研了一种融合多尺度运动信息的视频插帧网络(VFI-FMSMI),算法在相关数据集测试达到了the-state-of-art水平,算法详见说明请见如下地址:https://github.com/lzylyx/VFI_FMSMI

魔法换天

简介:小米手机相册的一个应用,可以对拍照的天空区域进行替换; 工作:工作包括对小米换天数据进行整理与清洗,利用U2Net算法训练换天模型,使用snpe后端框架对换天模型进行移动端移植和优化,针对U2Net对前后背景误分的问题,自研了一种基于上下文学习的显著目标检测网络(CLN-SOD),算法详见说明请见如下地址:https://github.com/lzylyx/CLN-SOD-

人体关键点检测

简介:小米机器狗(铁蛋)的一个视觉应用; 工作:工作包括对COCO人体关键点数据进行整理与清洗,利用HRNet算法训练人体关键点模型,利用tensorrt后端框架对人体关键点模型进行ROS端移植和优化,利用cuda、tensorrt、opencv实现ROS端人体关键点后处理pipeline,完成ROS端人体关键点检测SDK

手势识别

简介:小米iot平板音箱与小米机器狗的一个应用,可以通过手势来控制音箱的播放与机器狗的移动; 工作:工作包括对小米手势数据进行整理与清洗,利用Yolov4算法训练手势检测模型,使用onnx与tensorrt后端框架对手势检测模型进行ROS端移植和优化,合并手势识别模型,完成手Det+Rec框架,利用cuda、tensorrt、opencv完成ROS端手势Det+Rec的SDK

视频行为识别

工作:工作包括协助模型训练人员完成对UCF101数据的抽帧与整理,使用mace后端框架对视频行为识别模型进行移动端移植和优化,验证移动端行为识别模型,对C3D算法模型进行优化,调研TwoStream与TSN方法,整合现有开源光流算法并复现

仪表指针表自动示数识别

简介:表计检测与识别是眸视科技最核心的一个项目,该算法应用于机器人巡检时候的视觉任务; 工作:工作包括对燃气站的指针表数据进行标注、整理与清洗,使用单阶检测CorNet-Lite算法训练表记检测模型,使用PSP算法训练指针语义分割模型、使用E2E算法训练表记数字识别模型,整合表记检测、语义分割、数字识别模块,完成指针表自动示数识别框架,在ROS端部署相应节点,在燃气站现场进行测试,指针示数识别准确率高达98%

机场托盘内物品检测

工作:工作包括安装与调试RealSense D415,利用D415的深度信息锁定托盘边缘区域,对托盘内的区域进行局部分割,并统计局部信息特征,根据局部差异并结合托盘内深度信息来检测托盘内是否有物品

电力站开关检测

工作:工作包括验证电力站开关检测模型,使用c++完成Yolov3检测模型后处理

机场跑道区域检测

工作:工工作包括对RealSense D415采集的跑道数据进行整理与清洗,利用DeepLabV3+算法训练跑道语义分割模型,提取跑道区域边缘点2d坐标,将2d坐标点结果交给SLAM同事进行后处理

行人跟随

工作:工作包括学习DeepSort算法,了解DeepSort算法原理,在ROS小车上跑通DeepSort算法

移动端智能扫描SDK

简介:智能扫描SDK是新橙科技Alpha Note app的一个重要功能; 工作:工作包括开发Alpha Note app的智能扫描模块SDK,智能扫描模块SDK包括:SDK License效验、文档边缘检测算法、灰扫与黑白扫算法、彩色扫描算法、印章保留扫描算法、滤镜算法集合,完成Android端与IOS端的SDK打包,App网址:https://apps.apple.com/cn/app/id1325527674,扫描效果:https://github.com/lzylyx/Scan-SDK

PDF文档转Microsoft Word文档

工作:工作包括PDF文档转图像,利用ctpn算法检测图像文本,分割行字符并统计字符位置信息,下属组员利用DPNet92算法训练GB2312一级字符识别模型,利用字符识别模型对分割字符进行识别,将识别字符转为txt,txt转Microsoft Word文档,对400字的卷宗PDF文档测试集进行测试,字符识别正确率达到80%

萤石摄像头人脸识别

工作:工作包括利用mtcnn算法对人脸进行检测,用dlib库进行人脸对齐和提取人脸特征,用FaceNet算法来进行人脸识别,摄像头在不考虑遮挡与强光干扰的情况下,对公司人员测试识别正确率可以达到90%左右

表情识别

学校科研项目,利用Yolo算法对人脸数据训练并进行检测,使用dlib提取人脸68个关键点,组合这些关键点进行分类判别,最后通过分类判别的结果来识别人脸表情。待识别的表情一共有四类:生气、吃惊、高兴、正常,在yale数据集上表情识别正确率可以达到95%以上

公安监控视频的图像增强与去雾

学校科研项目,先后研发了局部直方图统计算法、模糊域边缘对比度增强算法,成像增强效果明显。在雾霾环境下,利用了对比度受限自适应直方图算法,然后根据Dark Channel原理,利用大气散射模型并结合PCA开发一种新的快速去雾算法,去雾效果明显,算法能满足实时处理需求