- 机器学习概论
- 特征工程
- 感知机
- k近邻
- 朴素贝叶斯
- 线性模型
- 决策树
- 支持向量机
- liblinear
- 集成学习
- 降维
- EM算法
- 概率图模型
- HMM隐马尔科夫模型
- CRF条件随机场
- 聚类
- 主题模型
- 知识点
- 机器学习算法总结
- 深度学习概论
- ANN人工神经网络
- Hopfield神经网络
- 知识点
- CNN卷积神经网络
- RNN循环神经网络
- LNN液态神经网络Liquid Neural Network
- BNN贝叶斯神经网络
- GNN图神经网络
- 深度生成模型
- 深度生成模型概述
- GAN生成对抗网络
- VAE变分自编码器
- Flow-based Models流模型
- Diffusion Models扩散模型
- Few-shot Learning小样本学习
- 强化学习学习路径
- 强化学习基础概念
- 强化学习算法
- 深度强化学习 可以将强化学习算法分为基于策略(Policy-Based)的方法和基于价值(Value-Based)的方法,基于价值的方法通过值函数间接获取最优策略,包括策略迭代、价值迭代、Sarsa、Q-learning、Deep Q-network等。基于策略的方法包括Vanilla PG、TRPO、PPO、SAC等。介于二者之间的算法是DDPG和TD3。
- 函数近似和深度网络
- 深度强化学习概述
- 基于纯价值的深度强化学习 局限性:离散动作空间、策略间接优化
- Q-learning与贝尔曼方程
- 深度Q网络(DQN)及其变体(Double DQN, Dueling DQN)
- Sarsa
- 基于纯策略的深度强化学习 局限性:高方差、低样本效率
- 策略梯度基础
- 策略梯度算法
- 随机策略梯度(Stochastic Policy Gradient)REINFORCE(蒙特卡洛策略梯度)
- 确定性策略梯度(Deterministic Policy Gradient, DPG)
- 自然策略梯度(Natural Policy Gradient)
- 策略梯度基础
- Actor-Critic 策略与价值结合
- A3C
- A2C
- 确定性策略梯度DDPG: Continuous Control With Deep Reinforcement Learning ICLR2016
- 概念
- Advantage Advantage函数A(s,a) = Q(s,a) - V(s),用于衡量某个动作相对于平均值的优势
- 高级策略优化技术
- 信赖域方法(Trust Region Methods)策略更新约束技术(与策略类型解耦)基于信赖域的深度强化学习
- TRPO(二阶优化与KL散度约束)
- PPO近端策略优化: Proximal Policy Optimization (Clipping/Penalty简化实现)
- 随机策略+熵正则化(Entropy Regularization)策略探索增强技术(与随机策略强耦合)
- SAC: Soft Actor-Critic SAC(Soft Actor-Critic)的熵最大化目标
- 信赖域方法(Trust Region Methods)策略更新约束技术(与策略类型解耦)基于信赖域的深度强化学习
- 工程技巧
- 分布式训练与加速
- A3C(异步多线程)
- A2C(同步多线程)
- 参数服务器与数据并行
- 经验回放与目标网络
- DQN、DDPG中的经验回放设计
- 目标网络软更新技巧
- 探索与稳定性增强
- 动作噪声(OU噪声、高斯噪声)
- 优势函数估计(GAE,Generalized Advantage Estimation)GAE则是Advantage的一种估计方法,结合了多步的TD误差,减少方差。
- 分布式训练与加速
- 高级主题
- 强化学习前景
- 基于模型的强化学习
- 稀疏奖励Sparse Reward
- 混合动作空间Hybrid Action Space
- MCTS+RL
- MCTS蒙特卡洛树搜索
- MCTS+RL通用框架
- 适用于离散连续动作空间的MCTS+RL框架
- 模仿学习
- Sim2Real从仿真器到现实环境的迁移
- MARL多智能体强化学习
- HARL异质多智能体强化学习(Heterogeneous-Agent Reinforcement Learning)
- Offline RL离线强化学习
- Transformer+RL
- 决策大模型
- MMRL多模态强化学习
- LLM+RL
- DiffusionModel+RL
- 仿真环境
- OpenAI: Gym
- OpenAI: Mujoco
- SMAC星际争霸 PySC2 —— 星际争霸II学习环境
- OpenDILab: GoBigger多智能体仿真平台
- Unity3D: ml-agents 简言之:行为树是适合解决复杂AI的解决方案。 对于Unity用户,Unity商店现在已经有一个比较完善的行为树设计(Behavior Designer)插件可供购买使用。
- 场景应用
- 业界应用
- DeepMind
- AlphaGo
- AlphaGo-Zero: Mastering the Game of Go without Human Knowledge Nature2017
- AlphaStar: Grandmaster level in StarCraft II using multi-agent reinforcement learning Nature2019
- AlphaZero
- MuZero
- AlphaFold
- AlphaCode
- AlphaTensor: Discovering faster matrix multiplication algorithms with reinforcement learning Nature2022
- Agent57 2020
- DeepNash
- Grandmaster-Level Chess Without Search Arxiv202402
- OpenAI
- Emergence of grounded compositional language in multi agent populations 2017 在模拟游戏环境里从无到有进化出一种语言 OpenAI在2017年先完成了具身智能演化出语言的原理模型之后才立项GPT,Emergence of grounded compositional language in multi agent populations.现在多模态模型的关键要素在文章里都有了,而之前OpenAI还在打游戏。而且这还只是对外公开的部分,谁知道内部发生了啥,马斯克骂骂咧咧的退出了。
- 机械手玩魔方: Solving Rubik’s Cube with a robot hand 201910
- OpenAI Five: Dota 2 with Large Scale Deep Reinforcement Learning 201904
- 捉迷藏Multi-Agent Hide and Seek: Emergent tool use from multi-agent interaction Arxiv2020
- 腾讯
- 王者荣耀Honor of Kings
- 玩魔方,腾讯与港中大相关研究:https://arxiv.org/pdf/1907.11388.pdf
- InspirAI启元世界
- DeepMind
- Anaconda
- 模型训练云服务器平台
- 本地IDE远程连接服务器
- TensorFlow
- PyTorch
- 强化学习训练框架
- 强化学习开源框架整理
- 清华:天授
- 百度:PARL 用PaddlePaddle实现了所有算法,用Pytorch实现了部分算法
- Ray分布式计算框架
- RLlib分布式强化学习系统
- 大模型训练框架
- 超算集群
- ResNet 有捷径的(resnet的跳跃连接)
- InceptionNet 多岔路的(inception的多分支)
- DenseNet 通往多个地点的捷径的(densenet的密集连接)
- YOLO
- 图像标注工具
- Vision Transformer
- Swin Transformer
- 自然语言处理概论
- 自然语言
- 语言模型和中文分词
- TF-IDF词频-逆文档频率
- word2vec
- AttentionMechanism注意力机制
- [Target Attention机制]
- Self Attention机制
- Multi Head Self Attention机制
- Seq2Seq模型和Attention机制
- Self-Attention和Transformer
- BERT
- Foundation Models基础模型
- Scaling Law
- RLHF基于人工反馈的强化学习方法
- LoRA大语言模型的低秩适应
- Prompt Learning
- Emergence涌现现象
- 自己运行大语言模型
- 自己训练大语言模型
- 业界应用
- OpenAI
- 可能大家对于绘画了解的比较多的是midjourney与stable diffusion,实际上这两个产品的基本技术都来源于DALL-E系列,那里的OpenAI还是Open的,它的论文还有足够的内容让我们理解,它里边有什么。于是大家根据它的2021年的DALL-E及CLIP这两个论文,搞出来midjourney,而stable diffusion也是在这个基础上的一个开源方案。
- [DALL·E1 2021]
- [CLIP 2021]
- [DALL-E2 2022]
- [DALL-E3 2023] 已融合进GPT4中
- Point-E 202212 文本生成3D点云模型
- GTP系列介绍
- GPT前身Unsupervised Sentiment Neuron
- GPT1
- GPT2
- GPT3 语言生成模型 根据Lambda官网数据,微软为OpenAI设计了一个包含10000块Nvidia V100 GPU的分布式集群进行GPT-3的模型训练,由于模型参数量较大(共1750亿参数),训练完成共耗费30天,消耗总算力为 3640PF-days。以Nvidia Tesla V100的Lambda GPU实例定价为1.50 美元/小时测算,GPT-3的完整训练成本将达到466万美元/次。
- Codex
- GPT-3.5
- instructGPT
- ChatGPT 聊天机器人
- GPT-4 202303 输入图/文,输出文
- Meta
- Stability.ai
- Stable Diffusion开源
- Google/DeepMind
- LaMDA I/O大会202105
- PaLM 202204 5400亿参数
- LaMDA-2 I/O大会202205
- T5
- Bard聊天机器人 202302 对标OpenAI的ChatGPT
- ReAct是来自谷歌论文《Synergizing Reasoning and Acting in Language Models》中的一个方法,它是2022年12月发表的。这是一种reason+Act(ReAct)的方式,让大模型的行动和推理一起协同,提高大模型解决问题的能力。也就是让模型在访问外部知识的情况下和自己的模型能力结合。其实这就是Bing中的ChatGPT的运行方式!这个简单的方法可以让模型有更强的能力。而它的实现其实只需要简单的几行代码即可。因此,在前面的低成本+浏览器运行的基础上,加上ReAct改造,几乎可以得到一个与ChatGPT类似或者甚至更好的对话模型!
- Agents Thinking Fast and Slow: A Talker-Reasoner Architecture ArXiv202410
- Large Language Models can Learn Rules Arxiv202412 消除幻觉,让 LLMs 学会规则库和多步推理,代码开源
- MiscroSoft
- Copilot MiscroSoft和OpenAI联合打造的AI编程工具,基于OpenAI的大模型Codex,基于GPT-3框架进行训练
- Kosmos-1 20230227发布,第二种才是真正的多模态LLM,才是GPT-4的魅力,他的原理目前OpenAI没有公布细节,但是大家可以参考微软在2月27日发布的Kosmos-1的论文(想一想,为什么偏偏是OpenAI的深度合作伙伴发了这篇论文)。
- DeepSeek幻方量化对冲基金
- DeepSeek V3 202412 一家中国量化基金公司年底发布了最强开源LLM:DeepSeek V3
- 智谱AI
- ChatGLM 近日,由清华技术成果转化的公司智谱AI开源了GLM系列模型的新成员——中英双语对话模型ChatGLM-6B,支持在单张消费级显卡上进行推理使用。这是继此前开源GLM-130B千亿基座模型之后,智谱AI再次推出大模型方向的研究成果。与此同时,基于千亿基座模型的ChatGLM也同期推出,初具问答和对话功能 ChatGLM:千亿基座的对话模型启动内测,单卡版模型已全面开源
- Together
- OpenChatKit ChatGPT的开源平替来了,源代码、模型权重和训练数据集全部公开。由前OpenAI研究员共同打造。如何看待 Together 推出的开源聊天大模型 OpenChatKit?能否替代 ChatGPT?,ChatGPT开源平替来了,开箱即用!前OpenAI团队打造
- 阿里达摩院
- 中文GPT3 对标GPT-3的开源项目
- 元语智能
- [PromptCLUE1.0 202210]
- [PromptCLUE1.5 202211]
- [ChatYuan 202212]
- 百度
- BlinkDL
- ChatRWKV 202208 对标ChatGPT的开源项目,基于RNN架构
- Alpaca 斯坦福大学
- Alpaca 近日,斯坦福基于 Meta 的 LLaMA 7B 模型微调出一个新模型 Alpaca。该研究让 OpenAI 的 text-davinci-003 模型以 self-instruct 方式生成 52K 指令遵循(instruction-following)样本,以此作为Alpaca的训练数据。研究团队已将训练数据、生成训练数据的代码和超参数开源,后续还将发布模型权重和训练代码。 斯坦福70亿参数开源模型媲美GPT-3.5,100美元即可复现
- HPC-AI Tech潞晨科技
- ColossalChat 202302 对标ChatGPT的开源项目。ColossalChat开源了第一个完整的RLHF pipeline,斯坦福Alpaca没有做RLHF
- [Open-Sora 202406]
- 复旦大学自然语言处理实验室邱锡鹏团队
- MOSS 202302 对标ChatGPT,已开源
- 百川智能
- Salesforce Research
- [BLIP-2图生文] 能力堪比ChatGPT
- OpenAI
- 业界应用
- OpenAI
- DeepMind
- World Labs李飞飞创立
- [Large World Model大世界模型 202412]
- AutoML介绍
- 自动数据清理AutoClean
- 自动特征工程AutoFE
- 超参数优化HPO
- 元学习MetaLearning
- 神经网络架构搜索NAS
- 推荐系统概述
- 基础知识
- 协同过滤
- 用户画像
- 进阶知识
- 排序模型概述
- 召回模型概述
- 机器学习
- Graph Embedding
- 深度学习
- DNN深化
- 特征交叉
- 多任务学习
- MMoE: Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts KDD2018(见业界应用)
- [ESMM: Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate SIGIR2018(见业界应用)
- 用户行为序列建模
- 用户行为序列建模
- 短序列
- pooling
- YouTubeDNN: Deep Neural Networks for YouTube Recommendations RecSys2016(见业界应用)
- 共享权重神经网络+池化
- RNN
- 基于Attention机制的用户行为序列建模
- 基于Target-Attention机制的用户行为序列建模
- DIN: Deep Interest Network for Click-Through Rate Prediction KDD2018(见业界应用)
- DIEN: Deep Interest Evolution Network for Click-Through Rate Prediction(见业界应用)
- DSIN: Deep Session Interest Network for Click-Through Rate Prediction IJCAI2019(见业界应用)
- 基于Self-Attention机制的用户行为序列建模
- 基于Transformer中的Self-Attention的行为序列建模
- 基于Target-Attention机制的用户行为序列建模
- pooling
- 长序列
- MIMN: Practice on Long Sequential User Behavior Modeling for Click-Through Rate Prediction
- SIM: Search-based User Interest Modeling with Lifelong Sequential Behavior Data for Click-Through Rate Prediction
- 用户多兴趣建模
- MIND: Multi-Interest Network with Dynamic Routing for Recommendation at Tmall
- DMIN: Deep Multi-Interest Network for Click-through Rate Prediction
- 图卷积网络
- 强化学习
- 业界应用
- YouTube
- Alibaba
- TDM: Learning Tree-based Deep Model for Recommender Systems KDD2018
- DIN: Deep Interest Network for Click-Through Rate Prediction KDD2018
- DIEN: Deep Interest Evolution Network for Click-Through Rate Prediction 也评Deep Interest Evolution Network 石塔西
- DSIN: Deep Session Interest Network for Click-Through Rate Prediction IJCAI2019
- ESMM: Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate SIGIR2018
- 传感器
- 感知
- 导航
- 轨迹预测
- 决策
- 规划
- 路径规划
- 轨迹规划
- 基于LLM大语言模型的规划
- Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language arXiv2022 Google
- Towards Helpful Robots: Grounding Language in Robotic Affordances Google2022
- Value Function Spaces: Skill-Centric State Abstractions for Long-Horizon Reasoning arXiv2022 Google
- Inner Monologue: Embodied Reasoning through Planning with Language Models arXiv2022 Google
- Interactive Language: Talking to Robots in Real Time arXiv2022 Google
- ChatGPT for Robotics: Design Principles and Model Abilities Microsoft2023
- 制导
- 控制
- 传统控制
- 基于强化学习的控制
- 基于LLM大语言模型的控制
- Code as Policies: Language Model Programs for Embodied Control arXiv2022 Google
- RT-1: Robotics Transformer for Real-World Control at Scale arXiv2022 Google
- Performer MPC: Learning Model Predictive Controllers with Real-Time Attention for Real-World Navigation Google2022
- ChatGPT for Robotics: Design Principles and Model Abilities MicroSoft2023 ***
- PaLM-E: An Embodied Multimodal Language Model arXiv2023 Google ***
- Towards a Robotics Foundation Model ML-Collective协会2023
- 动力系统
- 仿真
- 端到端自动驾驶
- Multi-Agent System多智能体系统
- 自动驾驶系统
- ArduPilot
- PX4
- FMT国产开源自驾仪 基于模型的设计Model Based Design