本文分类:news发布日期:2025/1/18 15:36:36
相关文章
面试时被问到“Scaling Law”,该怎么答?
在大模型的研发中,通常会有下面一些需求: 计划训练一个 10B 的模型,想知道至少需要多大的数据? 收集到了 1T 的数据,想知道能训练一个多大的模型? 老板准备 1 个月后开发布会,给的资源是 100 …
建站知识
2025/1/7 2:46:40
神经架构搜索:自动化设计神经网络的方法
在人工智能(AI)和深度学习(Deep Learning)快速发展的背景下,神经网络架构的设计已成为一个日益复杂而关键的任务。传统上,研究人员和工程师需要通过经验和反复试验来手动设计神经网络,耗费大量时…
建站知识
2025/1/14 13:29:07
KAN原作论文github阅读(readme)
目录 目录
地址
超参数设置
结构规模要小
lamb——正则化参数入
增加解释性
1.稀疏化网路
2.剪枝
3.可解释性与准确性不一定对立,
4.训练出较好的结果,可以增加数据量,再来最后一次的训练!
作者note
一些链接ÿ…
建站知识
2025/1/14 15:36:51
GCN+BiLSTM多特征输入时间序列预测(Pytorch)
目录 效果一览基本介绍程序设计参考资料 效果一览 基本介绍
GCNBiLSTM多特征输入时间序列预测(Pytorch) 可以做风电预测,光伏预测,寿命预测,浓度预测等。 Python代码,基于Pytorch编写 1.多特征输入单步预测…
建站知识
2025/1/17 4:25:33
【Linux】SQLite 数据库安装教程(Ubuntu 22.04)
引言
SQLite 是一个轻量级的嵌入式关系型数据库管理系统。它不需要独立的服务器进程,所有的数据都存储在一个单一的文件中。SQLite 常用于移动应用、嵌入式系统和小型桌面应用中,因为它占用资源少且易于部署。 安装步骤 更新系统的包列表。这将确保在安…
建站知识
2025/1/12 7:29:35
第九部分 Java API
第九部分 Java API
9.1 Java Number & Math
9.1.1 Java Number类
一般地,当需要使用数字的时候,我们通常使用内置数据类型,如:byte、int、long、double 等。
实例
int a 5000;
float b 13.65f;
byte c 0x4a;然而&…
建站知识
2025/1/14 21:23:10