这几天DeepSeekR1刷屏了,因为低成本、高效率震惊了美国所有Ai公司。

今天咱们就不聊DeepSeekR1的厉害之处,只聊这个大模型背后的这帮人,他们为何这么出手不凡?

众所周知,DeepSeek创始人叫梁文锋,是一名80后,毕业于浙江大学信息与电子工程学专业,读的是电子工程系人工智能方向,在浙大攻读硕士研究生期间,发表过《基于低成本PTZ摄像机的目标跟踪算法研究》高质量论文,可以说是妥妥的技术牛人。

DeepSeek的前身是幻方量化,同样牛气冲天。

2015年梁文锋与校友共同创立了幻方量化,只用了短短5年时间,这家公司就成为了国内千亿规模的量化私幕大厂,并搭建了“萤火一号”集群,打造出了超大规模算力底座,为DeepSeek奠定了坚实基础。

DeepSeek成长速度惊人

DeepSeek于2023年7月17日成立,主要方向是开发先进大语言模型,时至今日虽然只有短短的一年多时间,但开发速度惊人。

2023年11月2日,DeepSeek开发出了首个模型DeepSeek Coder。

2024年5月发布了DeepSeek V2。

2024年12月26日发布了DeepSeek V3。

2025年1月20日又发布了DeepSeek R1,目标直指美国顶级Ai大模型——OpenAI o1。

从发布的频率和时间来看,DeepSeek在2024年创新速度非常快,而这次让美国头疼的正是DeepSeek R1,可以说直接轻松完胜美国当前所有顶级Ai大模型,打了他们一个措手不及。

当然,他们在震惊之余,对DeepSeek背后的团队更为感兴趣。

当时国外很多媒体猜测,DeepSeek作为一个初创公司,能够以迅雷不及掩耳之势占据Ai领域上峰,这个团队核心人员一定是来自至全球Ai领域前50名的顶级研究员。

然而,梁文锋在接受媒体采访时却说,“我们团队全是来自国内,甚至是一些Top高校的应届毕业生、没有毕业的博四、博五实习生,以及才毕业没几年的年轻人。”

梁文锋还特别强调:有很多人认为我们公司核心成员来自该领域前50名顶尖人才,其实真没有,人家也不可能来中国,但我们也许可以打造这样的人才。

PS:之前总有人说,中国高校学生只注重理论,而不注重成果转化,现在看来有失偏颇,企校合作不但可以发现人才,还可以将他们所学的理论用于实践,并且结合企业需求搞创新,效率其实是非常高的,当然这里面得有一个像梁文锋这样的牛人作为带头人。

此外,梁文锋还意外透露了团队中一名核心成员的身份,他说:“前一段时间传雷军用千万年薪挖的“95Ai天才少女”,罗福莉就在我们DeepSeek。”

有资料显示,罗福莉出生于四川,就读于北京师范大学计算机专业,大三时进入北大语言计算机实验室实习,选择了NLP作为研究方向,后来保研进入北大计算机语言学研究所,从事Ai语言大模型研究。

2019年曾在国际顶级会议ACL上发表了8篇有关人工智能论文,之后又在阿里达摩院从事人工智能语言模型训练,2022年又加入到DeepSeek团队,参与了MoE大模型和DeepSeek-Ⅴ2研究。

关于小米高薪邀请一事,罗福莉虽然没有否认也没有肯定,但是她的高中班主任称,她还没有考虑好,说明并非空穴来风。

1月27日,当记者再次询问时,该班主任称,罗福莉的确参与了DeepSeek开发。

据悉,DeepSeek共有139名研发人员,其中,算子、推理框架、多模型等核心研发人员只有约70人,对比Open AI的1200名,DeepSeek的研发人员战斗力相当于1抵9,其创新实力就可见一斑了!

友情提示

本站部分转载文章,皆来自互联网,仅供参考及分享,并不用于任何商业用途;版权归原作者所有,如涉及作品内容、版权和其他问题,请与本网联系,我们将在第一时间删除内容!

联系邮箱:1042463605@qq.com