华为Pangu员工宣布:炮击,培训和洗水印

- 编辑:365速发登录入口 -

华为Pangu员工宣布:炮击,培训和洗水印

华为盘古员工自曝:套壳、续训、洗水印大家好,我是一群大型Pangu模型,也是华为Noah的方舟实验室的员工。首先,对于自我认证,我们将列出一些详细信息:1。目前,诺亚(Noah)董事,算法申请部门前主任,小型实验室模型主任王Yunhe。前导演诺亚(Noah):Yao Jun(所有老师都称他为Yao)。许多实验室主管:唐·鲁明(Ming GE,明星,辞职),尚恩·林格(Shang Lifeng),张魏(Vigo),霍·江(Hao Jianye)(老师hao),刘·沃隆(Liu Wulong)(被称为研究所)等。许多其他主要成员和专家彼此辞职。 2。我们与“四个领域”组织相关联。该领域的第四军下有许多柱子,主要语言模型是第四个支柱。 Wang Yunhe的小模型是11个支柱。我们加入了苏州的大会,并拥有不同的节点数月。向苏州关键研究协会发布任务订单,需要实现之前节点。苏州聚会会议集中在苏州研究所的世界各地,并留在酒店,例如在卢齐(Luzhi)的酒店,并与他们的家人和儿童分开。 3。聚集在苏州时,我在星期六上班,这非常困难,但是星期六有日本茶,有小龙虾。我曾经将工作站搬到苏州研究所,然后从一栋建筑物搬到另一座建筑物。苏州研究所的建筑都是欧洲风格的装饰,门上有大坡,内部场景非常好。通常至少需要一周的时间才能聚集在苏州,甚至更长的时间,而且更多的人不能为一个月或两个月。 4。诺亚(Noah)已成为一项研究,但到达后,他在第四领域的大型项目模型工作,项目成员完全成为专门的交付,并充满了定期的会议,评论和报告。很多时候,您需要申请实验。茶M必须连接到许多业务线路,例如Xiaoyi终端,华为云,ICT等,并且交付压力很大。 5。诺亚开发的pangu模型被命名为“ Pangu Zhizi”。最初,只有Web版本需要用于测试。将来,它被迫在压力下访问和打开Welink。如今,在质疑pangu窃的大型模型方面存在许多争议。作为Pangu团队的一员,我在洗衣服,转弯山雀在深夜,很难入睡。 Pangu的品牌受到极大影响。一方面,我对发展自己的职业生涯并感到自己过去的努力是不值得的。另一方面,我很高兴,因为有人开始透露这些东西。在过去的几天和晚上,我们刷牙了,没有能力对某些人的行为做任何事情,这些人通过一次又一次地欺诈而获得无数福利的行为。这个亲戚沮丧和羞耻的D逐渐消除了我对华为的感受,逐渐地,我感到困惑,在这里失去了时光,并且经常怀疑我的生活和自尊心。我承认我是一个胆小的人。作为一名小型移民工人,我不仅急于不同意像Wang Yunhe这样的人,而且也没有奏效,这与Huawei这样的巨人没有矛盾。毕竟,我害怕失去工作,我也有家人和孩子,所以我从内心深处欣赏爆炸仪。但是,当我看到内部仍在试图掩盖事实,而公众是盲目的,我真的无法忍受。我也希望有时会勇敢地跟随我的真心。即使我失去了八百人,也希望它可以做一千个敌人。我决定在这里发布我在这里看到的内容(部分来自同事的口头描述),内容涉及pangu的大型模型:华为主要在Astend Asttend卡上(小型实验室模型中的许多NVIDIA卡片)上练习了大型模型,他们也将在练习之前使用,并最终转移到Astend)。有时,印象深刻的是华为决定“建立世界第二选择”,而我曾经与华为建立了深厚的关系。我们陪同攀登努力工作,并从今天的火车模型的存在中付出了巨大的努力和价格。起初,我们的计算强度有限,我们在910a训练了该模型。它只会支持FP16,训练的稳定性将低于BF16。 MOE早就开始了,在23年时,它主要训练了38BMOE模型和随后的71B密度模型。 71b密度模型通过加强成为第一代135BDENS模型,并在910b中逐渐训练了主要模型。 71b和135b型号都有一个巨大的缺陷,即标记器。当时使用的代币器的效率非常低,并且每个符号(AS,Space)都将占有一个令牌。可以假定它将浪费Computin的力量G并使模型差。目前,小型实验室模型发生了一个自我训练的单词列表。 Yao老师想知道该模型的令牌是否不好(尽管那时他的怀疑无疑是正确的),因此他决定将令牌机更改为71b和135b,因为小型实验室模型尝试了它。团队退出了两个令牌,并开始更换引物。 71b模型替换失败了,而135b使用了更精致的启动策略并继续训练至少1T数据,词汇列表最终被成功所取代,但可以假定效果不会改善。在此期间,阿里巴巴和Zhipu等其他乡村公司已经接受了GPU培训,并找到了正确的方法。 pangu和竞争对手之间的差距变得越来越大。内部230B训练的密度模型因各种因素而失败,导致该项目几乎处于绝望的状态。处理压力从多个节点和对Pangu的强烈内部怀疑,该团队的道德非常沮丧。当计算强度受到很高的限制时,团队就做出了许多努力和挣扎。例如,团队不小心发现当时38B MOE没有预期的MOE效果。因此,将MOE参数删除并恢复为13B密度模型。由于38B Moe来自早期的Pangu Alpha 13B,并且该建筑有些落后,因此团队进行了一系列操作,例如NG向绳索,偏见和转移到RMSNORM的全部位置。同时,鉴于一些令牌失败和单词更改列表的经验,该模型的单词列表也被Wang Yunhe模型实验室7B的小型模型中使用的单词列表所取代。最终,这个13B模型扩展并继续训练,并成为第二代38B密度模型(该模型是pangu的基本中端模型),一旦到达那里作为一定程度的竞争力。但是,由于较大的135b型号的落后结构以及对词汇表模型更换的主要损害(随后的评论发现,替换的缝合词汇表的虫子更为严重),训练后,诸如Qianwen之类的领先的家用模型也有一个很大的空间。目前,由于内部怀疑和领导层的压力变得更大。球队的状况几乎处于绝望状态。在这种情况下,Wang Yunhe和他的小实验室模型采取了行动。他们承认他们是从135b的旧参数继承的。通过培训几百个B数据,每个指标的平均增加约为十点。实际上,这是他们第一个应用于大型型号的杰作。华为领导人不知道胡说八道,他们只是认为应该有一些算法变化。内部审查后,他们实际上使用Qwen 1.5 110B继续t下雨。通过添加图层,增强FFN的大小以及添加杂物纸的某些机制,Nakolethey的参数约为135B。实际上,旧的135b具有107层,而该模型只有82层,不同的调整是不同的。带有未知来源的新135B之后的多个参数的分布几乎与QWEN 110B完全相同。当时,即使是模型代码类的名称也是QWEN,他们懒于更改名称。随后的模型是So -call的135B V2。当时还向许多上游客户(甚至外部客户)提供了该模型。这一事件认真而诚实地对我们的同事产生了巨大影响。即使有码头和华为的云层,许多内部的许多人也知道这一点。我们都在开玩笑说,这是将来的未来模型,称为Qiangu。当时,团队成员想向BCG报告,毕竟,这是一个主要的业务欺诈。但是后来说领导之所以停下来是因为更高级别的领导人(例如Yao的老师,也许还有Xiong和Cha Lao先生和Cha Lao都意识到了这一点,但他们不在乎,但他们对他们通过外壳取得良好的成绩会很有帮助。当时这一事件使某些最强大的队友在那个时候开始感到沮丧,辞职,并在这个时候逐渐训练了这一点。转型,诺亚在当时重新启动培训的技能,让NPU的NPU的NPU在当时的主要团队成员的努力中开始,在第三个代表模型之后,只有在数据架构和训练中,都没有努力。开始从13B型号进行训练,但最终发现效果很美,因此该模型再次扩展,并成为38B,-decodenamed 38b.v3。我相信,来自产品线的许多兄弟都熟悉该模型。当时,该模型的令牌得到了根据美洲驼的词汇(也是一种共同行业技能)扩展。当时,Wang Yunhe的实验室创建了另一个单词列表(即下一个Pangu系列的单词列表)。当时,这两个词汇被迫繁殖马,关于它是好是坏的,尚无明确的结论。因此,领导人立即决定将任期团结起来,并使用王云和其他人。因此,在随后的重新引起的方法中训练的135B V3(即外部超级)使用此令牌。它还解释了许多使用我们模型的兄弟的疑问,为什么当时V3一代中具有不同装备位置的两个模型会使用不同的tOkenizers。从我们的心中,135B V3是当时我们第四支支柱的骄傲。这是华为本身开发的第一个真实模型,从一开始就经过了认真的培训,其效果与竞争对手相当24年。此时我流泪了,Hiit很容易。当时,为了稳定培训,团队进行了许多实验比较,并在模型梯度异常时反复滚动和重新列出。该模型实际上实现了上次技术报告中提到的培训过程。我们已经克服了无数的困难,我们做到了这一点,我们愿意利用我们的生活和荣誉来确保这种培训的真实性。我们多早睡了他的训练。当我们以内在的声音演奏时,我们做了自己的样子以及我们感到多少不满。我们真的烧毁了我们的年轻人以抛光国内计算能力的基础...活着n外国,我们投降我们的家庭,假期,健康,爱好和牺牲我们的生命。 Sakeshardship和苦难不足以总结。在各种动员会议上,Pangu将赢得胜利,华为当时将赢得口号,我们真的很感动。但是,小型实验室模型经常消除我们所有的努力。数据,笔直。该代码是直接进行的,我们还要求我们可以一起工作并单击。当时,我们开玩笑说小鼠实验室的小实验室模型称为实验室实验室。我们努力工作,他们实现了荣耀。确实,您会承担负担并继续前进,因为某人对您有和平。在这种情况下,越来越多的同伴无法再处理并选择离开。看到我周围的其余同伴彼此辞职,我叹了口气。在这种环境中,我们更像是武器伴侣,而不是同事。他们还具有无数的技术方面,值得向他们学习,并且是好老师。看到他们参加了许多伟大的团队,例如Byteseed,DeepSeek,Moon的阴暗面,Tencent和Kuaishou,我从心底为他们感到高兴和祝福,并取消了这个困难但肮脏的地方。我仍然记得辞职同事的话,他说:“来这里。”在我的技术生涯中,这是一个耻辱。每天住在这里是浪费生命。 “尽管这是一个顽皮的词,但让我不说话。我记得我缺乏技术积累和无法适应我想离开的互联网公司的高度删除,我想多次离开的互联网公司。除了密度模型外,Pangu还开始探索Moe,第二阶段还包括其他模型。实验室知道他们所谓的行动被迫适应该模型,但由于多种原因,它们无法促进正义。 Qianwen,包括故意练习肮脏的数据。 718B MOE练习显然,该模型比直接外壳更好?想要继续培训,您可以在外出后的权力计算冒险,每个人都在谈论并学习如何进行公共关系和“回应”。接受,对本文的审查可能不够强大,使王云和小型实验室模型机会可以争论并成为黑白。因此,在过去的两天里,我一直感到恶心,我一直怀疑自己的生活意义以及天空中缺乏眼睛。我不再和你在一起了,我要离开工作,也申请从有关技术方案的一些报告列表中删除。当这些技术报告的签名是我一生中无法消除的污点时。那时,我没想到他们为他们敢于开放而感到自豪他资源。我没想到他们会愚弄世界并大放异彩。当时,我可能很幸运能够拒绝签名。我相信,许多只是试图乘海盗船或不知道的同伴。但是这件事是不可逆转的。我期待这一生中,Maai将继续做真正有意义的事情,并为当时的软弱和无能为力而孤独。当我在深夜写下它时,我在哭泣和哭泣。我仍然记得剩下的一些同事是否辞掉了工作,我问他们是否想发布一个长期的常规帖子来揭示当前情况。其他政党说:不,这是在浪费时间,恐怕您会过上更糟糕的生活。那时我很难过,因为我为目标共同努力的同伴完全劝阻华为。当时,每个人都开玩笑说我们使用了小米和共产党步枪,但是该组织的风格可与Kuomintang媲美。有时,我为你感到骄傲唱小米和步枪以击败外国枪支和大炮。现在,我很累,我想放弃。实际上,直到纪念日,我仍然希望华为能够认真对待课程,在Pangu上做得很好,在世界一流的世界中做一个世界,并在NVIDIA级别提高Aseng。内部糟糕的钱驱动了很多钱,这使诺亚甚至华为在短时间内失去了许多剩余的大型模型才能。我相信他们像Deepseek和其他团队一样闪耀,展现了他们的野心和才华,并将他们的力量分配给了中国和美国在AI之间的激烈竞争。我经常觉得华为没有才华,但它不知道如何维持才华。如果为这些人提供了正确的环境,正确的资源,更少的束缚和更少的政治斗争,那为什么要记住这一记忆?最后:我发誓我所写的所有内容都是真实的(至少在我有限的理解范围内)。我愿意没有高水平的技术技能和机会进行详细且稳定的分析,我不会努力使用内部记录直接提供证据,因为担心由于信息安全而被抓住。但是我相信我的许多前同伴会为我作证。华为内部的兄弟,包括我们提供的产品线,我相信本文的无数细节将与您的印象相提并论并确认我的声明。您可能被欺骗了,但是这些苛刻的事实无法被抓住。我们斗争的痕迹不应该是混乱和掩埋的。在Mawrite这么多之后,有些人应该寻找我并删除它。如果公司可能做得不好,我想让我保持沉默,甚至我负责。如果这是真的,那么个人,甚至我家人的安全也可能是威胁。为了保护保护,我将在不久的将来每天向您报告我的安全。如果我输了,我只会为真相和果阿牺牲ls,对于华为甚至中国,可以更好地发展计算和人工智能的力量。一旦我遭受痛苦,我想把它埋在那个地方。诺亚,告别到2025年7月6日上午用深圳写的