GitHub“刷星”经济内幕
600 万个假星标、每次点击 0.06 美元,以及一条把 GitHub 热度当作增长证明的风投融资链。我们对 20 个代码库进行了自主分析,找到了其中的人为操纵痕迹。
摘要
- 一项经过同行评审的 CMU 研究(ICSE 2026)发现,利用 30.1 万个账户,18,617 个代码仓库中存在 600 万个虚假 star,其中 AI/LLM 仓库是最大的非恶意类别
- 在至少十几个网站、Fiverr 服务项目和 Telegram 频道上,star 的售价从每个 0.03 美元到 0.85 美元不等——无需暗网
- 风投机构明确将 star 用作项目筛选信号:Redpoint 发现,种子轮阶段的 star 数中位数为 2,850,而且多家机构会运行自动化爬虫来寻找增长迅速的代码仓库
- 我们也进行了自己的分析,在 20 个项目中对每个代码仓库抽样 150 个账户资料,发现一些仓库中有 36%至 76% 的加 star 账户零关注者,且 fork-to-star 比率比自然基线低 10 倍
- 美国联邦贸易委员会(FTC)于 2024 年出台的禁止虚假社交影响力指标的规定,对每项违规行为可处以 53,088 美元罚款——而美国证券交易委员会(SEC)已就创业公司创始人在融资过程中夸大增长势头指标提出指控
一个 GitHub star 的最低价格只要 0.06 美元。一次种子轮融资则可撬动 100 万至 1000 万美元。这里面的账再明显不过,而数以千计的代码库正借此牟利。
本次调查绘制了这一完整生态:从量化这一问题的同行评审研究,到公开售卖 stars 的交易平台,再到将 star 数量转化为融资决策的风险投资链条。我们还利用 GitHub API 对 20 个代码库进行了自主分析,抽样审查了数千个 stargazer 账户,以独立验证哪些项目呈现出被操纵的痕迹,哪些没有。
最终呈现出的图景是:一个成熟、专业化的地下经济,正在众目睽睽之下运转。
六百万个假星标
最权威的论述来自一项由 Carnegie Mellon University、North Carolina State University 和 Socket 的研究人员在 ICSE 2026 上发布的同行评审研究 。他们开发的工具 StarScout 分析了 20TB 的 GitHub 元数据——从 2019 年到 2024 年间的 67 亿条事件记录和 3.26 亿个星标——并识别出约 600 万个疑似假星标 ,这些假星标由约 30.1 万个账户分布在 18,617 个代码仓库上。
这一问题在 2024 年急剧恶化。到 7 月, 所有拥有 50 个或以上星标的代码仓库中,有 16.66% 卷入了假星标活动——而在 2022 年之前,这一比例几乎为零。研究人员的检测结果也被证明相当准确:截至 2025 年 1 月,90.42% 被标记的代码仓库和 57.07% 被标记的账户已被删除,证实 GitHub 自身也认定它们并不合法。
AI 和 LLM 仓库成为收到假星标的最大非恶意类别 ,以 17.7 万个假星标的绝对数量领先于区块链/加密货币项目。该研究指出,“其中许多是学术的纸仓库或与 LLM 相关的初创产品。” 更关键的是, 有 78 个被检测出存在假星标活动的仓库登上了 GitHub Trending,这证明购买星标能够成功操纵该平台的发现算法。
更早的基础性工作包括 Dagster 于 2023 年 3 月开展的调查 ,当时工程师从两家供应商处购买星标,以研究这一现象。他们通过基础的 Google 搜索找到了这些服务。一家高端供应商——GitHub24,这是一家注册于德国的公司(Moller und Ringauf GbR)——收费为每个星标 0.85 欧元 ,且交付稳定,一个月后购买的 100 个星标全部仍然存在。一家低价服务商(Baddhi Shop)则以 64 美元出售 1000 个星标,不过最终只有 75% 留存。
这个市场
卖星生态系统横跨专门网站、自由职业平台、交易网络和地下渠道。至少有十多个活跃网站直接出售 GitHub 星标,其中包括 SocialPlug.io、Buy.fans、Boost-Like.store、GitHubPromoter.com、Followdeh.com 和 Vurike.com。
| 档位 | 每个星标的价格 | 交付 | 账户质量 |
|---|---|---|---|
| 预算(一次性账户) | $0.03 – $0.10 | 天数 | 新的空白个人资料 |
| 中档 | $0.20 – $0.50 | 1-2周 | 有一定活动历史 |
| 高级版(老账号) | $0.80 – $0.90 | 渐进式、“自然”的投放 | 拥有代码仓库和贡献记录、注册多年的账号 |
在 Fiverr 上,24 个正在运营的服务项目出售 GitHub 推广服务,套餐价格从 5 美元的基础 star 和 fork 到 25 美元以上的“有机推广”不等。许多卖家使用模糊化措辞以规避平台过滤。像 GithubStarMate.com 和 SafeStarExchange.com 这样的 star 互换平台——两者目前都在正常运行——通过基于积分的系统提供免费的相互点 star 服务。
这套基础设施并不止于刷星。GitHub 上至少有七个开源工具(fake-git-history、commit-bot、Commiter 等)专门用于伪造 GitHub 贡献图。在 Telegram 上,带有五年提交历史和 Arctic Code Vault Contributor 徽章的预制 GitHub 账号资料售价约为 5000 美元 。
一些供应商提供补量保障 ——Followdeh 宣称提供 30 天保障,而高端服务则承诺提供“非掉星”星标,能够避开 GitHub 的检测系统。SocialPlug 称,已为 5.3 万多名客户交付 310 万个星标,并提供正式 API 以支持程序化购买。
一项清华大学研究 (ACSAC 2020)记录了中国 QQ 和微信推广群的情况:这些群组拥有 1020 多名成员 ,每天处理约 20 个代码仓库,估算每年为推广者带来 340 万至 440 万美元的利润。
我们的分析:虚假加星者是什么样子
为了超越表面上的统计数据,我们构建了一款 GitHub API 分析工具,并对 20 个代码库进行了分析:包括被 StarScout 标记的项目、来自 Runa Capital ROSS 指数的快速增长 AI 代码库,以及已知的自然增长基准项目。对于每个代码库,我们抽样了 150 个加星用户档案,并衡量其账户年龄、公开代码库数量、关注者数量以及是否填写个人简介。
一旦知道该看什么,操纵的痕迹就显而易见。
基准:自然增长是什么样子
| 指标 | Flask(7.1 万星标) | LangChain(13.3 万) | AutoGPT(18.3 万) |
|---|---|---|---|
| 账户年龄中位数 | 4,801天 | 2,967天 | 4,022天 |
| 公开仓库为零 | 5.3% | 5.9% | 2.0% |
| 粉丝为零 | 10.0% | 11.8% | 5.9% |
| 幽灵账号 | 1.3% | – | – |
| 可疑账号 | 0.0% | 0.0% | 0.0% |
| 分叉与星标比率 | 0.235 | 0.155 | 0.090 |
| 守望者与星标比率 | 0.029 | 0.006 | 0.005 |
自然增长的代码仓库获得星标的用户,通常是在 GitHub 活跃多年的开发者,他们维护着自己的项目,也会关注其他用户。幽灵账号——零仓库、零粉丝、无个人简介——在一个健康项目的星标用户基础中约占 1%。
被操纵的:区块链代码仓库
| 指标 | Union Labs(7.4 万) | Shardeum(3.2 万) | FreeDomain(15.7 万) | Anoma(3.4 万) |
|---|---|---|---|---|
| 账户中位年龄 | 1,180天 | 997天 | 1,042天 | 1,071天 |
| 公开仓库为零 | 32.7% | 38.0% | 28.0% | 35.3% |
| 关注者为零 | 52.0% | 59.3% | 81.3% | 62.0% |
| 幽灵账号 | 19.3% | 28.7% | 28.0% | 26.7% |
| 分叉与星标比率 | 0.052 | 0.022 | 0.017 | 0.121 |
| 关注者与星标比率 | 0.022 | 0.009 | 0.001 | 0.006 |
这些代码仓库有着鲜明的共同特征。相关账户并非明显的新号——账户年龄中位数超过 1000 天——因此能够通过简单的“年轻账户”筛选。但它们却是空壳 :三分之一没有任何代码仓库,二分之一到五分之四没有任何关注者,四分之一则完全如同幽灵。这些都是专门为刷星活动而购买或批量养成的老账户。
分叉与星标比率是最强的信号。Flask 每 1000 个星标对应 235 次分叉。Shardeum 只有 22。FreeDomain 只有 17。一个拥有 15.7 万星标的代码仓库,如果几乎没人分叉,就说明根本没人真正使用它。关注者与星标比率也说明了同样的问题:FreeDomain 的 0.001 意味着,每 1000 个给该代码仓库点星的人中,真正关注其更新的只有 1 人。
FreeDomain 尤其值得单独拎出来看:它有 15.7 万颗星标,却只有 168 名关注者和 2676 次分叉。其关注者与星标之比比 Flask 低 26 倍。 在抽样的点星用户中,81.3% 的人没有任何关注者。 这是一个代码仓库——几乎所有为它点星的人在 GitHub 上都没有任何可见存在感。
Union Labs 是最具标志性的案例。它在 Runa Capital 2025 年第二季度 ROSS Index 指数中排名第一 ——这是一份在风投行业被广泛引用、用于识别“最热门开源初创公司”的报告——其 star 增长达到 54.2 倍,总计 74,300 个 stars。我们的分析发现,其 32.7%的账户没有任何仓库,52%的账户没有任何关注者,且分叉与 star 比率为 0.052。StarScout 的分析将其标记为 47.4%的 stars 疑似为虚假 。一份风投机构赖以发掘投资标的、极具影响力的投资来源报告,其榜首项目近一半的 stars 都疑似为人为制造。
AI 领域:情况不一
| 指标 | RagaAI(1.6 万) | openai-fm(3K) | Langflow(147K) | hermes-agent(74K) |
|---|---|---|---|---|
| 账户年龄中位数 | 484天 | 116天 | 2,859天 | 2,932天 |
| 零公开仓库 | 38.8% | 38.0% | 11.2% | 10.7% |
| 零关注者 | 76.2% | 66.7% | 20.0% | 32.0% |
| 幽灵账号 | 28.0% | 36.0% | – | 6.0% |
| 可疑 | 0.0% | 66.0% | 0.0% | 8.0% |
| 分叉与星标比率 | 0.224 | 2.794 | 0.060 | 0.133 |
RagaAI-Catalyst 和 openai-fm 显示出明显的操纵信号。RagaAI 有 76.2%的零关注者账户和 28%的“幽灵”账户,几乎与区块链项目的模式如出一辙。openai-fm 则是我们数据集中最极端的案例:66%的可疑账户、36%的“幽灵”账户,以及中位账户年龄仅 116 天 。其三分之二的点星用户注册时间不足一年,且几乎没有任何 GitHub 活动。(StarScout 的分析指出,这很可能是第三方机器人所为,而非 OpenAI 本身。)
Langflow——被 StarScout 标记为 47.9%为虚假——在我们的资料样本中却显示出干净的指标,其中位账户年龄为 2,859 天,“幽灵”账户比例也较低。这很可能反映出,自 StarScout 扫描以来,这些账户的质量已有所改善。不过,其 0.060 的 fork-to-star 比率依然明显偏低——大约只有 Flask 的四分之一——这表明,相对于其星标数量,真实采用程度仍然不足。
相比之下,NousResearch 的 hermes-agent 看起来相对更为自然:账号年龄中位数为 8 年,幽灵账号占比 6%,分叉与星标比为 0.133。尽管 Reddit 上有人指责其进行“伪草根营销”,但为其点星的用户群体大多是真实开发者。该项目面向的加密相关受众中包含更多普通 GitHub 用户,这解释了其零关注者比例略高,但其基本互动模式是正当的。
星标如何变成美元
GitHub 星标数量与初创公司融资之间的联系并非臆测——投资者自己已明确记录了这一点。
Redpoint Ventures 合伙人 Jordan Segall 发布了一项分析 ,研究了 80 家开发者工具公司,结果显示, 种子轮融资时 GitHub 星标数的中位数为 2,850,而在 A 轮融资时为 4,980。他证实说:“许多风投机构都会编写内部抓取程序,以识别快速增长的 GitHub 项目作为项目来源,而他们最常关注的指标就是星标。”
这些数字设定了一个隐性的目标。对于一家初创公司来说,只需花费 85 至 285 美元购买“预算星标”,就能制造出 2,850 个星标的种子轮中位数;花费 990 至 4,500 美元,则可达到 Series A 阶段的水平。相较于通常为 100 万至 1,000 万美元的种子轮融资,其投资回报率可达 3,500 倍至 117,000 倍 。
Runa Capital 每季度发布 ROSS(Runa Open Source Startup)指数,按 GitHub 星标增长率对增长最快的 20 家开源初创公司进行排名。据 TechCrunch 报道,在吸引到投资的 ROSS 指数初创公司中,68%是在种子轮阶段获得融资,所追踪轮次的融资总额达到 1.69 亿美元。GitHub 自身则通过与 M12(Microsoft 旗下风险投资部门)合作设立的 GitHub Fund,每年承诺投资 1000 万美元 ,根据平台发展势头等因素,投资 8 至 10 家处于 Pre-Seed/Seed 阶段的开源公司。
有据可查的“星标到融资”链条案例:
- Lovable(前身为 GPT Engineer):超过 5 万个星标,获得 750 万美元种子前轮融资,A 轮融资 2 亿美元, 估值 18 亿美元 ,团队规模为 45 人
- Pangolin:2025 年 1 月获得 1000 个星标,入选 Y Combinator,截至 2025 年 8 月完成 470 万美元种子轮融资
- Browser-use:3 个月内获得 5 万个星标,入选 Y Combinator W25 批次,完成 1700 万美元种子轮融资
- LangChain:种子轮获 Benchmark 1000 万美元投资
主导这项虚假星标调查的 Dagster 员工 Fraser Marlow 直接承认 :“在融资前的准备阶段,我曾花了相当多时间纠结于 GitHub 星标。”一篇发表在 《Organization Science》上的学术论文提供了严谨的统计证据,表明 GitHub 活跃度与初创企业融资结果存在相关性——在 GitHub 上活跃的初创公司获得融资的可能性高出 15 个百分点 。
这种激励循环会自我强化:风投将 star 视为项目筛选信号,于是初创公司操纵 star;风投看到被夸大的增长势头后,就会有更多风投采用 star 追踪;而采用追踪的风投越多,操纵 star 的初创公司也就越多。Redpoint 自行发布的基准,等于为初创公司提供了一个可以精准买量冲刺的目标。
分叉与星标比率:一种简单的检测启发式方法
我们的分析显示,分叉与星标的比率是识别潜在操纵行为最有效的简单启发式指标。其逻辑很直接:点一个星标无需成本,也不代表任何承诺。一次分叉则意味着有人下载了代码,准备使用或修改它。
| 类别 | 代码库 | 平均 F/S 比率 |
|---|---|---|
| 自然基线(Flask、LangChain、AutoGPT) | 3 | 0.160 |
| AI 工具(crewAI、dify、agno、mem0、browser-use) | 5 | 0.124 |
| 疑似操纵(区块链集群) | 4 | 0.053 |
| 极端案例(Shardeum、FreeDomain) | 2 | 0.020 |
任何分叉与星标比例低于 0.05 且星标数超过 10,000 的代码仓库都值得审视。守望者与星标的比例更能说明问题:自然增长的项目平均在 0.005 到 0.030 之间;FreeDomain 仅为 0.001。
这些比例并不完美——教育类代码仓库和精选列表的分叉率天然较低。但作为初步筛选,它们能抓出那些原始星标数量完全无法揭示的最恶劣案例。
超出 GitHub 的虚假热度
这一问题延伸至所有“人气指标”会影响信任的平台。
npm 下载量几乎可以被轻易刷高。 开发者 Andy Richardson 对此进行了演示 :他仅用一个 AWS Lambda 函数(免费层级),就把自己的包 is-introspection-query 的周下载量推高到近 100 万次——超过了 urql 和 mobx 等合法包。而实际用户为零。CMU 的研究发现,在发起虚假 star 活动的代码仓库中,只有 1.23% 出现在包注册表中;但在这 738 个包里,70.46% 没有任何依赖它们的项目 。
VS Code 市场扩展同样容易受到攻击。研究人员演示了一款虚假扩展在 48 小时内获得逾 1,000 次安装。AquaSec 发现,1,283 个扩展包含已知恶意依赖项,总安装量达 2.29 亿次。
X/Twitter 推广通过互动互助群放大 GitHub 的人工病毒式传播——这些私密群组中的成员会约定互相点赞、转发和评论彼此的内容。Growth Terminal 将此作为一项产品功能出售。NBC News 和 Clemson University 的研究人员发现了一个由 686 个 X 账号组成的网络,这些账号利用 LLM 生成的内容发布了超过 13 万条帖子 ,其中一些还带有明显痕迹,例如“Dolphin here!”,这来自他们所使用的未审查 Dolphin 模型。
Higgsfield AI 一案记录了跨平台、有组织的大规模虚假造势:在 60 多个子版块中确认发现超过 100 条垃圾帖文 ,同时还向内容创作者群发模板私信,提出付费进行推广。
无人提及的法律风险
自 2024 年 10 月 21 日起生效的 FTC 消费者评价规则明确禁止出于商业目的,出售或购买由机器人或虚假账户制造的“虚假社交媒体影响力指标”。处罚金额: 每项违规最高 53,088 美元 。FTC 于 2025 年 12 月向 10 家公司发出了首批警告信。为推广商业产品而购买的 GitHub star,符合这一规则框架。
SEC 方面的先例则更为直接。HeadSpin 首席执行官因通过电信欺诈指控 (最高可判 20 年)以及证券欺诈,被控夸大指标,骗取投资者 8000 万美元。ComplYant 创始人则因宣称月收入为 25 万美元、而实际收入仅为 250 美元而面临指控 。
SEC 传递的信息是:“初创公司融资者不能用‘先假装成功,直到真正成功’的 ethos 来粉饰对投资者撒谎的行为。”
如果一家初创公司在一轮融资过程中购买虚假的 GitHub 星标,以夸大外界对其发展势头的认知,而投资者又依据这些指标来部署资金,那么电信欺诈的法律框架就适用:即利用电子通信手段歪曲重大事实以谋取经济利益。迄今为止,尚无人因伪造 GitHub 星标而被正式指控。但鉴于 CMU 的研究记录了这一做法已大规模存在,以及 FTC 的规则已明确将虚假社会影响力指标纳入监管,这或许只是时间问题。
GitHub 的回应
GitHub 的可接受使用政策明确禁止“虚假互动,如虚假账户和自动化的虚假活动”、“排名滥用,如自动刷星或关注”,以及“为扩散虚假活动而创建或参与二级市场”。该政策甚至特别禁止以“加密货币空投、代币、积分、礼品或其他赠送物”为激励的刷星行为。
执法具有被动性且并不对称。GitHub 删除了被 StarScout 标记的 90.42% 的代码库,但仅删除了 57.07% 的刷星账户 。用于未来行动的基础设施在很大程度上依然完好无损。Dagster 公布其调查后,这些虚假刷星账号在 48 小时内被删除——但这是在遭到公开曝光之后,而非主动侦测的结果。
GitHub 从未发布过任何介绍其检测方法或执法统计数据的工程博客文章。针对星标操纵行为,也不存在任何透明度报告。该公司安全运营副总裁仅向《Wired》表示,他们“依据 GitHub 的可接受使用政策禁用了用户账户”,并拒绝进一步说明——不过,这番表态具体针对的是 Stargazers Ghost Network 恶意软件行动,而非虚荣指标操纵。
卡内基梅隆大学研究人员建议,GitHub 采用一种基于网络中心性、而非原始星标数量的加权受欢迎度指标 。这一改变将在结构上削弱虚假星标经济。GitHub 尚未实施该方案。
风投机构应该改用什么
Bessemer Venture Partners 将星标称为“虚荣指标”,转而跟踪每月独立贡献者活跃度 ——即任何创建过议题、评论、PR 或提交的人。在排名前一万的项目中,月度贡献者人数曾超过 250 人的项目不到 5%;而能在连续六个月内维持这一水平的,仅占 2%。
StateShift 的 Jono Bacon 建议关注五项与真实采用度相关的指标:包下载量、问题质量(来自真实用户在生产环境边缘案例中提出的问题)、贡献者留存率(提交第二个 PR 所需时间)、社区讨论深度,以及使用遥测数据。
我们分析得出的“分叉与星标比”是最简单的初步筛选指标。一个健康的项目,每获得1,000个星标,通常会有大约100到200次分叉。那些每1,000个星标对应的分叉数低于50、但绝对数量又很高的项目,值得进一步仔细审查。
正如一位评论者所说:“你可以伪造 star 数量,但你无法伪造一个能拯救别人周末的 bug 修复。”
结构性问题
有三种动态机制使这一现象不断自我强化。
首先是激励循环 。风投机构将 star 视为项目筛选信号。初创公司操纵 star 数量。风投看到被夸大的增长势头。更多风投开始追踪 star。更多初创公司随之操纵。Redpoint 公布的基准——种子轮 2,850 个、A 轮 4,980 个——实际上等于给初创公司列出了一份该买多少 star 的价格表。
第二,AI 行业的特殊脆弱性 。极端炒作、偏向加密货币的融资模式——这种模式奖励的是代币价格而非产品质量——再加上 X/Twitter 上部分由虚构人设构成的评测生态,共同造就了一个为“制造可信度”量身定做的环境。我们的分析证实了这一点:操纵信号最严重的代码库,绝大多数都是区块链和与加密货币相关的 AI 项目。
第三,GitHub 执法上的不对称 。删除代码库,却让 57% 的虚假账户继续留存,这实际上保住了“假星经济”的劳动力,却几乎无法遏制屡次违规行为。除非 GitHub 推出结构性改革——如按权重计算的流行度指标、账户级信誉评分,或透明的执法报告——否则,星标数量与真实开发者采用度之间的鸿沟只会持续扩大。
星标经济是一个 50 美元的问题,却会带来 5000 万美元的后果。只要平台、投资者和监管机构还没有跟上,市场就会继续为这 50 美元买单。
来源:
- He 等人——GitHub 上六百万颗(疑似)虚假星标(ICSE 2026)
- Dagster——识别 GitHub 虚假星标
- Du 等人——理解 GitHub 上的“促销活动即服务”模式(ACSAC 2020)
- Segall,Redpoint Ventures——那么,到底多少颗星才算够?
- TechCrunch——哪些开源初创公司在 2022 年一飞冲天?
- Runa Capital ROSS 指数
- GitHub 基金
- heathdutton——StarScout 虚假 Star 分析(GitHub Gist)
- Check Point——Stargazers Ghost Network
- FTC——禁止虚假评论的最终规则
- SEC——HeadSpin 欺诈指控
- Conti 等——为你的投资者“美化”IT 实力?(《组织科学》,2025)
- BVP——衡量开源软件社区参与度
- Richardson——我是如何操纵 npm 下载量的
- NBC News——X 上的共和党机器人活动
- GitHub 可接受使用政策
- Marlow,Technical.ly——初创公司该担心 GitHub 星标吗?