FIGURE 1. Study overview(全宽 180mm × ~120mm,5 panels: a-e) 排布:上面一行 panel a + panel b(a 占 ~60mm,b 占 ~115mm) 下面一行 panel c + panel d + panel e(各 ~58mm) --- Panel a: "The leaderboard conflation problem" --- 画一个简化的排行榜表格,6 行,3 列:Rank | Model | F1 选这 6 个模型,代表不同 data regime 和 architecture: #1 PET-OAM-XL F1 = 0.924 [深蓝色块] OMat24+sAlex+MPtrj #2 eSEN-30M-OAM F1 = 0.888 [深蓝色块] OMat24+sAlex+MPtrj #5 MatRIS-10M-OAM F1 = 0.877 [深蓝色块] OMat24+sAlex+MPtrj #11 ORB v3 F1 = 0.860 [天蓝色块] MPtrj+Alex+OMat24 #17 eSEN-30M-MP F1 = 0.797 [teal色块] MPtrj #22 Eqnorm MPtrj F1 = 0.756 [teal色块] MPtrj 每行右侧画一个小色块表示 training data regime(用上面定义的配色)。 关键标注: 在表格右侧画两个大括号: 上面的大括号框住 #1-#5(三个深蓝色模型),旁边写: "Same data regime, 3 different architectures → F1 range: 0.877-0.924" 下面的大括号框住 #17 和 #2(eSEN-30M-MP vs eSEN-30M-OAM),旁边写: "Same architecture, different data → ΔF1 = 0.091" 在表格上方加标题:"Current leaderboard: architecture or data?" 核心信息:一眼看出 (1) 同数据不同架构的差异很小,(2) 同架构不同数据的差异很大。 --- Panel b: "Our decomposition framework" --- 从左到右的信息流图,四个阶段: 阶段 1(左):"Prediction matrix" 画一个小矩形网格,标注行 = "45 models",列 = "256,963 materials" 矩阵内填淡色渐变表示预测值 阶段 2(中左):"Factor extraction" 从矩阵引出三条线,分别指向三个小标签: "Training data" (11 exact combinations) [teal 色] "Architecture" (5 groups) [橙色] "Parameters" (continuous) [灰色] 阶段 3(中右):"Five analyses" 五个小方框竖排,用细箭头从阶段 2 连过来: ① Variance decomposition → η² comparison ② Error clustering → ARI comparison ③ Scaling laws → slope comparison ④ Collective failures → structural modes ⑤ Resource allocation → Pareto frontier 阶段 4(右):"Core finding" 一个框,里面写: "Training data η² = 0.84 Architecture η² = 0.32 Data > Architecture across all metrics and robustness checks" Training data 那行用 teal 加粗,architecture 那行用橙色。 阶段之间用水平箭头连接。 --- Panel c: "Data scaling > parameter scaling" --- 一个概念性坐标图(不是真实数据,只是示意): x 轴:"log₁₀ investment" y 轴:"F1" 画两条上升虚线/趋势线: teal 线,较陡,标注 "Scale data: +0.069/decade" 橙线,较缓,标注 "Scale parameters: +0.063/decade" 右侧一个小 inset 或并排小图: ensemble 饱和曲线,x = k, y = F1 标注 "Best F1 = 0.911 @ k=6",k>6 之后曲线平坦 --- Panel d: "Failures in familiar chemistry" --- 画一个嵌套的两层椭圆(不用太复杂): 外层大椭圆:标注 "256,963 WBM materials",浅灰填充 内层小椭圆(偏右上方):标注 "66,260 collective successes",白色填充 外层但不在内层的区域中,画一个高亮的小区块(红色或深色): 标注 "1,882 collective failures" 加一条引出线指向旁边的文字: "NOT chemistry-OOD → familiar formulas → sparse structural support → singleton failure rate 0.173" 核心视觉信息:红色区块在大椭圆内部(familiar chemistry), 不在大椭圆边缘(不是 OOD)。 --- Panel e: "Budget-tier recommendations" --- 一条简化的阶梯曲线,x 轴分三段:"Low", "Mid", "High" y 轴:F1,大约从 0.75 到 0.90 三个点标在阶梯上: Low: Eqnorm MPtrj, F1 = 0.779 [teal 圆点] Mid: MatterSim v1 5M, F1 = 0.838 [紫色 圆点] High: eSEN-30M-OAM, F1 = 0.902 [深蓝 圆点] 每个点旁边用小字标注模型名和 training data。 点之间用向上的箭头连接,箭头旁标注 "data regime upgrade"。
Un graphique en barres ou en camembert coloré, présentant les différentes niches d'ebooks les plus populaires et louables en 2023-2024. Les catégories pourraient inclure la santé et le bien-être, le développement personnel, la technologie, les affaires et l'entrepreneuriat, la cuisine et la gastronomie, etc. Chaque segment du graphique pourrait être accompagné d'un pourcentage ou d'un indicateur. de popularité, basée sur les données de ventes ou les tendances de recherche actuelles.
FIGURE 1. Study overview(全宽 180mm × ~120mm,5 panels: a-e) 排布:上面一行 panel a + panel b(a 占 ~60mm,b 占 ~115mm) 下面一行 panel c + panel d + panel e(各 ~58mm) --- Panel a: "The leaderboard conflation problem" --- 画一个简化的排行榜表格,6 行,3 列:Rank | Model | F1 选这 6 个模型,代表不同 data regime 和 architecture: #1 PET-OAM-XL F1 = 0.924 [深蓝色块] OMat24+sAlex+MPtrj #2 eSEN-30M-OAM F1 = 0.888 [深蓝色块] OMat24+sAlex+MPtrj #5 MatRIS-10M-OAM F1 = 0.877 [深蓝色块] OMat24+sAlex+MPtrj #11 ORB v3 F1 = 0.860 [天蓝色块] MPtrj+Alex+OMat24 #17 eSEN-30M-MP F1 = 0.797 [teal色块] MPtrj #22 Eqnorm MPtrj F1 = 0.756 [teal色块] MPtrj 每行右侧画一个小色块表示 training data regime(用上面定义的配色)。 关键标注: 在表格右侧画两个大括号: 上面的大括号框住 #1-#5(三个深蓝色模型),旁边写: "Same data regime, 3 different architectures → F1 range: 0.877-0.924" 下面的大括号框住 #17 和 #2(eSEN-30M-MP vs eSEN-30M-OAM),旁边写: "Same architecture, different data → ΔF1 = 0.091" 在表格上方加标题:"Current leaderboard: architecture or data?" 核心信息:一眼看出 (1) 同数据不同架构的差异很小,(2) 同架构不同数据的差异很大。 --- Panel b: "Our decomposition framework" --- 从左到右的信息流图,四个阶段: 阶段 1(左):"Prediction matrix" 画一个小矩形网格,标注行 = "45 models",列 = "256,963 materials" 矩阵内填淡色渐变表示预测值 阶段 2(中左):"Factor extraction" 从矩阵引出三条线,分别指向三个小标签: "Training data" (11 exact combinations) [teal 色] "Architecture" (5 groups) [橙色] "Parameters" (continuous) [灰色] 阶段 3(中右):"Five analyses" 五个小方框竖排,用细箭头从阶段 2 连过来: ① Variance decomposition → η² comparison ② Error clustering → ARI comparison ③ Scaling laws → slope comparison ④ Collective failures → structural modes ⑤ Resource allocation → Pareto frontier 阶段 4(右):"Core finding" 一个框,里面写: "Training data η² = 0.84 Architecture η² = 0.32 Data > Architecture across all metrics and robustness checks" Training data 那行用 teal 加粗,architecture 那行用橙色。 阶段之间用水平箭头连接。 --- Panel c: "Data scaling > parameter scaling" --- 一个概念性坐标图(不是真实数据,只是示意): x 轴:"log₁₀ investment" y 轴:"F1" 画两条上升虚线/趋势线: teal 线,较陡,标注 "Scale data: +0.069/decade" 橙线,较缓,标注 "Scale parameters: +0.063/decade" 右侧一个小 inset 或并排小图: ensemble 饱和曲线,x = k, y = F1 标注 "Best F1 = 0.911 @ k=6",k>6 之后曲线平坦 --- Panel d: "Failures in familiar chemistry" --- 画一个嵌套的两层椭圆(不用太复杂): 外层大椭圆:标注 "256,963 WBM materials",浅灰填充 内层小椭圆(偏右上方):标注 "66,260 collective successes",白色填充 外层但不在内层的区域中,画一个高亮的小区块(红色或深色): 标注 "1,882 collective failures" 加一条引出线指向旁边的文字: "NOT chemistry-OOD → familiar formulas → sparse structural support → singleton failure rate 0.173" 核心视觉信息:红色区块在大椭圆内部(familiar chemistry), 不在大椭圆边缘(不是 OOD)。 --- Panel e: "Budget-tier recommendations" --- 一条简化的阶梯曲线,x 轴分三段:"Low", "Mid", "High" y 轴:F1,大约从 0.75 到 0.90 三个点标在阶梯上: Low: Eqnorm MPtrj, F1 = 0.779 [teal 圆点] Mid: MatterSim v1 5M, F1 = 0.838 [紫色 圆点] High: eSEN-30M-OAM, F1 = 0.902 [深蓝 圆点] 每个点旁边用小字标注模型名和 training data。 点之间用向上的箭头连接,箭头旁标注 "data regime upgrade"。
Un graphique en barres ou en camembert coloré, présentant les différentes niches d'ebooks les plus populaires et louables en 2023-2024. Les catégories pourraient inclure la santé et le bien-être, le développement personnel, la technologie, les affaires et l'entrepreneuriat, la cuisine et la gastronomie, etc. Chaque segment du graphique pourrait être accompagné d'un pourcentage ou d'un indicateur. de popularité, basée sur les données de ventes ou les tendances de recherche actuelles.
FIGURE 1. Study overview(全宽 180mm × ~120mm,5 panels: a-e) 排布:上面一行 panel a + panel b(a 占 ~60mm,b 占 ~115mm) 下面一行 panel c + panel d + panel e(各 ~58mm) --- Panel a: "The leaderboard conflation problem" --- 画一个简化的排行榜表格,6 行,3 列:Rank | Model | F1 选这 6 个模型,代表不同 data regime 和 architecture: #1 PET-OAM-XL F1 = 0.924 [深蓝色块] OMat24+sAlex+MPtrj #2 eSEN-30M-OAM F1 = 0.888 [深蓝色块] OMat24+sAlex+MPtrj #5 MatRIS-10M-OAM F1 = 0.877 [深蓝色块] OMat24+sAlex+MPtrj #11 ORB v3 F1 = 0.860 [天蓝色块] MPtrj+Alex+OMat24 #17 eSEN-30M-MP F1 = 0.797 [teal色块] MPtrj #22 Eqnorm MPtrj F1 = 0.756 [teal色块] MPtrj 每行右侧画一个小色块表示 training data regime(用上面定义的配色)。 关键标注: 在表格右侧画两个大括号: 上面的大括号框住 #1-#5(三个深蓝色模型),旁边写: "Same data regime, 3 different architectures → F1 range: 0.877-0.924" 下面的大括号框住 #17 和 #2(eSEN-30M-MP vs eSEN-30M-OAM),旁边写: "Same architecture, different data → ΔF1 = 0.091" 在表格上方加标题:"Current leaderboard: architecture or data?" 核心信息:一眼看出 (1) 同数据不同架构的差异很小,(2) 同架构不同数据的差异很大。 --- Panel b: "Our decomposition framework" --- 从左到右的信息流图,四个阶段: 阶段 1(左):"Prediction matrix" 画一个小矩形网格,标注行 = "45 models",列 = "256,963 materials" 矩阵内填淡色渐变表示预测值 阶段 2(中左):"Factor extraction" 从矩阵引出三条线,分别指向三个小标签: "Training data" (11 exact combinations) [teal 色] "Architecture" (5 groups) [橙色] "Parameters" (continuous) [灰色] 阶段 3(中右):"Five analyses" 五个小方框竖排,用细箭头从阶段 2 连过来: ① Variance decomposition → η² comparison ② Error clustering → ARI comparison ③ Scaling laws → slope comparison ④ Collective failures → structural modes ⑤ Resource allocation → Pareto frontier 阶段 4(右):"Core finding" 一个框,里面写: "Training data η² = 0.84 Architecture η² = 0.32 Data > Architecture across all metrics and robustness checks" Training data 那行用 teal 加粗,architecture 那行用橙色。 阶段之间用水平箭头连接。 --- Panel c: "Data scaling > parameter scaling" --- 一个概念性坐标图(不是真实数据,只是示意): x 轴:"log₁₀ investment" y 轴:"F1" 画两条上升虚线/趋势线: teal 线,较陡,标注 "Scale data: +0.069/decade" 橙线,较缓,标注 "Scale parameters: +0.063/decade" 右侧一个小 inset 或并排小图: ensemble 饱和曲线,x = k, y = F1 标注 "Best F1 = 0.911 @ k=6",k>6 之后曲线平坦 --- Panel d: "Failures in familiar chemistry" --- 画一个嵌套的两层椭圆(不用太复杂): 外层大椭圆:标注 "256,963 WBM materials",浅灰填充 内层小椭圆(偏右上方):标注 "66,260 collective successes",白色填充 外层但不在内层的区域中,画一个高亮的小区块(红色或深色): 标注 "1,882 collective failures" 加一条引出线指向旁边的文字: "NOT chemistry-OOD → familiar formulas → sparse structural support → singleton failure rate 0.173" 核心视觉信息:红色区块在大椭圆内部(familiar chemistry), 不在大椭圆边缘(不是 OOD)。 --- Panel e: "Budget-tier recommendations" --- 一条简化的阶梯曲线,x 轴分三段:"Low", "Mid", "High" y 轴:F1,大约从 0.75 到 0.90 三个点标在阶梯上: Low: Eqnorm MPtrj, F1 = 0.779 [teal 圆点] Mid: MatterSim v1 5M, F1 = 0.838 [紫色 圆点] High: eSEN-30M-OAM, F1 = 0.902 [深蓝 圆点] 每个点旁边用小字标注模型名和 training data。 点之间用向上的箭头连接,箭头旁标注 "data regime upgrade"。
Un graphique en barres ou en camembert coloré, présentant les différentes niches d'ebooks les plus populaires et louables en 2023-2024. Les catégories pourraient inclure la santé et le bien-être, le développement personnel, la technologie, les affaires et l'entrepreneuriat, la cuisine et la gastronomie, etc. Chaque segment du graphique pourrait être accompagné d'un pourcentage ou d'un indicateur. de popularité, basée sur les données de ventes ou les tendances de recherche actuelles.
Un graphique en barres ou en camembert coloré, présentant les différentes niches d'ebooks les plus populaires et louables en 2023-2024. Les catégories pourraient inclure la santé et le bien-être, le développement personnel, la technologie, les affaires et l'entrepreneuriat, la cuisine et la gastronomie, etc. Chaque segment du graphique pourrait être accompagné d'un pourcentage ou d'un indicateur. de popularité, basée sur les données de ventes ou les tendances de recherche actuelles.
FIGURE 1. Study overview(全宽 180mm × ~120mm,5 panels: a-e) 排布:上面一行 panel a + panel b(a 占 ~60mm,b 占 ~115mm) 下面一行 panel c + panel d + panel e(各 ~58mm) --- Panel a: "The leaderboard conflation problem" --- 画一个简化的排行榜表格,6 行,3 列:Rank | Model | F1 选这 6 个模型,代表不同 data regime 和 architecture: #1 PET-OAM-XL F1 = 0.924 [深蓝色块] OMat24+sAlex+MPtrj #2 eSEN-30M-OAM F1 = 0.888 [深蓝色块] OMat24+sAlex+MPtrj #5 MatRIS-10M-OAM F1 = 0.877 [深蓝色块] OMat24+sAlex+MPtrj #11 ORB v3 F1 = 0.860 [天蓝色块] MPtrj+Alex+OMat24 #17 eSEN-30M-MP F1 = 0.797 [teal色块] MPtrj #22 Eqnorm MPtrj F1 = 0.756 [teal色块] MPtrj 每行右侧画一个小色块表示 training data regime(用上面定义的配色)。 关键标注: 在表格右侧画两个大括号: 上面的大括号框住 #1-#5(三个深蓝色模型),旁边写: "Same data regime, 3 different architectures → F1 range: 0.877-0.924" 下面的大括号框住 #17 和 #2(eSEN-30M-MP vs eSEN-30M-OAM),旁边写: "Same architecture, different data → ΔF1 = 0.091" 在表格上方加标题:"Current leaderboard: architecture or data?" 核心信息:一眼看出 (1) 同数据不同架构的差异很小,(2) 同架构不同数据的差异很大。 --- Panel b: "Our decomposition framework" --- 从左到右的信息流图,四个阶段: 阶段 1(左):"Prediction matrix" 画一个小矩形网格,标注行 = "45 models",列 = "256,963 materials" 矩阵内填淡色渐变表示预测值 阶段 2(中左):"Factor extraction" 从矩阵引出三条线,分别指向三个小标签: "Training data" (11 exact combinations) [teal 色] "Architecture" (5 groups) [橙色] "Parameters" (continuous) [灰色] 阶段 3(中右):"Five analyses" 五个小方框竖排,用细箭头从阶段 2 连过来: ① Variance decomposition → η² comparison ② Error clustering → ARI comparison ③ Scaling laws → slope comparison ④ Collective failures → structural modes ⑤ Resource allocation → Pareto frontier 阶段 4(右):"Core finding" 一个框,里面写: "Training data η² = 0.84 Architecture η² = 0.32 Data > Architecture across all metrics and robustness checks" Training data 那行用 teal 加粗,architecture 那行用橙色。 阶段之间用水平箭头连接。 --- Panel c: "Data scaling > parameter scaling" --- 一个概念性坐标图(不是真实数据,只是示意): x 轴:"log₁₀ investment" y 轴:"F1" 画两条上升虚线/趋势线: teal 线,较陡,标注 "Scale data: +0.069/decade" 橙线,较缓,标注 "Scale parameters: +0.063/decade" 右侧一个小 inset 或并排小图: ensemble 饱和曲线,x = k, y = F1 标注 "Best F1 = 0.911 @ k=6",k>6 之后曲线平坦 --- Panel d: "Failures in familiar chemistry" --- 画一个嵌套的两层椭圆(不用太复杂): 外层大椭圆:标注 "256,963 WBM materials",浅灰填充 内层小椭圆(偏右上方):标注 "66,260 collective successes",白色填充 外层但不在内层的区域中,画一个高亮的小区块(红色或深色): 标注 "1,882 collective failures" 加一条引出线指向旁边的文字: "NOT chemistry-OOD → familiar formulas → sparse structural support → singleton failure rate 0.173" 核心视觉信息:红色区块在大椭圆内部(familiar chemistry), 不在大椭圆边缘(不是 OOD)。 --- Panel e: "Budget-tier recommendations" --- 一条简化的阶梯曲线,x 轴分三段:"Low", "Mid", "High" y 轴:F1,大约从 0.75 到 0.90 三个点标在阶梯上: Low: Eqnorm MPtrj, F1 = 0.779 [teal 圆点] Mid: MatterSim v1 5M, F1 = 0.838 [紫色 圆点] High: eSEN-30M-OAM, F1 = 0.902 [深蓝 圆点] 每个点旁边用小字标注模型名和 training data。 点之间用向上的箭头连接,箭头旁标注 "data regime upgrade"。
FIGURE 1. Study overview(全宽 180mm × ~120mm,5 panels: a-e) 排布:上面一行 panel a + panel b(a 占 ~60mm,b 占 ~115mm) 下面一行 panel c + panel d + panel e(各 ~58mm) --- Panel a: "The leaderboard conflation problem" --- 画一个简化的排行榜表格,6 行,3 列:Rank | Model | F1 选这 6 个模型,代表不同 data regime 和 architecture: #1 PET-OAM-XL F1 = 0.924 [深蓝色块] OMat24+sAlex+MPtrj #2 eSEN-30M-OAM F1 = 0.888 [深蓝色块] OMat24+sAlex+MPtrj #5 MatRIS-10M-OAM F1 = 0.877 [深蓝色块] OMat24+sAlex+MPtrj #11 ORB v3 F1 = 0.860 [天蓝色块] MPtrj+Alex+OMat24 #17 eSEN-30M-MP F1 = 0.797 [teal色块] MPtrj #22 Eqnorm MPtrj F1 = 0.756 [teal色块] MPtrj 每行右侧画一个小色块表示 training data regime(用上面定义的配色)。 关键标注: 在表格右侧画两个大括号: 上面的大括号框住 #1-#5(三个深蓝色模型),旁边写: "Same data regime, 3 different architectures → F1 range: 0.877-0.924" 下面的大括号框住 #17 和 #2(eSEN-30M-MP vs eSEN-30M-OAM),旁边写: "Same architecture, different data → ΔF1 = 0.091" 在表格上方加标题:"Current leaderboard: architecture or data?" 核心信息:一眼看出 (1) 同数据不同架构的差异很小,(2) 同架构不同数据的差异很大。 --- Panel b: "Our decomposition framework" --- 从左到右的信息流图,四个阶段: 阶段 1(左):"Prediction matrix" 画一个小矩形网格,标注行 = "45 models",列 = "256,963 materials" 矩阵内填淡色渐变表示预测值 阶段 2(中左):"Factor extraction" 从矩阵引出三条线,分别指向三个小标签: "Training data" (11 exact combinations) [teal 色] "Architecture" (5 groups) [橙色] "Parameters" (continuous) [灰色] 阶段 3(中右):"Five analyses" 五个小方框竖排,用细箭头从阶段 2 连过来: ① Variance decomposition → η² comparison ② Error clustering → ARI comparison ③ Scaling laws → slope comparison ④ Collective failures → structural modes ⑤ Resource allocation → Pareto frontier 阶段 4(右):"Core finding" 一个框,里面写: "Training data η² = 0.84 Architecture η² = 0.32 Data > Architecture across all metrics and robustness checks" Training data 那行用 teal 加粗,architecture 那行用橙色。 阶段之间用水平箭头连接。 --- Panel c: "Data scaling > parameter scaling" --- 一个概念性坐标图(不是真实数据,只是示意): x 轴:"log₁₀ investment" y 轴:"F1" 画两条上升虚线/趋势线: teal 线,较陡,标注 "Scale data: +0.069/decade" 橙线,较缓,标注 "Scale parameters: +0.063/decade" 右侧一个小 inset 或并排小图: ensemble 饱和曲线,x = k, y = F1 标注 "Best F1 = 0.911 @ k=6",k>6 之后曲线平坦 --- Panel d: "Failures in familiar chemistry" --- 画一个嵌套的两层椭圆(不用太复杂): 外层大椭圆:标注 "256,963 WBM materials",浅灰填充 内层小椭圆(偏右上方):标注 "66,260 collective successes",白色填充 外层但不在内层的区域中,画一个高亮的小区块(红色或深色): 标注 "1,882 collective failures" 加一条引出线指向旁边的文字: "NOT chemistry-OOD → familiar formulas → sparse structural support → singleton failure rate 0.173" 核心视觉信息:红色区块在大椭圆内部(familiar chemistry), 不在大椭圆边缘(不是 OOD)。 --- Panel e: "Budget-tier recommendations" --- 一条简化的阶梯曲线,x 轴分三段:"Low", "Mid", "High" y 轴:F1,大约从 0.75 到 0.90 三个点标在阶梯上: Low: Eqnorm MPtrj, F1 = 0.779 [teal 圆点] Mid: MatterSim v1 5M, F1 = 0.838 [紫色 圆点] High: eSEN-30M-OAM, F1 = 0.902 [深蓝 圆点] 每个点旁边用小字标注模型名和 training data。 点之间用向上的箭头连接,箭头旁标注 "data regime upgrade"。
Un graphique en barres ou en camembert coloré, présentant les différentes niches d'ebooks les plus populaires et louables en 2023-2024. Les catégories pourraient inclure la santé et le bien-être, le développement personnel, la technologie, les affaires et l'entrepreneuriat, la cuisine et la gastronomie, etc. Chaque segment du graphique pourrait être accompagné d'un pourcentage ou d'un indicateur. de popularité, basée sur les données de ventes ou les tendances de recherche actuelles.
FIGURE 1. Study overview(全宽 180mm × ~120mm,5 panels: a-e) 排布:上面一行 panel a + panel b(a 占 ~60mm,b 占 ~115mm) 下面一行 panel c + panel d + panel e(各 ~58mm) --- Panel a: "The leaderboard conflation problem" --- 画一个简化的排行榜表格,6 行,3 列:Rank | Model | F1 选这 6 个模型,代表不同 data regime 和 architecture: #1 PET-OAM-XL F1 = 0.924 [深蓝色块] OMat24+sAlex+MPtrj #2 eSEN-30M-OAM F1 = 0.888 [深蓝色块] OMat24+sAlex+MPtrj #5 MatRIS-10M-OAM F1 = 0.877 [深蓝色块] OMat24+sAlex+MPtrj #11 ORB v3 F1 = 0.860 [天蓝色块] MPtrj+Alex+OMat24 #17 eSEN-30M-MP F1 = 0.797 [teal色块] MPtrj #22 Eqnorm MPtrj F1 = 0.756 [teal色块] MPtrj 每行右侧画一个小色块表示 training data regime(用上面定义的配色)。 关键标注: 在表格右侧画两个大括号: 上面的大括号框住 #1-#5(三个深蓝色模型),旁边写: "Same data regime, 3 different architectures → F1 range: 0.877-0.924" 下面的大括号框住 #17 和 #2(eSEN-30M-MP vs eSEN-30M-OAM),旁边写: "Same architecture, different data → ΔF1 = 0.091" 在表格上方加标题:"Current leaderboard: architecture or data?" 核心信息:一眼看出 (1) 同数据不同架构的差异很小,(2) 同架构不同数据的差异很大。 --- Panel b: "Our decomposition framework" --- 从左到右的信息流图,四个阶段: 阶段 1(左):"Prediction matrix" 画一个小矩形网格,标注行 = "45 models",列 = "256,963 materials" 矩阵内填淡色渐变表示预测值 阶段 2(中左):"Factor extraction" 从矩阵引出三条线,分别指向三个小标签: "Training data" (11 exact combinations) [teal 色] "Architecture" (5 groups) [橙色] "Parameters" (continuous) [灰色] 阶段 3(中右):"Five analyses" 五个小方框竖排,用细箭头从阶段 2 连过来: ① Variance decomposition → η² comparison ② Error clustering → ARI comparison ③ Scaling laws → slope comparison ④ Collective failures → structural modes ⑤ Resource allocation → Pareto frontier 阶段 4(右):"Core finding" 一个框,里面写: "Training data η² = 0.84 Architecture η² = 0.32 Data > Architecture across all metrics and robustness checks" Training data 那行用 teal 加粗,architecture 那行用橙色。 阶段之间用水平箭头连接。 --- Panel c: "Data scaling > parameter scaling" --- 一个概念性坐标图(不是真实数据,只是示意): x 轴:"log₁₀ investment" y 轴:"F1" 画两条上升虚线/趋势线: teal 线,较陡,标注 "Scale data: +0.069/decade" 橙线,较缓,标注 "Scale parameters: +0.063/decade" 右侧一个小 inset 或并排小图: ensemble 饱和曲线,x = k, y = F1 标注 "Best F1 = 0.911 @ k=6",k>6 之后曲线平坦 --- Panel d: "Failures in familiar chemistry" --- 画一个嵌套的两层椭圆(不用太复杂): 外层大椭圆:标注 "256,963 WBM materials",浅灰填充 内层小椭圆(偏右上方):标注 "66,260 collective successes",白色填充 外层但不在内层的区域中,画一个高亮的小区块(红色或深色): 标注 "1,882 collective failures" 加一条引出线指向旁边的文字: "NOT chemistry-OOD → familiar formulas → sparse structural support → singleton failure rate 0.173" 核心视觉信息:红色区块在大椭圆内部(familiar chemistry), 不在大椭圆边缘(不是 OOD)。 --- Panel e: "Budget-tier recommendations" --- 一条简化的阶梯曲线,x 轴分三段:"Low", "Mid", "High" y 轴:F1,大约从 0.75 到 0.90 三个点标在阶梯上: Low: Eqnorm MPtrj, F1 = 0.779 [teal 圆点] Mid: MatterSim v1 5M, F1 = 0.838 [紫色 圆点] High: eSEN-30M-OAM, F1 = 0.902 [深蓝 圆点] 每个点旁边用小字标注模型名和 training data。 点之间用向上的箭头连接,箭头旁标注 "data regime upgrade"。
Un graphique en barres ou en camembert coloré, présentant les différentes niches d'ebooks les plus populaires et louables en 2023-2024. Les catégories pourraient inclure la santé et le bien-être, le développement personnel, la technologie, les affaires et l'entrepreneuriat, la cuisine et la gastronomie, etc. Chaque segment du graphique pourrait être accompagné d'un pourcentage ou d'un indicateur. de popularité, basée sur les données de ventes ou les tendances de recherche actuelles.