这是一个针对大语言模型在垂直领域应用能力的全新测试基准。由于生物科技股交易高度依赖临床数据解读等特定“催化剂”,传统分析面临较高门槛。该项目收集了317个历史案例,旨在评估LLM在仅拥有事前信息的情况下,解读新闻并预测股价反应的能力。有趣的是,测试发现让LLM先量化定性特征再进行线性回归,比直接预测价格更可靠。该数据集对探索AI在金融与医疗交叉领域的推理能力具有重要参考价值。
原文链接:Hacker News
这是一个针对大语言模型在垂直领域应用能力的全新测试基准。由于生物科技股交易高度依赖临床数据解读等特定“催化剂”,传统分析面临较高门槛。该项目收集了317个历史案例,旨在评估LLM在仅拥有事前信息的情况下,解读新闻并预测股价反应的能力。有趣的是,测试发现让LLM先量化定性特征再进行线性回归,比直接预测价格更可靠。该数据集对探索AI在金融与医疗交叉领域的推理能力具有重要参考价值。
原文链接:Hacker News
评论前必须登录!
立即登录 注册