当前位置: 欣欣网 > 码农

WiseFlow:开源AI信息挖掘工具,传统的爬虫可以下线了

2024-07-10码农

在这个大数据时代,我们每天面对的都是海量的信息。

但我们的能力是有限的,想要获得自己想要的信息需要消耗我们大量的时间和精力。

要是有人能帮我每天 整理信息 该有多好啊,如果能帮我 概括 一下就更好了!

哎!俗话说得好,瞌睡了就有人来送枕头!

新开源的工具WiseFlow就是 整理信息 、概括信息 的好手!

扫码加入AI交流群

获得更多技术支持和交流

(请注明自己的职业)

项目介绍

WiseF low 是一款快速准确的信息挖掘工具。

我们在使用时提前设定好自己的 关注关键词 ,然后WiseFlow就能自动的从 网站、微信公众号、社交平台 等各种来源提取简明信息,自动分类并上传到 数据库。

从图片中我们可以看到, WiseFlow 给出了每一条公众号和网站的内容概括,简单明了。

WiseFlow 采用 统计学习 (依赖开源项目 GNE)和 LLM 相结合的方式,适应超过 90% 的新闻页面。

同时配置了专用的 mp 文章解析器 ,使得 WiseFlow 能更好地提取公众号的文章信息。

项目特点

听到这有人可能就懵了。那这玩意儿和传统的爬虫和LLM-Agent有什么区别?

WiseFlow做的是 数据的处理 ,包括 过滤、提取和 找出我们要的东西并且告诉我们这东西大概是什么。

而爬虫呢,是从网站上直接获取 原始信息 ,那是有什么就拿什么,没有其他功能。

LLM-大模型 则是更注重 下游应用。

这三者之间还有不小的联系呢!如果将 WiseFlow 和爬虫组合,就可以帮助我们在获取的原始数据基础上做更好的数据处理和过滤。

也可以将 WiseFlow和大模型Agent连接 ,将 WiseFlow 作为知识基础,来更好地帮助大模型处理事物。

听到这你是否已经动心了呢?什么?担心这么多内容需要很大的内存和硬件要求?

那你的担心完全是多余的!

WiseFlow 不使用 任何矢量模型 开销极小 ,不需要 GPU ,适用于 任何硬件环境 ,仅需要 9B 就能运行!

项目链接:

https://github.com/TeamWiseFlow/wiseflow

关注「 向量光年 」公众号

加速全行业向AI的改变

关注「 开源AI项目落地 」公众号

与AI时代更靠近一点

关注「 AGI光年 」公众号

获取每日最新咨询