博客
关于我
用 SQL 查询 Git 仓库
阅读量:663 次
发布时间:2019-03-15

本文共 1001 字,大约阅读时间需要 3 分钟。

Git 已经成为了代码版本控制的事实标准,但尽管它广泛应用,对代码仓库的深入分析工作的难度却并没有因此降低。另一边,SQL 在大型代码库查询方面已经成为考验的语言,许多项目如 Spark 和 BigQuery 正是基于此选择它作为分析工具。或许源代码本身并不具备这种双重能力,因此我们开发出了 GitBase。

GitBase:代码即数据的见解

GitBase 是一个开源项目,它将代码作为数据处理的解决方案。它能够通过 SQL 对 Git 仓库进行大规模分析。作为一家开源公司,我们深知开源之力,GitBase 的发展完全依赖于其他开源项目的支持。这使得它具备了强大的技术基础。

这款工具为用户提供了一个可视化操作环境,使得复杂的数据分析变得直观易用。沟通方式更地,我们利用 Vitess 解析 SQL 请求。Vitess 是 YouTube 开发的横向扩展的 MySQL 集群系统,它为 GitBase 提供了坚实的基础。

在数据检索方面,我们选择了 go-git 这一纯 Go 语言开发的 Git 实现。它不仅高效,还具备极高的可扩展性。我们可以通过将本地存储的 Git 仓库转换为文件格式,或者使用 Git clone 的方式获取完整的代码库。

言外之意,我们重视代码历史分析能力,因此集成了 enry 这个语言检测项目以及 babelfish 的代码解析服务。不仅限于简单的语法检测,它还能够解析文件,生成通用抽象语法树。这些功能使得 GitBase 能够满足如“查找最常修改的函数名称”等复杂需求。

性能优化关键

在处理超大规模数据时,性能至关重要。以 GitHub 的 3 TB 高达源代码为例,我们确实面临着巨大的工作量,因此每个细节都需要优化。在构建 GitBase 时,我们引入了 Rubex 和 Pilosa。

Rubex 是 Go 标准库中替代正则表达式的高性能解决方案。其背景是 C代码优化,能够显著提升处理速度。Pilosa 则是我们为解决大型数据集查询速度问题而选择的分布式位图索引项目。结合两者,GitBase 实现了对大规模查询的支持。

开发总结

此文本始终站在开源项目的肩膀上,它凝聚了无数开发者的智慧。如你想尝试 GitBase ,从 sourced.tech/engine 下载即可。通过单一命令即可运行,简便又高效。若你对其功能感兴趣,可关注我的相关演讲内容。

转载地址:http://auxmz.baihongyu.com/

你可能感兴趣的文章
Plotly:如何从单条迹线制作堆积条形图?
查看>>
Plotly:如何以 Root 样式绘制直方图,仅显示直方图的轮廓?
查看>>
Plotly:如何使用 Plotly Express 组合散点图和线图?
查看>>
Plotly:如何使用 plotly.graph_objects 和 plotly.express 定义图形中的颜色?
查看>>
Plotly:如何使用 Python 对绘图对象条形图进行颜色编码?
查看>>
Plotly:如何使用 updatemenus 更新一个特定的跟踪?
查看>>
Plotly:如何使用长格式或宽格式的 pandas 数据框制作线图?
查看>>
Plotly:如何向烛台图添加交易量
查看>>
Plotly:如何在 plotly express 中找到趋势线的系数?
查看>>
Plotly:如何在桑基图中设置节点位置?
查看>>
Plotly:如何处理重叠的颜色条和图例?
查看>>
Plotly:如何手动设置 plotly express 散点图中点的颜色?
查看>>
Plotly:如何结合 make_subplots() 和 ff.create_distplot()?
查看>>
Plotly:如何绘制累积的“步骤“;直方图?
查看>>
Quartz进一步学习与使用
查看>>
Plotly条形图-根据正/负值更改颜色-python
查看>>
PLSQL developer12安装图解
查看>>
PLSQL Developer调试 存储过程和触发器
查看>>
PLSQL window操作
查看>>
plsql 存储过程 测试
查看>>