代码量统计存在的问题和对策

本文是针对当前业界代码量统计工具现状的分析以及对策。虽然用代码量来代表工作量历来被广大程序员所诟病，但是代码量数据背后确实能够反映出部分软件开发中存在的问题，特别是增量开发，以及维护旧版本的时候，代码增量是很重要的一项参考数据。

代码量统计工具现状

目前研发代码量统计使用的工具是TextDiff和diffcount，主要用于代码量的总量统计和增量统计。但是这两个工具的功能不完善，很多情况下存在统计错误的情况，导致代码量的度量不准确，甚至偏差很大。

这种情况实际代码没有变化，只是文件名变化，代码变化应该统计为0.实际上两个工具都会认为原有文件被删除，又新增文件。比如原文件1K，统计结果就是新增1K，删除1K。

##文件移动
这种情况实际代码没有变化，只是文件的存放位置变化，代码变化应该统计为0.实际上两个工具都会认为原有文件被删除，又新增文件。比如原文件1K，统计结果就是新增1K，删除1K。

这种情况实际代码没有变化，只是函数在文件内部位置变化或者从文件1移动到文件2，代码变化应该统计为0.实际上两个工具都会认为原有函数被删除，又新增一个相同的函数。比如该函数是10行，统计结果就是新增10行，删除10行。
删注释

上述情况下，这两个工具都存在统计不准确的情况。特别是随着敏捷的推进，不断强化代码的重构，这种情况会更加突出。度量的基础是数据，只有在原始数据准确的前提下，度量才有意义。

工具	有效代码行	函数移动位置	文件重命名	文件移动位置	增删注释	空格换行	子目录遍历	代码总量
textdiff	不算{}	X	X	X	X	X	X	X
diffcount	算{}	X	X	X	X	X	√	√

#解决方案
目前商用和开源代码量统计工具，均没有能完全解决上述问题的。建议自己开发工具。

工具方案：将源代码解析成全局变量声明或者函数（类的方法）这一粒度后，进行比较。虽然上述方案能最大程度接近真实情况，但是由于实际代码变化的复杂性，不可能完全解析数代码的真实变化情况，还是会存在误差。