This fixes a memory / ressource leak that manifests when computing stats over big sets of repositories. It was eating more than 8G of memory for ~15 git repositories. Signed-off-by: Heikki Hokkanen <hoxu@users.sf.net>

11 jaren geleden · e56e7b6f91
--- a/gitstats
+++ b/gitstats
@@ -56,12 +56,14 @@ def getpipeoutput(cmds, quiet = False):
 
				 	if not quiet and ON_LINUX and os.isatty(1):
			
 
				 		print '>> ' + ' | '.join(cmds),
			
 
				 		sys.stdout.flush()
			
 
				-	p0 = subprocess.Popen(cmds[0], stdout = subprocess.PIPE, shell = True)
			
 
				-	p = p0
			
 
				+	p = subprocess.Popen(cmds[0], stdout = subprocess.PIPE, shell = True)
			
 
				+	processes=[p]
			
 
				 	for x in cmds[1:]:
			
 
				-		p = subprocess.Popen(x, stdin = p0.stdout, stdout = subprocess.PIPE, shell = True)
			
 
				-		p0 = p
			
 
				+		p = subprocess.Popen(x, stdin = p.stdout, stdout = subprocess.PIPE, shell = True)
			
 
				+		processes.append(p)
			
 
				 	output = p.communicate()[0]
			
 
				+	for p in processes:
			
 
				+		p.wait()
			
 
				 	end = time.time()
			
 
				 	if not quiet:
			
 
				 		if ON_LINUX and os.isatty(1):
			
@@ -449,7 +451,10 @@ class GitDataCollector(DataCollector):
 
				 				revs_to_read.append((time,rev))
			
 
				 
			
 
				 		#Read revisions from repo
			
 
				-		time_rev_count = Pool(processes=conf['processes']).map(getnumoffilesfromrev, revs_to_read)
			
 
				+		pool = Pool(processes=conf['processes'])
			
 
				+		time_rev_count = pool.map(getnumoffilesfromrev, revs_to_read)
			
 
				+		pool.terminate()
			
 
				+		pool.join()
			
 
				 
			
 
				 		#Update cache with new revisions and append then to general list
			
 
				 		for (time, rev, count) in time_rev_count:
			
@@ -507,7 +512,10 @@ class GitDataCollector(DataCollector):
 
				 				blobs_to_read.append((ext,blob_id))
			
 
				 
			
 
				 		#Get info abount line count for new blob's that wasn't found in cache
			
 
				-		ext_blob_linecount = Pool(processes=conf['processes']).map(getnumoflinesinblob, blobs_to_read)
			
 
				+		pool = Pool(processes=conf['processes'])
			
 
				+		ext_blob_linecount = pool.map(getnumoflinesinblob, blobs_to_read)
			
 
				+		pool.terminate()
			
 
				+		pool.join()
			
 
				 
			
 
				 		#Update cache and write down info about number of number of lines
			
 
				 		for (ext, blob_id, linecount) in ext_blob_linecount: