<div dir="ltr">Hi again,<div><br></div><div>So I wrote that crawler and improved upon it</div><div>(it's still single threaded) but here's what I have to share.</div><div><br></div><div><div>prologic@daisy</div><div>Thu Dec 25 20:06:53 </div><div>~/tmp</div><div>$ time ./gspider.py &> index</div><div><br></div><div>real<span class="" style="white-space:pre">    </span>0m6.244s</div><div>user<span class="" style="white-space:pre">       </span>0m0.120s</div><div>sys<span class="" style="white-space:pre">        </span>0m0.047s</div><div><br></div><div>prologic@daisy<br></div><div>Thu Dec 25 20:07:16 </div><div>~/tmp</div><div>$ wc -l index</div><div>3039 index</div></div><div><br></div><div>This is run on localhost on the same machine against</div><div>my cgod python gopher server (see other thread).</div><div><br></div><div>The performance is *MUCH* better :)</div><div><br></div><div>cheers</div><div>James</div></div><div class="gmail_extra"><br clear="all"><div><div class="gmail_signature"><span style="border-collapse:collapse;color:rgb(136,136,136);font-size:13px"><br><font face="arial, sans-serif">James Mills / prologic</font><br><br><font face="arial, sans-serif"></font><font face="'courier new', monospace">E: <a href="mailto:prologic@shortcircuit.net.au" style="color:rgb(0,0,204)" target="_blank">prologic@shortcircuit.net.au</a></font></span><div><span style="font-family:'courier new',monospace;color:rgb(136,136,136);font-size:13px">W: </span><a href="http://prologic.shortcircuit.net.au" style="font-family:'courier new',monospace;font-size:13px;color:rgb(0,0,204)" target="_blank">prologic.shortcircuit.net.au</a><br></div></div></div>
<br><div class="gmail_quote">On Mon, Dec 15, 2014 at 3:23 PM, James Mills <span dir="ltr"><<a href="mailto:prologic@shortcircuit.net.au" target="_blank">prologic@shortcircuit.net.au</a>></span> wrote:<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">Hi All and Kim (author of Gophernicus!),<div><br></div><div>I wrote this little cralwer today: <a href="https://gist.github.com/b781e02b0299fef1f3f6" target="_blank">https://gist.github.com/b781e02b0299fef1f3f6</a></div><div><br></div><div>I'm a bit disappointed in performance though of crawling my local Gopehrspace (basically via localhost):</div><div><br></div><div><div>prologic@daisy</div><div>Mon Dec 15 15:13:08 </div><div>~/tmp</div><div>$ time ./gspider.py &> index</div><div><br></div><div>real<span style="white-space:pre-wrap">  </span>5m27.825s</div><div>user<span style="white-space:pre-wrap">    </span>0m6.126s</div><div>sys<span style="white-space:pre-wrap">      </span>0m5.825s</div><div><br></div><div>prologic@daisy</div><div>Mon Dec 15 15:18:51 </div><div>~/tmp</div><div>$ wc -l index </div><div>355 index</div></div><div><br></div><div>Any comments? :)</div><div><br></div><div>cheers</div><div>James</div><div><div><div><span style="border-collapse:collapse;color:rgb(136,136,136);font-size:13px"><br><font face="arial, sans-serif">James Mills / prologic</font><br><br><font face="arial, sans-serif"></font><font face="'courier new', monospace">E: <a href="mailto:prologic@shortcircuit.net.au" style="color:rgb(0,0,204)" target="_blank">prologic@shortcircuit.net.au</a></font></span><div><span style="font-family:'courier new',monospace;color:rgb(136,136,136);font-size:13px">W: </span><a href="http://prologic.shortcircuit.net.au" style="font-family:'courier new',monospace;font-size:13px;color:rgb(0,0,204)" target="_blank">prologic.shortcircuit.net.au</a><br></div></div></div>
</div></div>
</blockquote></div></div>