<div dir="ltr"><span class=""></span><span class=""></span><span class=""></span><br><span class=""></span><div class="gmail_extra"><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><span class="">
</span>How long does 200–300 documents take to cluster? How does it grow as more documents are included in the MSet? We'd expect an MSet of 1000 documents to take longer to cluster than one with 100, but the important thing is _how_ the time increases as the number of documents grows.<br>
<span class=""><br></span></blockquote><div>Currently, the number of seconds taken for clustering a set of documents for varying sizes is :<br><br></div><div>100 documents - 0.50 s<br></div><div>200 documents - 1.5 s<br></div><div>300 documents - 4.5 s<br></div><div>400 documents - 6.02 s<br></div><div>500 documents - 10.3 s<br></div><div>600 documents - 17.02 s<br></div><div>700 documents - 23.56 s<br></div><div>800 documents - 29.12 s<br></div><div>900 documents - 36.87 s<br></div><div>1000 documents - 42.46 s<br><span class=""></span><br><span class=""></span></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><span class="">
</span>Surely that's the right behaviour for that kind of data? (Although AIUI KMeans is supposed to be that good in that situation: is that what you mean?)<br>
<span class=""><br></span></blockquote><div> Yes that's the right kind of behavior for KMeans++. KMeans++ seeding too takes almost the same amount of time to converge to a solution.<br></div><div><br></div><div>I'll address the other things you mentioned in your mail soon. Thanks for the information on the documentation that will be required.<br><br></div><div>Currently, as you had mentioned that pruning the API for hiding implementation of things that are not part of the public API is an important thing to do. So I was looking at how PIMPL has been adopted in Xapian, and if I'm not wrong, this has been done with the Internal class. But I hadn't written the API in a way to agree with that design. Any tips or guidelines I could get in order to make the current API conform with PIMPL as implemented in Xapian?<br><br></div><div>Thanks.<br><br></div><div>Regards,<br></div><div>Richhiey<br></div><div><br></div></div></div></div>