<div dir="ltr"><div class="gmail_default" style="color:rgb(11,83,148)">Hi Richhiey<br><br></div><div class="gmail_default" style="color:rgb(11,83,148)">Some comments on the report on silhouette coefficient.  Also the results with single query are not reliable. Better to evaluated with more queries. The setup I mentioned in my earlier email to use each document as query is a good way to achieve some statistically significant number.<br><br></div><div class="gmail_default" style="color:rgb(11,83,148)">Silhouette coeff is usually used to select the correct k and talks about how the clusters are close (or separable) to each other. The purity and rand index are more quality based metrics which says how the clusters. For example, purity of a cluster is calculated as (max number of elements of one type)/ total number of elements. Though it can be that all the cluster have the documents of the same category and purity is still 1. Though that is still fine because our MSet is as such and we need to improve diversity. That is a different story.<br><br></div><div class="gmail_default" style="color:rgb(11,83,148)">Rand Index is a pair based metric which goes into the direction of correctly clustered pairs and cluster accuracy. <br><br></div><div class="gmail_default" style="color:rgb(11,83,148)">Both of them require labels which we should be able to get from the datasets I mentioned earlier. These metrics are explained nicely with examples here: <a href="http://nlp.stanford.edu/IR-book/html/htmledition/evaluation-of-clustering-1.html">http://nlp.stanford.edu/IR-book/html/htmledition/evaluation-of-clustering-1.html</a><br><br></div><div class="gmail_default" style="color:rgb(11,83,148)">Cheers<br></div><div class="gmail_default" style="color:rgb(11,83,148)">Parth<br></div><div class="gmail_default" style="color:rgb(11,83,148)"><br><br></div></div><div class="gmail_extra"><br><div class="gmail_quote">On Fri, Aug 26, 2016 at 2:29 PM, Richhiey Thomas <span dir="ltr"><<a href="mailto:richhiey.thomas@gmail.com" target="_blank">richhiey.thomas@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div><div><div><div>Hello,<br><br></div>I have started with evaluation of Clusterers so I can improve on them and have used the silhouette coefficient for starting off.<br><br></div>The results I have added in a google doc. Hope you check it out and let me know how I can improve and go ahead.<br><br><a href="https://docs.google.com/document/d/1vpG_iPH4rRIhNxeJ87MZy-yBHfJBlcIyf6M33PsDwBc/edit?usp=sharing" target="_blank">https://docs.google.com/<wbr>document/d/1vpG_<wbr>iPH4rRIhNxeJ87MZy-<wbr>yBHfJBlcIyf6M33PsDwBc/edit?<wbr>usp=sharing</a><br><br></div>Also, parth, could you explain in a little more detail how external measures like purity and rand index can be calculated with unlabeled data that we have? I'm currently only looking at internal measures ..<br><br></div><div><font color="#000000">Regards,<br></font></div><div><font color="#000000">Richhiey<br></font></div></div>
</blockquote></div><br></div>