<div dir="ltr"><p class="" style="margin:0px 0px 3px;padding:0px;border:0px;outline:0px;font-size:12px;vertical-align:baseline;background-color:transparent;line-height:1.6em;color:rgb(0,0,0);font-family:Arial,'Helvetica Neue',Helvetica,sans-serif">
<strong style="margin:0px;padding:0px 5px 0px 0px;border:0px;outline:0px;vertical-align:baseline;background-color:transparent;color:rgb(77,77,77);font-style:italic">Olly Betts</strong> <a href="http://www.google-melange.com/gsoc/proposal/review/student/google/gsoc2014/liuchi/5629499534213120#c5707702298738688" style="margin:0px;padding:0px;border:0px;outline:0px;vertical-align:baseline;background-color:transparent;color:rgb(32,138,211);text-decoration:none">March 18, 2014, 5:07 a.m.</a> <span style="line-height:normal;font-family:arial,sans-serif;font-size:14px">wrote</span><span style="line-height:normal;font-family:arial,sans-serif;font-size:14px">:</span></p>
<p class="" style="margin:0px;padding:0px;border:0px;outline:0px;font-size:12px;vertical-align:baseline;background-color:transparent;line-height:1.6em;white-space:pre-wrap;color:rgb(0,0,0);font-family:Arial,'Helvetica Neue',Helvetica,sans-serif">
>Thanks for your proposal, and sorry for not getting to it sooner.  Overall I like the proposal.

>One thing I'm not clear on - are you intending to base your implementation of the existing branch, </p><p class="" style="margin:0px;padding:0px;border:0px;outline:0px;font-size:12px;vertical-align:baseline;background-color:transparent;line-height:1.6em;white-space:pre-wrap;color:rgb(0,0,0);font-family:Arial,'Helvetica Neue',Helvetica,sans-serif">
>or to start afresh?  And why are you taking that approach?
<br></p><p class="" style="margin:0px;padding:0px;border:0px;outline:0px;font-size:12px;vertical-align:baseline;background-color:transparent;line-height:1.6em;white-space:pre-wrap;color:rgb(0,0,0);font-family:Arial,'Helvetica Neue',Helvetica,sans-serif">
I am intending to base my implementation of the existing branch. Base my implementation on the </p><p class="" style="margin:0px;padding:0px;border:0px;outline:0px;font-size:12px;vertical-align:baseline;background-color:transparent;line-height:1.6em;white-space:pre-wrap;color:rgb(0,0,0);font-family:Arial,'Helvetica Neue',Helvetica,sans-serif">
existing branch will let us understand more clearly what caused the disappointing efficiency of the old</p><p class="" style="margin:0px;padding:0px;border:0px;outline:0px;font-size:12px;vertical-align:baseline;background-color:transparent;line-height:1.6em;white-space:pre-wrap;color:rgb(0,0,0);font-family:Arial,'Helvetica Neue',Helvetica,sans-serif">
code. If we have time at last, we could implement a different clustering algorithm afresh with the </p><p class="" style="margin:0px;padding:0px;border:0px;outline:0px;font-size:12px;vertical-align:baseline;background-color:transparent;line-height:1.6em;white-space:pre-wrap;color:rgb(0,0,0);font-family:Arial,'Helvetica Neue',Helvetica,sans-serif">
experience of avoiding disappointing efficiency.</p><p class="" style="margin:0px;padding:0px;border:0px;outline:0px;font-size:12px;vertical-align:baseline;background-color:transparent;line-height:1.6em;white-space:pre-wrap;color:rgb(0,0,0);font-family:Arial,'Helvetica Neue',Helvetica,sans-serif">
<br></p><p class="" style="margin:0px;padding:0px;border:0px;outline:0px;font-size:12px;vertical-align:baseline;background-color:transparent;line-height:1.6em;white-space:pre-wrap;color:rgb(0,0,0);font-family:Arial,'Helvetica Neue',Helvetica,sans-serif">
I have added this to my proposal.</p><p class="" style="margin:0px;padding:0px;border:0px;outline:0px;font-size:12px;vertical-align:baseline;background-color:transparent;line-height:1.6em;white-space:pre-wrap;color:rgb(0,0,0);font-family:Arial,'Helvetica Neue',Helvetica,sans-serif">

>Do you have a plan for how to get human judgements to compare the algorithms? </p><p class="" style="margin:0px;padding:0px;border:0px;outline:0px;font-size:12px;vertical-align:baseline;background-color:transparent;line-height:1.6em;white-space:pre-wrap;color:rgb(0,0,0);font-family:Arial,'Helvetica Neue',Helvetica,sans-serif">
> We've tried this before (with the snippets project in 2012) but sadly sending out a request to our </p><p class="" style="margin:0px;padding:0px;border:0px;outline:0px;font-size:12px;vertical-align:baseline;background-color:transparent;line-height:1.6em;white-space:pre-wrap;color:rgb(0,0,0);font-family:Arial,'Helvetica Neue',Helvetica,sans-serif">
>mailing lists asking people to run through a comparison in a simple web UI resulted in hardly any </p><p class="" style="margin:0px;padding:0px;border:0px;outline:0px;font-size:12px;vertical-align:baseline;background-color:transparent;line-height:1.6em;white-space:pre-wrap;color:rgb(0,0,0);font-family:Arial,'Helvetica Neue',Helvetica,sans-serif">
>uptake.  This makes me a bit concerned about the number of "human judge effectiveness" entries </p><p class="" style="margin:0px;padding:0px;border:0px;outline:0px;font-size:12px;vertical-align:baseline;background-color:transparent;line-height:1.6em;white-space:pre-wrap;color:rgb(0,0,0);font-family:Arial,'Helvetica Neue',Helvetica,sans-serif">
>in your project plan - I think we either need a plan for motivating people better, or a way to </p><p class="" style="margin:0px;padding:0px;border:0px;outline:0px;font-size:12px;vertical-align:baseline;background-color:transparent;line-height:1.6em;white-space:pre-wrap;color:rgb(0,0,0);font-family:Arial,'Helvetica Neue',Helvetica,sans-serif">
>compare which doesn't require many judgements.
<br></p><p class="" style="margin:0px;padding:0px;border:0px;outline:0px;font-size:12px;vertical-align:baseline;background-color:transparent;line-height:1.6em;white-space:pre-wrap;color:rgb(0,0,0);font-family:Arial,'Helvetica Neue',Helvetica,sans-serif">
Massive human judgement is not necessary. What I mean human judgement is to generate several</p><p class="" style="margin:0px;padding:0px;border:0px;outline:0px;font-size:12px;vertical-align:baseline;background-color:transparent;line-height:1.6em;white-space:pre-wrap;color:rgb(0,0,0);font-family:Arial,'Helvetica Neue',Helvetica,sans-serif">
test cases artificially to help me to know whether the clustering algorithm could assign documents to correct</p><p class="" style="margin:0px;padding:0px;border:0px;outline:0px;font-size:12px;vertical-align:baseline;background-color:transparent;line-height:1.6em;white-space:pre-wrap;color:rgb(0,0,0);font-family:Arial,'Helvetica Neue',Helvetica,sans-serif">
groups. A test case include a query, a list of search results and a group assignment of these search results.</p><p class="" style="margin:0px;padding:0px;border:0px;outline:0px;font-size:12px;vertical-align:baseline;background-color:transparent;line-height:1.6em;white-space:pre-wrap;color:rgb(0,0,0);font-family:Arial,'Helvetica Neue',Helvetica,sans-serif">
Then we could measure the effectiveness and modify the code promptly. The set of test cases don't need</p><p class="" style="margin:0px;padding:0px;border:0px;outline:0px;font-size:12px;vertical-align:baseline;background-color:transparent;line-height:1.6em;white-space:pre-wrap;color:rgb(0,0,0);font-family:Arial,'Helvetica Neue',Helvetica,sans-serif">
to be very large and I could generate it by myself.</p><p class="" style="margin:0px;padding:0px;border:0px;outline:0px;font-size:12px;vertical-align:baseline;background-color:transparent;line-height:1.6em;white-space:pre-wrap;color:rgb(0,0,0);font-family:Arial,'Helvetica Neue',Helvetica,sans-serif">
<br></p><p class="" style="margin:0px;padding:0px;border:0px;outline:0px;font-size:12px;vertical-align:baseline;background-color:transparent;line-height:1.6em;white-space:pre-wrap;color:rgb(0,0,0);font-family:Arial,'Helvetica Neue',Helvetica,sans-serif">
I have added this to my proposal.</p><div><br></div><p class="" style="margin:0px;padding:0px;border:0px;outline:0px;font-size:12px;vertical-align:baseline;background-color:transparent;line-height:1.6em;white-space:pre-wrap;color:rgb(0,0,0);font-family:Arial,'Helvetica Neue',Helvetica,sans-serif">

>The overlap with courses and exams isn't a big problem.  A common workaround is to start </p><p class="" style="margin:0px;padding:0px;border:0px;outline:0px;font-size:12px;vertical-align:baseline;background-color:transparent;line-height:1.6em;white-space:pre-wrap;color:rgb(0,0,0);font-family:Arial,'Helvetica Neue',Helvetica,sans-serif">
>coding early during the community bonding period - in your case that would mean you could even </p><p class="" style="margin:0px;padding:0px;border:0px;outline:0px;font-size:12px;vertical-align:baseline;background-color:transparent;line-height:1.6em;white-space:pre-wrap;color:rgb(0,0,0);font-family:Arial,'Helvetica Neue',Helvetica,sans-serif">
>take 2 weeks off GSoC for your final exams, and still actually have made good progress by the </p><p class="" style="margin:0px;padding:0px;border:0px;outline:0px;font-size:12px;vertical-align:baseline;background-color:transparent;line-height:1.6em;white-space:pre-wrap;color:rgb(0,0,0);font-family:Arial,'Helvetica Neue',Helvetica,sans-serif">
>mid-term.  I don't know how busy you are with courses, etc during the community bonding period though.
<br></p><p class="" style="margin:0px;padding:0px;border:0px;outline:0px;font-size:12px;vertical-align:baseline;background-color:transparent;line-height:1.6em;white-space:pre-wrap;color:rgb(0,0,0);font-family:Arial,'Helvetica Neue',Helvetica,sans-serif">
Yes, I could start coding early.</p><p class="" style="margin:0px;padding:0px;border:0px;outline:0px;font-size:12px;vertical-align:baseline;background-color:transparent;line-height:1.6em;white-space:pre-wrap;color:rgb(0,0,0);font-family:Arial,'Helvetica Neue',Helvetica,sans-serif">
<br></p><p class="" style="margin:0px;padding:0px;border:0px;outline:0px;font-size:12px;vertical-align:baseline;background-color:transparent;line-height:1.6em;white-space:pre-wrap;color:rgb(0,0,0);font-family:Arial,'Helvetica Neue',Helvetica,sans-serif">

>We ask students to submit a patch for Xapian so we can get a better feel for what their skills and aptitudes are.

>If you've already submitted a patch, could you give us a URL?  If not, it's better if the patch is something </p><p class="" style="margin:0px;padding:0px;border:0px;outline:0px;font-size:12px;vertical-align:baseline;background-color:transparent;line-height:1.6em;white-space:pre-wrap;color:rgb(0,0,0);font-family:Arial,'Helvetica Neue',Helvetica,sans-serif">
>in an area related to your project, but that's not a firm requirement - you can either find a bug in the </p><p class="" style="margin:0px;padding:0px;border:0px;outline:0px;font-size:12px;vertical-align:baseline;background-color:transparent;line-height:1.6em;white-space:pre-wrap;color:rgb(0,0,0);font-family:Arial,'Helvetica Neue',Helvetica,sans-serif">
>tracker, take a look at <a href="http://trac.xapian.org/wiki/ProjectIdeas">http://trac.xapian.org/wiki/ProjectIdeas</a> or work on a first step towards your project.</p><p class="" style="margin:0px;padding:0px;border:0px;outline:0px;font-size:12px;vertical-align:baseline;background-color:transparent;line-height:1.6em;white-space:pre-wrap;color:rgb(0,0,0);font-family:Arial,'Helvetica Neue',Helvetica,sans-serif">
<br></p><p class="" style="margin:0px;padding:0px;border:0px;outline:0px;font-size:12px;vertical-align:baseline;background-color:transparent;line-height:1.6em;white-space:pre-wrap;color:rgb(0,0,0);font-family:Arial,'Helvetica Neue',Helvetica,sans-serif">
I am regret I have not noticed this before. And I will start to do this right now.</p><p class="" style="margin:0px;padding:0px;border:0px;outline:0px;font-size:12px;vertical-align:baseline;background-color:transparent;line-height:1.6em;white-space:pre-wrap;color:rgb(0,0,0);font-family:Arial,'Helvetica Neue',Helvetica,sans-serif">
<br></p></div><div class="gmail_extra"><br><br><div class="gmail_quote">2014-03-17 6:13 GMT+08:00 Chi Liu <span dir="ltr"><<a href="mailto:liuchi09@gmail.com" target="_blank">liuchi09@gmail.com</a>></span>:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<div dir="ltr"><div>Hello,</div>I have submitted my proposal on GSoC.<div>But I have little idea about the timeline. Many things are difficult to be determined.</div><div><br></div><div><br></div><div>Cheers,</div><div>   Liu Chi </div>

</div><div class="gmail_extra"><br><br><div class="gmail_quote">2014-03-11 21:33 GMT+08:00 Olly Betts <span dir="ltr"><<a href="mailto:olly@survex.com" target="_blank">olly@survex.com</a>></span>:<div><div class="h5">
<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<div>On Tue, Mar 11, 2014 at 10:11:31AM +0800, Chi Liu wrote:<br>
> Thank you for your patient explanation about the project. My<br>
> understanding about the project "Clustering of Search Results" is that<br>
> we mainly focus on processing speed of the existing code.<br>
<br>
</div>We need something which can cluster larger result sets faster than the<br>
current code.  Speeding up the existing code might be the best way to do<br>
that, but we could start again.  If we start again, I'd suggest it would<br>
be prudent to try to understand why the previous attempt didn't succeed.<br>
We don't want to end up repeating that.<br>
<div><br>
> By "find new approaches" I mean trying other known clustering algorithms.<br>
<br>
</div>OK - that's fine then.<br>
<div><br>
> What I am concerned is whether the low efficiency is caused by<br>
> improper algorithm. I am reading the existing clustering branch code<br>
> and have not completely finished yet. I might be able to talk more<br>
> about existing code in my application of GSoC. But now, I really can<br>
> not comment before fully understanding exiting code.<br>
<br>
</div>Sure.<br>
<div><br>
> My idea about measure clustering effectiveness is that when we trying<br>
> other known clustering algorithms, we can use the old clustering<br>
> result as a baseline.  If the difference of clustering results is<br>
> acceptable and new clustering algorithm has high efficiency, we may<br>
> find a better approach. I will give more details about this in my<br>
> application of GSoC.<br>
<br>
</div>Great.<br>
<br>
Cheers,<br>
    Olly<br>
</blockquote></div></div></div><br><br clear="all"><div class=""><div><br></div>-- <br><div>Chi Liu</div><div>+86-15210624786</div><div>Undergraduate Student</div><div>Team of Search Engine and Web Mining</div><div>School of Electronic Engineering  and Computer Science</div>

<div>Peking University, Beijing, 100871, P.R.China</div>
</div></div>
</blockquote></div><br><br clear="all"><div><br></div>-- <br><div>Chi Liu</div><div>+86-15210624786</div><div>Undergraduate Student</div><div>Team of Search Engine and Web Mining</div><div>School of Electronic Engineering  and Computer Science</div>
<div>Peking University, Beijing, 100871, P.R.China</div>
</div>