<div dir="ltr"><div><span style="font-size:12.8px">Hi James,</span></div><div><span style="font-size:12.8px"><br></span></div><div><span style="font-size:12.8px">> We probably don't want them committed in git where they're evaluation</span></div><span style="font-size:12.8px">> runs (because we can recreate them); a gist might be more appropriate.</span><br style="font-size:12.8px"><br><span style="font-size:12.8px">Sorry, I have moved results files over to gist for each individual weighting scheme.</span><div><span style="font-size:12.8px">Link: <a href="https://gist.github.com/ivmarkp/secret">https://gist.github.com/ivmarkp/secret</a></span><br><br style="font-size:12.8px"><span style="font-size:12.8px">> I can't tell, but are some of those files from FIRE? If so, they</span><br style="font-size:12.8px"><span style="font-size:12.8px">> shouldn't be committed either; access to FIRE is via our usage</span><br style="font-size:12.8px"><span style="font-size:12.8px">> agreement, and shouldn't be just public on the internet</span><br style="font-size:12.8px"><span style="font-size:12.8px">> anywhere.</span><div><span style="font-size:12.8px"><br></span></div><div><span style="font-size:12.8px">No, those files </span><span style="font-size:12.8px">are generated each time a run is completed, </span><span style="font-size:12.8px">and </span><span style="font-size:12.8px">just contain evaluation results that are displayed on terminal.</span></div><div><div class="gmail_extra"><br></div></div><div class="gmail_extra">> <span style="font-size:12.8px">Is there time in your schedule to get evaluation into the main xapian</span></div><span style="font-size:12.8px">> repo? That would avoid the first part of this. I don't think we're</span><br style="font-size:12.8px"><span style="font-size:12.8px">> looking at lots more work to get this done, are we?</span><div><span style="font-size:12.8px"><br></span></div><div><span style="font-size:12.8px">No, getting evaluation module merged in xapian is not a part of project schedule </span><span style="font-size:12.8px">but it is one of the additional tasks kept for later attention. And n</span><span style="font-size:12.8px">ow that I've run some </span><span style="font-size:12.8px">evaluations, </span><span style="font-size:12.8px">I think module is in </span><span style="font-size:12.8px">good shape also with support for more weighting </span><span style="font-size:12.8px">schemes due to be added through these PR's <a href="https://goo.gl/D2fviW">https://goo.gl/D2fviW</a>.</span></div><div><span style="font-size:12.8px"><br></span></div><div><span style="font-size:12.8px">> </span><span style="font-size:12.8px">Can you remind me what sort of corpus you're using from FIRE for this?</span></div><div><span style="font-size:12.8px"><br></span></div><div><span style="font-size:12.8px">The corpus we are using contains sorted news articles/stories based on section and time period</span></div><div><span style="font-size:12.8px">from two different news providers; BDNews 24 and The Telegraph.</span></div><div><br></div><div>> <span style="font-size:12.8px">Do you have any idea what 'very long' means in this case, in terms of</span></div><span style="font-size:12.8px">> number of terms (or maybe multiple of mean terms)</span><div><span style="font-size:12.8px"><br></span></div><div><span style="font-size:12.8px">Very long documents in terms of no. of terms as specified in the paper; </span><span style="font-size:12.8px">in general, where |D| is much larger </span><span style="font-size:12.8px">than avdl.</span></div><div><span style="font-size:12.8px"><br></span></div><div><span style="font-size:12.8px">It is mentioned in the paper that </span><span style="font-size:12.8px">"the MAP improve</span><span style="font-size:12.8px">ments of BM25+ over BM25 are much larger on Web collec</span><span style="font-size:12.8px">tions </span><span style="font-size:12.8px">than on the news collection. </span><span style="font-size:12.8px">In particular, the MAP </span><span style="font-size:12.8px">improvements on all Web collections </span><span style="font-size:12.8px">are statistically signif</span><span style="font-size:12.8px">icant." </span><span style="font-size:12.8px">Therefore, t</span><span style="font-size:12.8px">hey seem to have used four TREC collections: </span><span style="font-size:12.8px">WT2G, WT10G, Ter</span><span style="font-size:12.8px">abyte, </span><span style="font-size:12.8px">and Robust04, </span><span style="font-size:12.8px">which represent different sizes and </span><span style="font-size:12.8px">genre of text collections.</span></div><div><span style="font-size:12.8px"><br></span></div><div><span style="font-size:12.8px">> </span><span style="font-size:12.8px">Is this pure Dirichlet, or two-stage smoothing using Dir+</span></div><span style="font-size:12.8px">> versus Dir? What smoothing parameters were you using?</span><div><span style="font-size:12.8px"><br></span></div><div><span style="font-size:12.8px">That is pure Dirichlet vs Dir+ and sorry, I should have also uploaded the config which has the parameter details.</span></div><div><span style="font-size:12.8px">For Dir+ I used following parameters:</span></div><div><span style="font-size:12.8px"><br></span></div><div><div><span style="font-size:12.8px">lmparam_log  0.0</span></div><div><span style="font-size:12.8px">lmparam_select_smoothing DIRICHLET_SMOOTHING</span></div><div><span style="font-size:12.8px">lmparam_smoothing1 0.9</span></div><div><span style="font-size:12.8px">lmparam_smoothing2 2000.0</span></div><div><span style="font-size:12.8px">lmparam_delta 0.05</span></div><div><span style="font-size:12.8px">lmparam_enable_dirplus 1</span></div><div style="font-size:12.8px"><span style="font-size:12.8px"><br></span></div><div style="font-size:12.8px"><span style="font-size:12.8px">I've added config files in gists as well</span><span style="font-size:12.8px">.</span></div><div style="font-size:12.8px"><span style="font-size:12.8px"><br></span></div><div style="font-size:12.8px"><span style="font-size:12.8px">> Sorry you've been sick; make sure you're fully recovered before diving</span><br style="font-size:12.8px"><span style="font-size:12.8px">> back in full throttle!</span><span style="font-size:12.8px"><br></span></div><div style="font-size:12.8px"><span style="font-size:12.8px"><br></span></div><div style="font-size:12.8px"><span style="font-size:12.8px">Thanks, I've gotten better. Should be no more hindrance in the days to come :)</span></div><div><span style="font-size:12.8px"><br></span></div></div></div></div>