<div dir="ltr">Hi all,<div><br></div><div>I have evaluated new weighting schemes along with their existing counterparts in Xapian to compare and see which one does better job.</div><div>Also, I have put together all the results files for easy access here: <a href="https://github.com/ivmarkp/xapian-evaluation/tree/evaluation/run">https://github.com/ivmarkp/xapian-evaluation/tree/evaluation/run</a></div><div>and a README for getting started with xapian-evaluation module. Hopefully, it might be of help to those who are new to evaluating weighting schemes in Xapian :)</div><div><br></div><div>Comparing the MAP to access the retrieval effectiveness, some interesting results have emerged as follows:</div><div><br></div><div>1. BM25+ : 0.100415 and BM25: 0.101771</div><div><br></div><div>BM25 does a slightly better job here. My guess is that BM25+ is falling short because may be we lack very long documents in the data-set collection. </div><div>Also, I'm thinking of revisiting the PR of BM25+ patch and cross-check it with original BM25+ formula to spot any mistake in the implementation formula if any.</div><div>Let me know of any other ideas that can possibly improve the performance of BM25+.</div><div><br></div><div>2. PL2+:  0.0781953 and PL2: 0.0752646</div><div><br></div><div>Here, PL2+ indeed does a better job at retrieving relevant documents although by a small margin. </div><div>I believe this should produce much better results at scale in practical use. At this point, we might want to consider replacing PL2 with PL2+ in Xapian to put it in practical use.</div><div><br></div><div>3. LMWeight_Dirplus: 0.100168 and LMWeight_Dir: 0.100168</div><div><br></div><div>These results are for LMWeight with smoothing Dir and Dirplus respectively. Interestingly identical results. </div><div>Ideally, LMWeight_dirplus should perform better and I'm having similar thoughts for it as for BM25+ and BM25 results.</div><div><br></div><div>Last addtion in weighting schemes (Piv+ normalization) is a work in progress.</div><div>I've been sick these past few days and so things moved slowly. Will be completing its implementation in the upcoming week along with the evaluation.</div><div><br></div><div>Regards,</div><div>Vivek</div></div>