<div dir="ltr">Hi,<div><br></div><div><div style="font-size:12.8px">Evaluation of pivoted normalization ("PPP") of tf-idf weighting scheme is also complete now. I have also evaluated the default tf-idf normalization ("ntn") and other normalizations combinations involving pivoted normalization in wdfn, idfn and wtn component as "Pxx", "xPx" and "xxP" normalization strings respectively to have a clear idea about which one does better job of retrieving relevant documents.</div><div style="font-size:12.8px"><br></div><div style="font-size:12.8px">All results of evaluation runs can be easily accessed here: <a href="https://gist.github.com/ivmarkp">https://gist.github.com/ivmarkp</a></div><div style="font-size:12.8px"><br></div><div style="font-size:12.8px">Comparing the MAP of "PPP" with that of "ntn" normalization, we get results as follows:</div><div style="font-size:12.8px"><span style="font-size:12.8px"><br></span></div><div style=""><span style="font-size:12.8px">PPP : 0.0607107 </span></div><div style=""><span style="font-size:12.8px">ntn : 0.109525</span></div><div style="font-size:12.8px"><br></div><div style="font-size:12.8px">Clearly, the default normalization does a better job here than pivoted normalization but since we intended to have support for pivoted normalization in Xapian rather making a replacement of default normalization with pivoted normalization, I think this comparison may not come as a big surprise.</div><div style="font-size:12.8px"><br></div><div style="font-size:12.8px">Similarly, the MAP of Ptn, nPn and ntP which represent <span style="font-size:12.8px">"Pxx", "xPx" and "xxP" normalization strings respectively are as follows:</span></div><div style="font-size:12.8px"><span style="font-size:12.8px"><br></span></div><div style=""><span style="font-size:12.8px">ntP: 0.0747668</span></div><div style=""><span style="font-size:12.8px">nPn: 0.0676789</span></div><div style=""><span style="font-size:12.8px">Ptn: 0.11379</span></div><div style=""><span style="font-size:12.8px"><br></span></div><div style=""><span style="font-size:12.8px">Interestingly, Ptn normalization does fairly good job than all other normalizations and the default normalization ("ntn") as well. So, I think it can be recommended for applications based on news corpus to definitely use Ptn normalization if exploring options beyond default tf-idf normalization.</span></div><div style=""><span style="font-size:12.8px"><br></span></div><div style=""><span style="font-size:12.8px">As a small side note -- now I'm planning to take up additional tasks we were looking to work on in the end but before that I was wondering if this is the right time to complete the documentation part of BM25+, PL2+, Dir+ and Piv+ weighting schemes and also if PRs for these weighting schemes can be merged upstream finally?  Please let me know if there are any loose ends that might need some work before PRs can be merged.</span></div><div style=""><span style="font-size:12.8px"><br></span></div><div style=""><span style="font-size:12.8px">Regards,</span></div><div style=""><span style="font-size:12.8px">Vivek </span></div></div></div>