<div dir="ltr">Hi,<div><br></div><div>I plan to propose 'Math Aware search' project. </div><div><br></div><div>After the literature review on the topic, I found Tangent or MIaS system would be a good start. With that, I studied both of the systems well.</div><div><br></div><div>I plan to pick Tangent because it performs better. Also, it has a good literature(thesis report and few papers available) and reference code available.</div><div><br></div><div>I keep the summary of both the system, I welcome any opinion on the choice.</div><div><br></div><div>Tangent:</div><div>Indexing stage:</div><div>Each document contains math formula and text. Text indexing is done in a usual way.</div><div>                                                                ======preprocessing=================       ===indexing====</div><div>Math Formula(PresentationMathML) => Symbol Layout Tree => Generate Symbol pair tuples => Store in Inverted Index</div><div>Searching stage:</div><div>Query(PresentationMathML) => symbol layout tree => Generate symbol pair tuples => Form a query with logical OR operator=> Candidate documents selection using dice coefficient metric => ReRanking the documents using MSS metric.</div><div><br></div><div>MIaS:</div><div>Indexing stage:</div><div>                                                               ======preprocessing===============      ============indexing=====</div><div><div>Math Formula(PresentationMathML) => Tokenization => Formula(token)  Modification =>  Index each token with proper weight(discussed in paper)</div></div><div>Formula modification = Ordering + Unification of variables + unification of constant</div><div>Searching stage:</div><div>Query(PresentationMathML) => Formula modification => Form a query with logical OR operator => Retrieve using text search engine</div><div><br></div><div> I plan to send the draft proposal by the end of the day.<br></div><div><br></div><div>I also put some thoughts on implementation here.</div><div>I believe the major work is in preprocessing and searching stage(new weight metric implementation). Existing indexing technique can be used for math part as well.</div><div>My plan is to implement only formulae retrieval first(document has only math) and add keyword support(document = text + math) later.</div><div>Later also add support for the query in latex format.  </div><div><br></div><div>Please let me know if you have any comments or any questions on points I mentioned. </div><div>Sorry for the delay. I would like to mention that I am doing active preparation by reading Xapian codebase and literature.</div><div>Thank you.</div><div><br></div><div>Regards,</div><div>Guruprasad</div><div><br></div><div>Link for Tangent paper:<a href="https://www.cs.rit.edu/~rlaz/files/ntcir2016_tangent.pdf">https://www.cs.rit.edu/~rlaz/files/ntcir2016_tangent.pdf</a></div><div>Link for MIaS paper: <a href="https://link.springer.com/chapter/10.1007/978-3-642-22673-1_16">https://link.springer.com/chapter/10.1007/978-3-642-22673-1_16</a></div></div>