<!DOCTYPE html><html><head><title></title><style type="text/css">p.MsoNormal,p.MsoNoSpacing{margin:0}</style></head><body><div>On Tue, Jan 9, 2024, at 3:28 AM, Olly Betts wrote:<br></div><blockquote type="cite" id="qt" style=""><div>Thanks, that looks good - now merged.<br></div></blockquote><div><br></div><div>Thanks!<br></div><div><br></div><blockquote type="cite" id="qt" style=""><div>Did you already check the other ranges for cased letters?  I can but if<br></div><div>you have already there's not much point.<br></div></blockquote><div><br></div><div>I did not. If you find time, that'd be great. Otherwise I can make room for it in the next days.<br></div><div><br></div><blockquote type="cite" id="qt" style=""><div>> The fullwidth "hello ,world" tests suggests to me that<br></div><div>> either Xapian should allow for Unicode normalization, or application<br></div><div>> developers must take care of this before indexing.<br></div><div><br></div><div>We currently leave it to the API user to normalise Unicode<br></div><div>representation, though maybe we should provide support for doing so.<br></div></blockquote><div><br></div><div>Thinking some more about this, I think it's sane to leave this out of Xapian. Unless there is also some bookkeeping added within Xapian to tell which normalisation was applied to terms, which can get complex for sub-databases or mixed normalisations within one database.<br></div><div><br></div></body></html>