-
Notifications
You must be signed in to change notification settings - Fork 5
/
Copy pathaladdin-thoughts
44 lines (33 loc) · 3.15 KB
/
aladdin-thoughts
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
http://wiki.babel.baidu.com/twiki/bin/view/Ps/Aladdin/Aladdin%E7%BB%BC%E8%BF%B0
需求识别
现有方法:专名辞典(挖掘)、特定规则(机构名规则、特征词等)、日志挖掘-->专名辞典
用户行为分析
目前用户行为分析在 Aladdin 中主要应用在需求退场和需求度调整上:
* 根据用户对aladdin结果的点击,以及点击在所有结果上的分布,判断需求以及aladdin满足的程度 * 根据上述判断决定将某个query的某个需求退场,还是需求度调整(目前仅有降低需求度)
http://wiki.babel.baidu.com/twiki/bin/view/Ps/Aladdin/PicCacheIntro
阿拉丁计划要求结果页不再只有单纯的文字。为了支持结果页展示图片,需要搭建图片cache服务器,使得用户能够快速、稳定的获取图片
http://wiki.babel.baidu.com/twiki/bin/view/Ps/Aladdin/AladdinTopicOverview
通用特殊库检索(gss)
提供统一的库挂载、配置/词表更新、网络交互框架,通过挂载不同类型阿拉丁的策略包(So),达到对不同特殊库的检索功能。
垂直检索架构(ms-index)
提供一套基于多属性+短摘要的实时检索系统,满足对一类行业数据中各属性的组合检索+筛选,title+desc 的文本匹配,并提可以灵活定制:按字段统计、多粒度排序、多需求满足、多字段类聚的高阶Rank功能。
http://wiki.babel.baidu.com/twiki/bin/view/Ps/WebPMAla/Aladingjiegouhuawenti
2.3. Query变换
结构化query变换可以通过配置属性词的同义词、杂质词、日常归一化来扩大召回。
2.3.1. 属性词的同义词
如将属性词“身高”配置同义词为“有多高”,这样所有包含身高属性词的pattern都可以受益扩大召回,无需一 一配置pattern。
2.3.2. 杂质词
如pattern[XX][YY]配置的杂质词可以出现在A[XX]B[YY]C的A/B/C任意位置,但不能在[XX]里
2.3.3. 日期归一化
选择是否进行日期归一化以及模糊日期推送方式。
说明:模糊日期将被补上缺省的时间单位成完整时间。例如在2011年7月11日
选择“现在式”,“5号”对应为“20110705”,即补全当年当月。
选择“过去式”,“17号”对应为“20110617”,即补全当年当月后若是未来时间,则自动减去一个最小缺失单位。
选择“将来式”,“3号”对应为“20110803”,即补全当年当月后若是过去时间,则自动加上一个最小缺失单位。
比如query=康熙来了 17号,补全当年当月时间是未来时间2011年7月17日,用户想搜的大部分是已经播出的康熙来了,这时应选择过去式,则为康熙来了 20110617。”
=====问题=====
․ 结构化希望可以配置词典中具体数据的同义词;比如给[明星名]中的“刘德华”配置同义词“华仔”
․ 杂质词希望能以检索规则粒度来配置,不然就会出现badcase,比如“站”配成杂质词,[城市名]到[城市名]这类检索规则有“站”杂质词OK,但[车次]这类检索规则加上“站”后还被召回就是badcase
1. UTR/BWS是什么?
2. KV/结构化/mini分别应对什么样的情况和资源?
3. Aladdin是否有英文的NER接口?