乳腺癌领域之PAM50分类--688IT编程网

乳腺癌领域之PAM50分类

第⼆单元第⼋讲：乳腺癌领域之P A M50分类

⾸次接触这个名词肯定很蒙，因为它是乳腺癌领域的分类名词，需要看许多资料才能了解，我也⼀样，看了⼀些推⽂、英⽂资料、⽂章，才做了⼀些总结P A M 50的意思是P r e d i c t i o n A n a l y s i s o f M i c r o a r r a y 50 ，可以看到是芯⽚时代的产物了，它是2009年由P ar k er 提出的，原⽂在：ht t ps ://as g/doi/f ull/10.1200/J C O.2008.18.1370，⽬前接近3000引⽤量。

使⽤的芯⽚是A gilent hum an 1A v 2 m ic r oar r ay s or c us t om -des igned A gilent hum an 22k ar r ay s ，数据在G S E 10886，它研究了189个pr ot ot y pe s am ples ，得到了⼀个50个分类基因与5个对照基因的R T -qP C R 定量结果，得到4个gene ex pr es s ion–bas ed “int r ins ic ” s ubt y pes ：Lum inal A , Lum inal B , H E R 2-

enr ic hed and B as al-lik e(详见：ht t ps ://genom e.unc.edu/pubs up/br eas t G E O /p am 50_c ent r oids.t x t )。

关于这⼏种分⼦亚型的介绍：ht t ps ://w w w.br eas t c g/s y m pt om s /t y pes /m olec ular -s ubt y pes

前 · ⾔

什么是PAM50

L u mi n al A：hor m one-r ec ept or p o si t i ve(es t r ogen-r ec ept or and/or

pr oges t er one-r ec ept or pos it iv e),H E R2 n eg at i ve,l o w lev els of t he pr ot ein K i-67 =>gr ow s low ly and hav e t he bes t pr ognos is.

L u mi n al B：hor m one-r ec ept or p o si t i ve(es t r ogen-r ec ept or and/or

pr oges t er one-r ec ept or pos it iv e),eit her H E R2 p o si t i ve o r H E R2

n eg at i ve，h i g h lev els of K i-67 =>gr ow s light ly f as t er t han lum inal A&

pr ognos is is s light ly w or s e

T r i p l e-n eg at i ve/b asal-l i ke:hor m one-r ec ept or n eg at i ve(es t r ogen-r ec ept or and pr oges t er one-r ec ept or negat iv e),H E R2 n eg at i ve

Mo re c o mmo n w i th B R C A1 g e n e mu ta ti o n s a mo n g y o u n g e r

a n d A fri c a n-A me ri c a n w o me n..

H E R2-en r i ch ed:hor m one-r ec ept or n eg at i ve(es t r ogen-r ec ept or and

pr oges t er one-r ec ept or negat iv e),H E R2 p o si t i ve=>gr ow f as t er t han

lum inal c anc er s&w or s e pr ognos is

B U T o fte n s u c c e s s fu l l y tre a te d w i th ta rg e te d th e ra p ie s

a i me d a t th e H E R2 p ro te i n (e.g. H e rc e p ti n, P e rj e ta,

T y k e rb, N e rl y n x, K a d c y l a)

N o r mal-l i ke:si mi l ar t o lum inal A=>pr ognos is is s light ly w or s e t han

lum inal A but als o good

os是什么意思肿瘤乳腺癌发育来⾃两种不同的细胞：基体细胞和管腔细胞，还有不同的激素类型

(E R/P R、H E R2受体)，之前在临床上都是根据⼀些I H C m ar k er来进⾏分类

T he m os t c om m on i mmu n o h i st o ch emi cal b r east

can cer pr ognos t ic and t her apeut ic mar ker s us ed inc lude:

es t r ogen r ec ept or,hum an epider m al gr ow t h f ac t or r ec ept or-2,

K i-67,pr oges t er one r ec ept or,and p53.(ht t ps://w bi.nlm.

乳腺癌是⼀个⾼度异质性的疾病，即使临床分期和病理分级相同，患者对的反应和预后也是不同的。⽬前仍然是根据临床病理特点如H E R2表达、雌激素受体状态、肿瘤⼤⼩、分级和淋巴结转移等选择辅助，包括化疗，内分泌，抗H E R2等。为了指导预后，常常采⽤T N M分期、临床病理指标，后来由于⾼通量数据的产⽣，多基因预测成为了⼀个新途径。

举个例⼦：可以看表达量，⽐如有50个基因，有10个特定基因⾼它们

就表⽰Lum inal A，有其他10个基因⾼就是Lum inal B，这就是⼀个模

式；我们只需要⽐较我们的表达矩阵和这个模式进⾏对应

多基因检测有两项已经通过了F D A的批准：

21-g en e O n co t yp eD x assay(G enom e H ealt h I nc,R edw ood C it y,C A)：r is k s t r at if y ear ly-s t age es t r ogen r ec ept or(E R)–pos it iv e br eas t c anc er

70-g en e M ammaP r i n t(A gendia,H unt ingt on B eac h,C A)：E R-pos it iv e and E R-negat iv e ear ly-s t age node-negat iv e br eas t c anc er.

另外前⼈的研究还有：

S i n g l e S amp l e P r ed i ct o r(S S P)：S S P2003 、S S P2006、P A M50

S u b t yp e C l assi f i cat i o n M o d el(S C M)：S C M O D1、S C M O D2 、s im ple

t hr ee-gene m odel (S C M G E N E）

利⽤genefu包来熟悉PAM50分类器

这个是B i o c o n d u c to r的包，使⽤正确的⽅式安装好官⽅教程在：h

ttp s://rd rr.i o/b i o c/g e n e fu/f/i n s t/d o c/g e n e fu.p d f

⾃带了5个乳腺癌芯⽚数据集（br eas t C anc er M A I N Z=》G S E11121、

br eas t C anc er T R A N S B I G=》G S E7390、br eas t C anc er U P P=》G S E3494、

br eas t C anc er U N T=》G S E2990、br eas t C anc er N K I=》数据集没有上传到

G E O）：ht t ps://v ip.biot r ainee.c om/d/689-5

b re a s tC a n

c e rMA IN Z=》GS E11121

⽂章：T he hum or al im m une s y s t em has a k ey pr ognos t ic im pac t in node-negat iv e br eas t c anc er.C anc er R es2008 J ul 1;68(13):5405-13.

S c i-hub:ht t ps://s c i-hub.t w/10.1158/0008-5472.c an-07-5206

⽅法：G P L96（H G-U133A）A f f y m et r ix H um an G enom e U133A A r r ay芯⽚，其中包含了200 t u mo r s o f p at i en t s w ho w er e not t r eat ed by s y s t em ic

t her apy af t er s ur ger y us ing a dis c ov er y appr oac h.

临床信息：biologic al pr oc es s of pr olif er at ion、s t er oid hor m one r ec ept or

ex pr es s ion、B c ell and T c ell inf ilt r at ion

b re a s tC a n

c e rT R A N S B IG=》GS E7390

⽂章：S t r ong t im e dependenc e of t he 76-g en e p r o g n o st i c si g n at u r e f or node-negat iv e br eas t c anc er pat ient s in t he T R A N S B I G m ult ic ent er independent v alidat ion s er ies.C lin C anc er R es2007 J un 1;13(11):3207-14.

S c i-hub:ht t ps://s c i-hub.t w/10.1158/1078-0432.c c r-06-2765

⽅法：G P L96（H G-U133A）A f f y m et r ix H um an G enom e U133A A r r ay芯⽚，f r oz en s am ples f r om198 N-syst emi cal l y u n t r eat ed p at i en t s

b re a s tC a n

c e rU P P=》GS E3494

⽂章：A n ex pr es s ion s ignat ur e f or p53 s t at us in hum an br eas t c anc er

pr edic t s m ut at ion s t at us,t r ans c r ipt ional ef f ec t s,and pat ient s ur v iv al.P r oc N at l A c ad S c i U S A2005 S ep 20;102(38):13550-5.

S c i-hub：ht t ps://s c i-hub.t w/10.2307/3376671

⽅法：G P L96（H G-U133A）A f f y m et r ix H um an G enom e U133A A r r ay芯⽚，f r es hly f r oz en br eas t t um or s f r om a populat ion-bas ed c ohor t of315

w o men r epr es ent ing 65% of all br eas t c anc er s r es ec t ed in U pps ala C ount y, S w eden,f r om J anuar y1,1987 t o D ec em ber31,1989.

b re a s tC a n

c e rU N T =》GS E2990

⽂章：G ene ex pr es s ion pr of iling in br eas t c anc er:under s t anding t he

m olec ular bas is of his t ologic gr ade t o im pr ov e pr ognos is.J N at l C anc er

I ns t2006 F eb 15;98(4):262-72

S c i-hub：ht t ps://s c i-hub.t w/10.1093/jnc i/djj052

⽅法：G P L96（H G-U133A）A f f y m et r ix H um an G enom e U133A A r r ay芯⽚，189inv as iv e

br eas t c ar c inom as and f r om t h r ee p u b l i sh ed gene

ex pr es s ion dat as et s f r om br eas t c ar c inom as.

最后⼀个b re a s tC a n c e rN K I使⽤的是A g i l e n t公司芯⽚

这个R包除了包装了P A M50分类，还加⼊了其他许多分类标准，详见ht t ps://r dr r.io/ bioc/genef u/m an/，使⽤P A M50是因为它的引⽤量很⾼，认可度较⾼

#加载数据

r m(l i s t = l s())

o p t i o n s(s t r i n g s A s F a c t o r s = F)

l o a d(f i l e = '../i n p u t.R d a t a')

a[1:4,1:4]

h e a d(d f)

#检查⾏名(基因名)

> h e a d(r o w n a m e s(d a t))

[1] "0610007P14R i k" "0610009B22R i k" "0610009L18R i k" "0610009O20R i k" [5] "0610010F05R i k" "0610010K14R i k"

除了很多不像常规基因名的基因以外，还有很多基因⼤⼩写不⼀致，这是因为这个数据是⼩⿏的，⽽⼩⿏的基因名与⼈类的不同在于：⾸字母⼤写，其余⼩写

⾸先就是将这⾥的d a t基因名全变为⼤写

r o w n a m e s(d a t)=t o u p p e r(r o w n a m e s(d a t))

当然，最好直接使⽤⼩⿏的分类器，但是⽬前没有，因此只能使⽤⼈类的，不是很准确，但是这个分类是可以借鉴的

#加载g e n e f u

l i b r a r y(g e n e f u)

#可以看到会加载很多依赖包，包含机器学习、并⾏、分类法

L o a d i n g r e q u i r e d p a c k a g e: l i m m a

L o a d i n g r e q u i r e d p a c k a g e: b i o m a R t

L o a d i n g r e q u i r e d p a c k a g e: i C10

L o a d i n g r e q u i r e d p a c k a g e: p a m r

L o a d i n g r e q u i r e d p a c k a g e: c l u s t e r

L o a d i n g r e q u i r e d p a c k a g e: i m p u t e

L o a d i n g r e q u i r e d p a c k a g e: i C10T r a i n i n g D a t a

L o a d i n g r e q u i r e d p a c k a g e: A I M S

L o a d i n g r e q u i r e d p a c k a g e: e1071

L o a d i n g r e q u i r e d p a c k a g e: B i o b a s e

L o a d i n g r e q u i r e d p a c k a g e: B i o c G e n e r i c s

L o a d i n g r e q u i r e d p a c k a g e: p a r a l l e l

这个包也需要转置后的表达矩阵(基因为列)

>d d a t a=t(d a t)

>d d a t a[1:4,1:4]

0610007P14R i k 0610009B22R i k 0610009L18R i k 0610009O20R i k

S S2_15_0048_A30.000000000.000000

S S2_15_0048_A60.000000000.000000

S S2_15_0048_A5 6.45988400 2.544699

S S2_15_0048_A4 6.31388400 3.025273

> d i m(d d a t a)

[1]768 12198

>s=c o l n a m e s(d d a t a);h e a d(s);t a i l(s) ##获得基因名

[1] "0610007P14R i k" "0610009B22R i k" "0610009L18R i k" "0610009O20R i k" [5] "0610010F05R i k" "0610010K14R i k"

[1] "E R C C-00160" "E R C C-00162" "E R C C-00163" "E R C C-00165" "E R C C-00170"

[6] "E R C C-00171"

##发现有的基因名是不符合常规认知的，因此需要进⾏基因名转换

#看下⼈类这个基因注释包中都包含哪些，发现有o r g.H s.e g S Y M B O L，应该就是需要的l s("p a c k a g e:o r g.H s.e g.d b")

#这个注释信息是B i m a p格式的，需要先转换成数据框，利⽤t o T a b l e函数

> c l a s s(o r g.H s.e g S Y M B O L)

[1] "A n n D b B i m a p"

> s2g=t o T a b l e(o r g.H s.e g S Y M B O L)

#求⼩⿏的基因与⼈类的基因的交集，利⽤m a t c h函数，返回位置信息(如果没有对应，就返回N A)。存在N A的原因就是：⼩⿏有的对应不上⼈类基因名，并且⼈类的基因也有未知的

> g=s2g[m a t c h(s,s2g$s y m b o l),1]

#然后做成⼀个数据框

> d a n n o t=d a t a.f r a m e(p r o b e=s,

"G e n e.S y m b o l" =s,

"E n t r e z G e n e.I D"=g)

#下⾯去掉d d a t a和d a n n o t中N A的⾏

>d d a t a=d d a t a[,!i s.n a(d a n n o t$E n t r e z G e n e.I D)] #I D转换

>d i m(d d a t a)

[1]768 10487 #相⽐之前⼤约去掉2000个基因

> d a n n o t=d a n n o t[!i s.n a(d a n n o t$E n t r e z G e n e.I D),]

#看下去除N A后的基因注释和表达矩阵，必须保证注释的基因I D和表达矩阵的基因I D⼀⼀对应

>h e a d(d a n n o t)

p r o b e G e n e.S y m b o l E n t r e z G e n e.I D

372 A4G A L T A4G A L T53947

393A A A S A A A S8086

394A A C S A A C S65985

396A A G A B A A G A B79719

397A A K1A A K122848

688IT编程网

乳腺癌领域之PAM50分类

发表评论

推荐文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

热门文章

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

beautifulsoupfind_all怎样把带有某种属性的标签选出而不含该属性的标 ...

最新文章

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

0.5的倍数的正则表达式

标签列表

688IT编程网

乳腺癌领域之PAM50分类

发表评论

推荐文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

热门文章

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

beautifulsoupfind_all怎样把带有某种属性的标签选出而不含该属性的标 ...

最新文章

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

0.5的倍数的正则表达式

标签列表

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

非零金额正则表达式