디멀티플렉싱 시 불일치를 허용하는 것이 바람직한 이유는 무엇입니까?

08/25/21


bcl2fastq2 및 BCL Convert를 사용하면 인덱스를 디멀티플렉싱/식별하고 시퀀싱 런에서 각각의 샘플로 리드를 애트리뷰션할 때 견딜 수 있는 불일치 수를 선택할 수 있습니다. 불일치 수는 0으로 설정할 수 있으며, 이는 시퀀스 리드가 샘플 시트의 인덱스와 동일해야 함을 나타냅니다.

대안적으로, 불일치의 수는 1 이상으로 설정될 수 있으며, 이는 이러한 불일치의 수가 허용될 수 있음을 나타낸다. 일반적으로, 견딜 수 있는 불일치의 수를 증가시키면 식별할 수 있는 인덱스의 수도 증가합니다. 대부분의 인덱스에는 0개의 불일치가 있지만, 불일치 허용 오차를 1로 설정하면 일반적으로 식별된 리드 수가 2 - 10% 증가합니다.

한 인덱스를 다른 인덱스에 잘못 할당할 가능성은 시퀀스 간의 해머링 거리와 원래 베이스를 두 번째 인덱스의 정확한 베이스로 변환할 확률에 따라 달라집니다. 해밍 거리는 하나를 다른 스트링으로 변환하는 데 필요한 동일한 길이의 두 스트링의 치환 수입니다. Illumina 인덱스 세트는 일반적으로 4 이상의 인덱스 두 쌍 간의 해머링 거리(n) 또는 불일치 번호(mm)로 설계되었습니다. 이 Hamming 거리(n)는 치환 오류에 대한 상당한 허용 오차, 특히 쌍으로 된 인덱스를 허용하며, 둘 다 식별해야 인서트가 샘플에 할당됩니다.

다음 표는 다양한 플로우 셀 유형, 허용되는 불일치 수(MM), 헤밍 거리(n) 및 단일 또는 이중 인덱스 전략이 있는 NovaSeq 런의 시퀀싱 오류로 인한 잠재적 인덱스 오배정을 추정합니다. 전반적으로, 불일치 수(MM)가 감소하면 해밍 거리(n)가 증가함에 따라 유사한 엄격성을 달성합니다.

플로우셀

리드

단일 지수 (MM=0, n=4)

단일 지수 (MM=1, n=4)

단일 지수 (MM=1, n=5)

이중 인덱스 (MM=1, n=4)

NovaSeq SP

8억

0

204

1

0

NovaSeq S1

16억

0

408

2

0

NovaSeq S2

41억

1

1045

5

0

NovaSeq S4

100억

3

2550

13

0

 

가장 보수적이지 않은 경우는 위치당 오류율이 높더라도 n=4의 Hamming 거리와 MM=1의 불일치입니다. 이 덜 보수적인 시나리오에서 오배정 비율은 0.000013%의 리드 순서로 매우 낮습니다. 이 비율은 인덱스 호핑 또는 기타 인덱스 할당 오류의 원인보다 훨씬 낮습니다. 일반적으로, 1개의 허용된 불일치가 있는 듀얼 인덱싱 전략을 채택하는 것은 0개의 허용된 불일치에 대해 더 엄격한 정책을 설정하는 것보다 오배정을 제거하는 더 저렴하고 효과적인 방법입니다.