08/25/21
bcl2fastq2 및 BCL Convert를 사용하면 인덱스를 디멀티플렉싱/식별하고 시퀀싱 런에서 각각의 샘플로 리드를 애트리뷰션할 때 견딜 수 있는 불일치 수를 선택할 수 있습니다. 불일치 수는 0으로 설정할 수 있으며, 이는 시퀀스 리드가 샘플 시트의 인덱스와 동일해야 함을 나타냅니다.
대안적으로, 불일치의 수는 1 이상으로 설정될 수 있으며, 이는 이러한 불일치의 수가 허용될 수 있음을 나타낸다. 일반적으로, 견딜 수 있는 불일치의 수를 증가시키면 식별할 수 있는 인덱스의 수도 증가합니다. 대부분의 인덱스에는 0개의 불일치가 있지만, 불일치 허용 오차를 1로 설정하면 일반적으로 식별된 리드 수가 2 - 10% 증가합니다.
한 인덱스를 다른 인덱스에 잘못 할당할 가능성은 시퀀스 간의 해머링 거리와 원래 베이스를 두 번째 인덱스의 정확한 베이스로 변환할 확률에 따라 달라집니다. 해밍 거리는 하나를 다른 스트링으로 변환하는 데 필요한 동일한 길이의 두 스트링의 치환 수입니다. Illumina 인덱스 세트는 일반적으로 4 이상의 인덱스 두 쌍 간의 해머링 거리(n) 또는 불일치 번호(mm)로 설계되었습니다. 이 Hamming 거리(n)는 치환 오류에 대한 상당한 허용 오차, 특히 쌍으로 된 인덱스를 허용하며, 둘 다 식별해야 인서트가 샘플에 할당됩니다.
다음 표는 다양한 플로우 셀 유형, 허용되는 불일치 수(MM), 헤밍 거리(n) 및 단일 또는 이중 인덱스 전략이 있는 NovaSeq 런의 시퀀싱 오류로 인한 잠재적 인덱스 오배정을 추정합니다. 전반적으로, 불일치 수(MM)가 감소하면 해밍 거리(n)가 증가함에 따라 유사한 엄격성을 달성합니다.
플로우셀 |
단일 지수 (MM=0, n=4) |
단일 지수 (MM=1, n=4) |
단일 지수 (MM=1, n=5) |
이중 인덱스 (MM=1, n=4) |
|
NovaSeq SP |
8억 |
0 |
204 |
1 |
0 |
NovaSeq S1 |
16억 |
0 |
408 |
2 |
0 |
NovaSeq S2 |
41억 |
1 |
1045 |
5 |
0 |
NovaSeq S4 |
100억 |
3 |
2550 |
13 |
0 |
가장 보수적이지 않은 경우는 위치당 오류율이 높더라도 n=4의 Hamming 거리와 MM=1의 불일치입니다. 이 덜 보수적인 시나리오에서 오배정 비율은 0.000013%의 리드 순서로 매우 낮습니다. 이 비율은 인덱스 호핑 또는 기타 인덱스 할당 오류의 원인보다 훨씬 낮습니다. 일반적으로, 1개의 허용된 불일치가 있는 듀얼 인덱싱 전략을 채택하는 것은 0개의 허용된 불일치에 대해 더 엄격한 정책을 설정하는 것보다 오배정을 제거하는 더 저렴하고 효과적인 방법입니다.