user thread가 메모리 컨트롤러 칩이나 DRAM chip 대신 general purpose processor에서 동작하며
correlation prefetching(예전의 미스 address를 보고 예측 및 prefetching)을 software적으로 구현, 데이터를 L2 캐시로 보냄.
- 기존의 하드웨어적 구현은 cost의 부담이 너무 큼
프로세서의 addtional overhead 없이 약간의 L2 캐시의 수정만으로 적용 가능하다.
irregular apps에도 적용 가능하고 prefetching algorithm도 apps에 따라 변경 가능할 정도로 flexible함.
most irregular app에서 1.32배의 성능 향상, 기존의 processor-side sequential prefetcher 사용시 평균 1.46배 성능 향상, prefetching algorithm을 최적화했을 경우 1.53배의 성능 향상을 보임.
계속 읽어야지 -.-
ULMT.pptx
correlation prefetching(예전의 미스 address를 보고 예측 및 prefetching)을 software적으로 구현, 데이터를 L2 캐시로 보냄.
- 기존의 하드웨어적 구현은 cost의 부담이 너무 큼
프로세서의 addtional overhead 없이 약간의 L2 캐시의 수정만으로 적용 가능하다.
irregular apps에도 적용 가능하고 prefetching algorithm도 apps에 따라 변경 가능할 정도로 flexible함.
most irregular app에서 1.32배의 성능 향상, 기존의 processor-side sequential prefetcher 사용시 평균 1.46배 성능 향상, prefetching algorithm을 최적화했을 경우 1.53배의 성능 향상을 보임.
계속 읽어야지 -.-
ULMT.pptx






최근 덧글