Samonaprawiające się mikroprocesory

Badacze z firmy CalTech rozwijają technologię, dzięki której mikroprocesory będą mogły w ciągu mikrosekund odzyskać sprawność nawet w przypadku awarii tranzystorów na płatku krzemu.

Dzisiejsze serwery do zastosowań krytycznych wykorzystują technologię, dzięki której można uniknąć załamania systemu lub aplikacji nawet w przypadku awarii którejś części składowych. Praktycznie wszystkie najważniejsze magistrale są redundantne, dzięki czemu w przypadku awarii jednej z nich sygnały mogą przepływać inną drogą. Wprowadzono także mechanizm ponowienia danej komendy, dzięki czemu procesor w przypadku problemów może wykonać instrukcję ponownie, unikając błędów wynikających z fluktuacji spowodowanej prawami fizyki rządzącymi mikroświatem. Źródłem problemów może być także awaria pamięci operacyjnej, dlatego wprowadza się technologię jej ciągłej kontroli. W razie stwierdzenia uszkodzenia grupy komórek część pamięci zostaje wyłączona z eksploatacji, a cały serwer nadal pracuje. Wszystkie metody służą do obejścia problemu po fakcie i nie zapewniają odzyskania pełnej sprawności przez procesor w przypadku awarii tranzystora na płatku krzemu.

Badacze z amerykańskiej uczelni Caltech (California Institute of Technology, USA) poinformowali, że opracowana przez nich technologia umożliwi w przyszłości samoczynne działania naprawcze w obrębie samego mikroprocesora. Czas odzyskania sprawności układu liczy się w mikrosekundach. Podczas testów badacze zniszczyli prawie połowę powierzchni układu scalonego działającego jako wzmacniacz, a następnie obserwowali automatycznie obejście problemu przez mikroukład. W przypadku skomplikowanego wzmacniacza czas odzyskania sprawności był krótszy niż sekunda.

Ali Hajimiri, profesor działu inżynierii elektrycznej w Caltech, mówi: "To było niesamowite, gdy cały system zadziałał i układ się naprawił. Doświadczyliśmy następnego kroku ewolucji układów scalonych. Wypaliliśmy laserem prawie pół wzmacniacza, odparowując wiele z jego komponentów, takich jak tranzystory, a układ odzyskał prawie idealną sprawność".

Jak oni to zrobili

Uzyskanie efektu samonaprawiania nie jest proste - w strukturze umieszczono wiele czujników, które ciągle monitorują temperaturę, natężenie prądu, napięcie i moc. Sensory doprowadzają wyniki pomiarów do centralnego procesora, który analizuje wydajność urządzenia i stwierdza, czy niezbędna jest naprawa układu.

Chociaż najprostsze wydaje się zaprogramowanie scenariuszy typowych awarii, badacze poszli inną drogą. Zamiast napisać algorytmy wykrywające każdą możliwą awarię (co byłoby trudne, a nie wiadomo, czy możliwe), wybrali metodę porównań - wykorzystywaną od wielu lat w serwisie urządzeń elektronicznych. W odróżnieniu od serwisanta, który wymienia uszkodzone podzespoły, układ ma za zadanie poradzić sobie z uszkodzeniem bez wymiany podzespołów, jedynie za pomocą zmiany parametrów lub przełączenia połączeń.

Steven Bowers, student zaangażowany w projekt układu wyjaśnia: "Mikroprocesor ma zadany wynik, który należy otrzymać, i został tak zaprogramowany, by ten wynik osiągnąć. Wyzwaniem jest jednak skala - na każdym płatku krzemu znajduje się ponad 100 tys. tranzystorów. Nie znamy wszystkich przyczyn awarii, prawdopodobnie nigdy nie poznamy każdego wariantu, ale nie musimy tego wiedzieć. System został zaprojektowany w taki sposób, że ma znaleźć optymalny stan każdego z podzespołów w każdej sytuacji bez konieczności zewnętrznej interwencji".

Ciekawa przyszłość

Wprowadzenie takiej technologii do układów scalonych otworzy nowe możliwości rozwoju elektroniki. Będzie można spojrzeć na podzespoły elektroniczne w zupełnie inny sposób, jako niezależne obiekty, które potrafią niezależnie działać. "Samonaprawiające się układy będą mogły ominąć problem i działać nawet w przypadku błędu, bez konieczności interwencji człowieka. Jest to kolejny krok w kierunku niezniszczalnych układów, które będą mogły działać o wiele dłużej i lepiej niż dziś" - wyjaśnia Ali Hajimiri

Badacze odkryli także inną zależność - po analizie działania 20 różnych układów okazało się, że wzmacniacze, w których wprowadzono technologię automatycznej optymalizacji pracy i usuwania problemów, zużywały o połowę mniej energii elektrycznej od tych zbudowanych w standardowy sposób. Różnica wynika stąd, że mikroprocesor dokonujący zmian w punktach pracy i połączeniach elementów aktywnych potrafił optymalizować pracę wzmacniacza o wiele skuteczniej, niż mógłby to zrobić konstruktor przed wykonaniem podzespołu.

Zastosowanie automatycznej naprawy uszkodzeń i optymalizacji pracy wprowadzi duże zmiany w konstrukcji układów scalonych. Dan Olds, analityk w firmie Gabriel Consulting Group, mówi: "Technologia podobna do tej, którą rozwijają w Caltech, umożliwi utrzymanie wysokiej wydajności podzespołów. Procesor samoczynnie ominie elementy uszkodzone lub te, których wydajność zdegradowała się z upływem czasu. Mimo wszystko oprogramowanie podobnych opcji w dużej skali będzie na pewno skomplikowanym i kosztownym przedsięwzięciem. Jeszcze długo będziemy musieli poczekać, zanim zostanie wdrożony w praktyce, w sprzęcie dostępnym w sprzedaży".

Metody zastosowane przez badaczy z Caltech są zbliżone do tych, które stosuje się w serwerach przeznaczonych do hostowania krytycznych aplikacji biznesowych. Tam też uszkodzony element się wyłącza lub omija, a całość pracuje bez przerw lub bardzo szybko odzyskuje poprzednią sprawność. Badacze z Caltech zastosowali tę samą ideę, ale wdrożyli ją na poziomie płytki krzemowej.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200