.. _w04-sync-design:


======================================================
WykĹad 4: UkĹady synchroniczne, przetwarzanie potokowe
======================================================

Data: 10.11.2020

.. toctree::

.. contents::


Przetwarzanie sekwencyjne a przetwarzanie potokowe
==================================================

ZaĹĂłĹźmy, Ĺźe chcemy zbudowaÄ ukĹad liczÄcy aproksymacjÄ funkcji ``sin`` przez
przybliĹźenie wielomianami drugiego stopnia::

    # Liczby tutaj sÄ staĹoprzecinkowe â dla uproszczenia przykĹadu,
    # pomijam takie szczegĂłĹy jak przesuniÄcie "przecinka" w odpowiednie
    # miejsce czy sprecyzowanie ich szerokoĹci.
    x = input()
    # [1] mapujemy x do przedziaĹu [0, tau), mapujemy na [0, 1)
    x1 = fract(x * (1 / TAU))
    # Dzielimy przedziaĹ [0, tau) na 256 rĂłwnych przedziaĹĂłw, dla kaĹźdego
    # wybieramy wielomian drugiego stopnia najlepiej przybliĹźajÄcy sin(x)
    # na danym przedziale.
    A = [...256 liczb...] # wspĂłĹczynniki przy x**2
    B = [...256 liczb...] # wspĂłĹczynniki przy x
    C = [...256 liczb...] # wspĂłĹczynniki staĹe
    # GĂłrne 8 bitĂłw x1 wybiera przedziaĹ i wspĂłĹczynniki z powyĹźszej tabeli,
    # reszta bitĂłw to parametr wielomianu
    r = x1[-8:]
    x2 = x1[:-8]
    # [2] liczymy A * x + B
    t = A[r] * x2 + B[r]
    # [3] liczymy A * x**2 + B * x + C
    y = t * x2 + C[r]
    output(y)

Jak widzimy, nasz ukĹad bÄdzie musiaĹ dla kaĹźdego obliczenia wykonaÄ:

1. Trzy dostÄpy do pamiÄci (``A``, ``B``, ``C``)
2. Trzy mnoĹźenia (``[1]``, ``[2]``, ``[3]``)
3. Dwa dodawania (``[2]``, ``[3]``)

ProjektujÄc taki ukĹad mamy dostÄpnych wiele sposobĂłw realizacji, ktĂłre
rĂłĹźniÄ siÄ:

1. PowierzchniÄ powstaĹego ukĹadu
2. MaksymalnÄ czÄstotliwoĹciÄ ukĹadu
3. OpĂłĹşnieniem ukĹadu w cyklach (czas od otrzymania ``x`` do obliczenia ``y``)
4. PrzepustowoĹciÄ ukĹadu w obliczeniach na cykl


Prosty ukĹad kombinacyjny
-------------------------

MoĹźemy po prostu zapisaÄ powyĹźszy pseudokod jako ukĹad kombinacyjny, ktĂłry
bÄdzie wykonywaĹ caĹe obliczenie w jednym cyklu zegara.  Tak skonstruowany
ukĹad bÄdzie miaĹ nastÄpujÄce cechy:

1. Powierzchnia: 3 mnoĹźniki, 2 ukĹady dodajÄce, 3 porty odczytu
2. Maksymalna czÄstotliwoĹÄ ukĹadu: 1 / (3 * opĂłĹşnienie mnoĹźnika + 2 * opĂłĹşnienie ukĹadu dodajÄcego + opĂłĹşnienie portu odczytu)
3. OpĂłĹşnienie ukĹadu: â¤1 cykl
4. PrzepustowoĹÄ ukĹadu w obliczeniach na cykl: 1

Realizacja ukĹadu w ten sposĂłb jest zazwyczaj zĹym pomysĹem:

1. PowaĹźnie ogranicza to maksymalnÄ czÄstotliwoĹÄ zegara w naszym ukĹadzie
   (co wpĹywa na wydajnoĹÄ caĹej domeny zegarowej)
2. Wymagane sÄ asynchroniczne porty odczytu


Maszyna stanĂłw
--------------

Tworzymy maszynÄ stanĂłw, na przykĹad z nastÄpujÄcymi stanami:

1. ``INPUT``: wczytujemy wejĹcie, liczymy ``x1, r, x2``
2. ``READ_A``: wczytujemy ``A[r]``
3. ``MUL_1``: liczymy ``A[r] * x2``, wczytujemy ``B[r]``
4. ``ADD_1``: liczymy ``t``
5. ``MUL_2``: liczymy ``t * x2``, wczytujemy ``C[r]``
6. ``ADD_2``: liczymy ``y``, dajemy wynik

Aby zredukowaÄ powierzchniÄ, wspĂłĹdzielimy ukĹad mnoĹźÄcy i dodajÄcy oraz port odczytu miÄdzy stanami.  W nMigen mogĹoby to wyglÄdaÄ np. nastÄpujÄco::

    mul_in_a = Signal(...)
    mul_in_b = Signal(...)
    mul_out = Signal(...)
    add_in_a = Signal(...)
    add_in_b = Signal(...)
    add_out = Signal(...)
    m.d.sync += [
        mul_out.eq(mul_in_a * mul_in_b),
        add_out.eq(add_in_a * add_in_b),
    ]
    with m.FSM():
        # ...
        with m.State('INPUT'):
            m.d.comb += [
                mul_in_a.eq(x),
                mul_in_b.eq(CONST_1_BY_TAU),
            ]
            # ...
        with m.State('MUL_1'):
            m.d.comb += [
                mul_in_a.eq(rd_port.data),
                mul_in_b.eq(x2),
            ]
            # ...
        with m.State('MUL_2'):
            m.d.comb += [
                mul_in_a.eq(add_out),
                mul_in_b.eq(x2),
            ]
            # ...

1. Powierzchnia: 1 mnoĹźnik, 1 ukĹad dodajÄcy, 1 port odczytu, trochÄ multiplekserĂłw, trochÄ przerzutnikĂłw, logika maszyny stanĂłw
2. Maksymalna czÄstotliwoĹÄ ukĹadu: 1 / max(opĂłĹşnienie mnoĹźnika, opĂłĹşnienie ukĹadu dodajÄcego, opĂłĹşnienie portu odczytu)
3. OpĂłĹşnienie ukĹadu: 6 cykli
4. PrzepustowoĹÄ ukĹadu w obliczeniach na cykl: â

MoĹźemy sobie wyobraziÄ wiele moĹźliwych wariantĂłw tego rozwiÄzania:

1. Zmniejszamy liczbÄ stanĂłw, na przykĹad przez wykonywanie mnoĹźenia i dodawania w jednym cyklu (i dodanie dodatkowego portu odczytu)
2. Wykonujemy odczyt z pamiÄci asynchronicznie
3. ZwiÄkszamy liczbÄ stanĂłw, dodajÄc dodatkowe rejestry przed albo po mnoĹźeniu â synteza
   moĹźe byÄ w stanie "przesunÄÄ" te rejestry gdzieĹ w Ĺrodek ukĹadu mnoĹźÄcego, zwiÄkszajÄc
   jego maksymalnÄ czÄstotliwoĹÄ

SpowodujÄ one odpowiedniÄ zmianÄ kompromisu miÄdzy powierzchniÄ, czÄstotliwoĹciÄ zegara, a przepustowoĹciÄ.


Potok
-----

Realizujemy podobny ukĹad do naszego pierwszego pomysĹu (ukĹad kombinacyjny),
ale tym razem dodajemy rejestry miÄdzy jego etapami::

    # Etap 1 â wejĹcie
    m.d.sync += x.eq(... input ...),
    # Etap 2 â obliczenie [1]
    m.d.sync += x1.eq(x * CONST_1_BY_TAU)
    # Etap 3 â wczytanie wspĂłĹczynnikĂłw z pamiÄci
    # To jest tylko wyciÄcie bitĂłw â brak opĂłĹşnienia.
    m.d.comb += r.eq(x1[:-8])
    m.d.comb += x2.eq(x1[:-8])
    # PodĹÄczamy odpowiednie adresy do (synchronicznych) portĂłw odczytu.
    m.d.comb += A_read_port.addr.eq(r)
    m.d.comb += B_read_port.addr.eq(r)
    m.d.comb += C_read_port.addr.eq(r)
    m.d.sync += x2_3.eq(x2)
    # Etap 4 â obliczenie [2], mnoĹźenie
    m.d.sync += t_m.eq(x2_3 * A_read_port.data)
    m.d.sync += x2_4.eq(x2_3)
    m.d.sync += B_4.eq(B_read_port.data)
    m.d.sync += C_4.eq(C_read_port.data)
    # Etap 5 â obliczenie [2], dodawanie
    m.d.sync += t.eq(t_m + B_4)
    m.d.sync += x2_5.eq(x2_4)
    m.d.sync += C_5.eq(C_4)
    # Etap 6 â obliczenie [3], mnoĹźenie
    m.d.sync += y_m.eq(x2_5 * t)
    m.d.sync += C_6.eq(C_5)
    # Etap 7 â obliczenie [3], dodawanie
    m.d.sync += y.eq(y_m + C_6)

W powyĹźszym kodzie naleĹźy zauwaĹźyÄ jawne "przekazywanie" wartoĹci miÄdzy
kolejnymi etapami potoku â nie moĹźemy np. w etapie 6 uĹźyÄ po prostu sygnaĹu
``x2``, gdyĹź ten jest juĹź 3 cykle do przodu i zawiera wartoĹÄ dotyczÄcÄ
innego obliczenia.  Musimy mieÄ wiÄc odpowiedniÄ liczbÄ rejestrĂłw miÄdzy
kaĹźdÄ produkcjÄ i konsumpcjÄ wartoĹci, ktĂłra "wyrĂłwna" etapy naszego potoku.
Odpowiada to sygnaĹom ``x2_*`` w powyĹźszym przykĹadzie.

1. Powierzchnia: 3 mnoĹźniki, 2 ukĹady dodajÄce, 3 porty odczytu, duĹźo przerzutnikĂłw (choÄ naleĹźy zauwaĹźyÄ, Ĺźe FPGA Xilinxa majÄ na takie okazje specjalne rejestry przesuwne, doĹÄ efektywne w swojej funkcji)
2. Maksymalna czÄstotliwoĹÄ ukĹadu: 1 / max(opĂłĹşnienie mnoĹźnika, opĂłĹşnienie ukĹadu dodajÄcego, opĂłĹşnienie portu odczytu)
3. OpĂłĹşnienie ukĹadu: 6 cykli
4. PrzepustowoĹÄ ukĹadu w obliczeniach na cykl: 1

Podobnie jak przy maszynie stanĂłw, moĹźemy stworzyÄ wiele wariantĂłw tego potoku (scalajÄc ze sobÄ bÄdĹş dzielÄc etapy).


Sterowanie przetwarzaniem
=========================

NaleĹźy zauwaĹźyÄ, Ĺźe powyĹźsze implementacje algorytmu nie uwzglÄdniajÄ interfejsu
i integracji z resztÄ ukĹadu.  O ile uĹźycie ukĹadu kombinacyjnego jest dosyÄ proste
(dajemy mu wejĹcie, dostajemy wynik), uĹźycie maszyny stanĂłw czy potoku jest nieco
bardziej skomplikowane.

Jest doĹÄ oczywiste, Ĺźe moduĹy naszych ukĹadĂłw czÄsto bÄdÄ miaĹy rĂłĹźne tempo pracy
(nawet przy wspĂłlnym zegarze) â w danym cyklu nasz moduĹ moĹźe nie mieÄ dostÄpnych
danych wejĹciowych (gdyĹź poprzedni moduĹ jescze ich nie obliczyĹ, jeszcze nie
przyszedĹ pakiet sieciowy z nimi, itp), bÄdĹş teĹź nie mieÄ moĹźliwoĹci wysĹania
swoich danych wyjĹciowych (gdyĹź docelowy moduĹ jest "zajÄty").  Analogicznie, nasz
wĹasny moduĹ moĹźe nie mieÄ moĹźliwoĹci w danym momencie przyjÄÄ danych.

W przypadku maszyny stanĂłw, ktĂłra produkuje jedno wyjĹcie z jednego wejĹcia (jak
ta powyĹźej), rozwiÄzanie tego problemu jest dosyÄ proste:

1. Dajemy naszej maszynie sygnaĹ wejĹciowy ``start`` bÄdĹş podobny (patrz zadanie
   1), mĂłwiÄcy kiedy dane wejĹciowe sÄ dostÄpne i powinna ona zaczÄÄ pracÄ.
2. Dajemy naszej maszynie sygnaĹ wyjĹciowy ``busy`` mĂłwiÄcy, kiedy jest ona zajÄta
   (i nie powinniĹmy zlecaÄ jej wiÄcej zadaĹ ani uĹźywaÄ jej wyjĹÄ).

W przypadku bardziej skomplikowanych maszyn stanĂłw (wczytujÄcych wiele wejĹÄ
bÄdĹş produkujÄcych wiele wyjĹÄ) potrzebujemy bardziej skomplikowanych sygnaĹĂłw
sterujÄcych.

Interfejs valid/ready
---------------------

DoĹÄ popularnym i wygodnym mechanizmem kontroli przepĹywu w ukĹadach cyfrowych
jest interfejs valid/ready.  SkĹada siÄ on z nastÄpujÄcych sygnaĹĂłw:

- ``ready`` (od konsumenta do producenta)
- ``valid`` (od producenta do konsumenta)
- ``payload``: dowolny zbiĂłr sygnaĹĂłw z danymi (od producenta do konsumenta)

Semantyka tego interfejsu jest nastÄpujÄca:

1. Producent:

   - jeĹli nie ma gotowego pakietu danych, ustawia ``valid`` na 0
   - jeĹli ma gotowy pakiet, wystawia go na sygnaĹach ``payload`` i ustawia ``valid`` na 1

2. Konsument:

   - jeĹli jest w stanie zaakceptowaÄ pakiet danych, ustawia ``ready`` na 1
   - jeĹli nie jest, ustawia ``ready`` na 0

3. W momencie nastÄpienia zbocza zegara, jeĹli zarĂłwno producent jak i konsument byli gotowi
   (zachodzi ``valid & ready``), pakiet danych uwaĹźa siÄ za przesĹany.  W przeciwnym wypadku,
   nic siÄ nie dzieje.

Implementacja takiego interfejsu w maszynie stanĂłw jest prosta â dla interfejsĂłw
konsumujÄcych dane, ustawiamy (kombinacyjnie) ``ready`` na 1, gdy jesteĹmy w stanie
w ktĂłrym oczekujemy danych, po czym uzaleĹźniamy przejĹcie do nastÄpnego stanu
(i caĹÄ naszÄ logikÄ, w tym pobranie danych ``payload``) od prawdziwoĹci
``valid``.  Dla interfejsĂłw produkujÄcych dane, robimy na odwrĂłt.

PrzykĹad maszyny stanĂłw z takim interfejsem moĹźemy zobaczyÄ tutaj: :ref:`ex-fsm`.


ObsĹuga potokĂłw, bÄbelki
------------------------

W przypadku potokĂłw, sterowanie robi siÄ bardziej skomplikowane â aby
poprawnie obsĹugiwaÄ potok, musimy wiedzieÄ ile on ma etapĂłw, i na ktĂłrych
etapach potoku znajduje siÄ ktĂłra paczka naszych danych.  Jest jasne, Ĺźe
nie zawsze wszystkie etapy potoku bÄdÄ zawieraĹy sensowne dane â
w szczegĂłlnoĹci nawet, jeĹli mamy nieskoĹczony i nieprzerwany strumieĹ
danych wejĹciowych, przy starcie ukĹadu bÄdziemy mieÄ "puste" etapy.
Takie puste etapy (zawierajÄce Ĺmieciowe dane) nazywa siÄ "bÄbelkami"
potoku.

W praktyce jako czÄĹÄ potoku zazwyczaj przekazuje siÄ miÄdzy etapami 1-bitowÄ
flagÄ, czy dany etap zawiera bÄbelek.  MoĹźna teĹź analogicznie przekazywaÄ bardziej
skomplikowane metadane (choÄ na to bywajÄ lepsze sposoby).


Potoki a interfejsy valid/ready
-------------------------------

GdybyĹmy mieli dostosowaÄ nasz pokazany wyĹźej potok do interfejsĂłw valid/ready
na obu koĹcach, musielibyĹmy oczywiĹcie dodaÄ do niego informacjÄ o bÄbelkach.
Okazuje siÄ jednak, Ĺźe wciÄĹź jest to nietrywialne.

Stwierdzenie, czy ostatni etap naszego potoku zawiera sensowne dane i ustawienie
flagi ``out_valid`` jest doĹÄ trywialne â ustawiamy jÄ, jeĹli na koĹcu nie mamy
bÄbelka.  ZauwaĹźmy jednak, Ĺźe jeĹli ``out_ready`` nie jest ustawione, a ``out_valid``
jest, musimy zablokowaÄ caĹy potok (nie wykonywaÄ Ĺźadnych obliczeĹ, efektywnie
zawierajÄc wszystkie nasze synchroniczne obliczenia w wielkim ``m.If``).  Jednak
oznacza to teĹź, Ĺźe moĹźliwoĹÄ zaakceptowania danych na wejĹciu (czyli ``in_ready``)
zaleĹźy (kombinacyjnie!) od moĹźliwoĹÄi wysĹania danych na wyjĹciu::

    # UWAGA: niezalecane
    m.d.comb += out_data.eq(data_7)
    m.d.comb += out_valid.eq(valid_7)
    m.d.comb += in_ready.eq(0)
    with m.If(~valid_7 | out_ready):
        # WejĹcie
        m.d.comb += in_ready.eq(1)
        m.d.sync += [
            data_1.eq(in_data),
            valid_1.eq(in_valid),
        ]
        # Etapy potoku
        # .. caĹa logika synchroniczna ..
        m.d.sync += [
            valid_2.eq(valid_1),
            valid_3.eq(valid_2),
            # ...
            valid_7.eq(valid_6),
        ]

Tworzenie ukĹadĂłw, w ktĂłrych wyjĹciowe sygnaĹy sterujÄce zaleĹźÄ kombinacyjnie
od wejĹciowych sygnaĹĂłw sterujÄcych nie jest jednak dobrym pomysĹem â przy
ĹÄczeniu kilku takich ukĹadĂłw opĂłĹşnienia kombinacyjne dodajÄ siÄ, a w niektĂłrych
przypadkach Ĺatwo teĹź o pÄtlÄ kombinacyjnÄ.  NaleĹźy raczej zapewniÄ, Ĺźeby
wszystkie sygnaĹy sterujÄce byĹy synchroniczne bez Ĺźadnych ĹcieĹźek
kombinacyjnych od wejĹcia (wiele standardĂłw interfejsu jak np. AXI ma to jako
twarde wymaganie).

PrzydatnÄ konstrukcjÄ, ktĂłra pozwala dostosowaÄ nasz potok do takiego wymagania
jest dodatnie dodatkowego bufora, ktĂłry bÄdzie "ĹapaĹ" dane gdy potok zostanie
zablokowany, pozwalajÄc uniezaleĹźniÄ decyzje o pracy ukĹadu od gotowoĹci
konsumenta w danym cyklu (potok zostanie zablokowany dopiero w nastÄpnym
cyklu, po zapeĹnieniu dodatkowego bufora)::

    buf_valid = Signal()
    buf_data = Signal(out_data.shape())

    # JeĹli nasz dodatkowy bufor zostaĹ zapeĹniony,
    # prĂłbujemy wysĹaÄ dane z bufora; w przeciwnym wypadku
    # z koĹca potoku.
    m.d.comb += out_data.eq(Mux(buf_valid, buf_data, data_7))
    m.d.comb += out_valid.eq(buf_valid | valid_7)
    m.d.comb += in_ready.eq(0)
    # Potok dziaĹa (i akceptuje wejĹcie) gdy dodatkowy bufor
    # jest pusty bÄdĹş na koĹcu jest bÄbelek.
    with m.If(~valid_7 | ~buf_valid):
        # WejĹcie
        m.d.comb += in_ready.eq(1)
        m.d.sync += [
            data_1.eq(in_data),
            valid_1.eq(in_valid),
        ]
        # Etapy potoku
        # .. caĹa logika synchroniczna ..
        m.d.sync += [
            valid_2.eq(valid_1),
            valid_3.eq(valid_2),
            # ...
            valid_7.eq(valid_6),
        ]
        # JeĹli konsument blokuje, a mamy dane, zapeĹnij bufor.
        with m.If(~out_ready & valid_7):
            m.d.sync += buf_valid.eq(1)
            m.d.sync += buf_data.eq(data_7)

    with m.If(out_ready & buf_valid):
        # JeĹli dane z bufora zostaĹy zaakceptowane, zwolnij bufor.
        m.d.sync += buf_valid.eq(0)